График знаний (10): устранение неоднозначности сущностей (объединение, ассоциация, построение границ)

алгоритм
График знаний (10): устранение неоднозначности сущностей (объединение, ассоциация, построение границ)

1/ Сущности разнообразны и неоднозначны

多样性:同一实体在文本中会有不同的指称。eg:飞人、乔帮主、MJ都指美国篮球运动员迈克尔·乔丹
歧义性:相同的实体指称,但不是同一个实体。eg:迈克尔·乔丹指美国篮球运动员、爱尔兰政治家等

2/ Многозначность сущностей

按照目标实体是否给出,实体消歧系统可分为:
基于聚类的实体消歧和基于链接的实体消歧

Кластерная система устранения неоднозначности сущностей (нормализация)

目标实体没有给定(及核心集中还没有收录该实体),以聚类方式对实体指称项进行消歧。
所有指向同一个实体的指称项被消歧系统聚类到同一类别下,
聚类的结果中每一个类别对应一个实体。
    

Система устранения неоднозначности сущностей (ассоциация), основанная на связывании сущностей (ассоциация)

目标实体给定(及核心集中已经收录了该实体,则直接关联就可以了),
将实体指称项与目标实体列表中的对应实体进行链接实现消歧

3/ Метод устранения неоднозначности объекта на основе кластера (нормализация)

在未给定目标实体的情况下(及核心集中还没有收录该实体)
对于给定待消歧的实体指称集合A,以聚类方式实现消歧的系统按以下步骤进行消歧。

对于待消歧实体集合A中的每一个实体a,抽取其特征,并将其表示为特征向量a=w1,w2,w3,w4......  
计算待消歧实体指称项之间的相似度(关键),可由词间距离转换 余弦距离 欧式距离等衡量相似度。
    <1>基于表层特征的实体指称项相似度计算;
    <2>基于扩展特征的实体指称项相似度计算;
    <3>基于社会化网络的实体指称项相似度计算;
采用某种聚类算法对实体指称项聚类,使得聚类结果中每一个类别都对应于一个目标实体上。

Вычисление референтного подобия объекта на основе признаков поверхности

传统方法多利用表层特征计算相似度,这些方法通常是词袋模型(Bag of Words,BoW)模型的延伸,性能不好。
步骤:
特征表示:将实体指称项表示为 Term 向量形式,其中每个 Trem 的权重通常采用 TF-IDF 算法进行计算。
其他表示方法:上下文词向量、Bi-gram表示、句法和语义特征。。。
相似度计算:采用Cosine计算相似度
这类方法都是基于上下文表层特征的关联来计算它们之间的相似度,而没有考虑到上下文特征的内在关联,因此影响聚类效果。

Вычисление референтного сходства сущностей на основе расширенных функций

利用知识资源提升实体消歧的性能。
最直接的方法:使用知识资源来扩展实体指称项的特征表示。

通过抽取属性信息扩展指称项
通过上下文词和Wikipedia中的类别信息
层次化分类体系
结构化关联语义

Расчет схожести ссылки на объект на основе социальной сети

基于社会化网络的实体指称项相似度通常使用基于图的算法,能够充分利用社会化关系的传递性,从而考虑隐藏的关系知识,在某些情况下(特别是结构化数据,eg:论文记录、电影记录等)能够更为准确的实体指称项相似度计算结果。

缺点:只用到上下文中的实体信息,不能完全利用实体指称项的其他上下文信息,因此不能在文本消歧领域取得有竞争力的性能。

过程:

表示成社会化关系图 G = ( V , E ) G=(V,E)G=(V,E) ,其中实体指称项和实体均被表示为节点,节点之间的边表示它们之间的社会化关系。
相似度计算:通常采用图算法中的随机游走算法来计算.

4/ Метод устранения неоднозначности сущности, основанный на связывании сущности (ассоциации)

基于实体链接的实体消歧方法:
   将待消歧实体指称项链接到知识库中特定的实体,也称实体链接(Entity Linking)。
实体链接:将一个命名实体的文本指称项(Textual Mention)链接到知识库中对应实体的过程(若不存在对应实体,则将实体指称项链接到空实体NIL)

实体链接的输入包括两部分:
  (1)目标实体知识库:最常用Wikipedia,或特定领域知识库。
       知识库通常包括:实体表、实体的文本描述、实体的结构化信息(eg:属性/属性值对)、实体的辅助性信息(eg:实体类别);也经常提供额外的结构化语义信息,eg:实体之间的关联
  (2)待消歧实体指称项及其上下文信息

步骤:
   (1)链接候选过滤(Blocking):根据规则或知识过滤大部分指称项不可能指向的实体,仅仅保留少量链接实体候选。
   (2)实体链接(Linking):给定指称项及其链接候选,确定该实体指称项最终指向的目标实体。(重点研究)