Сегмент знаний (6): Слияние знаний

алгоритм
Сегмент знаний (6): Слияние знаний

Что такое слияние знаний

即合并两个知识图谱(本体/实体)。
基本的问题都是研究怎样将来自多个来源的关于同一个实体或概念的描述信息融合起来。
需要确认的是:
    - 等价实例
    - 等价类/子类
    - 等价属性/子属性

image.png

一个例子如上图所示,图中不同颜色的圆圈代表不同的知识图谱来源,
其中在dbpedia.org来源中的Rome 和geoname.org来源的roma是同一实体,通过两个sameAs链接。
不同知识图谱间的实体对齐是KG融合的主要工作。

除了实体对齐外,还有概念层的知识融合、跨语言的知识融合等工作。

这里值得一提的是,在不同文献中,知识融合有不同的叫法,如本体对齐、本体匹配、Record Linkage、Entity Resolution、实体对齐等叫法,但它们的本质工作是一样的。

知识融合的主要技术挑战为两点:
   数据质量的挑战:如命名模糊,数据输入错误、数据丢失、数据格式不一致、缩写等。
                及如何识别2个实体是同一个实体,只有是同一个实体才能进行融合。
                
   数据规模的挑战:数据量大(并行计算)、数据种类多样性、不再仅仅通过名字匹配、多种关系、更多链接等。

Унифицировать, связать, интегрировать

归一:是指待收录实体是否为同一个实体。
     从字面上理解,多个归于一个。如果有几个待收录实体是同一个实体,则先把这几个待收录实体归于一个实体。


关联:待收录实体和核心集中的实体是否为同一个实体。
融合择优:是实体属性的择优。