График знаний (3): извлечение знаний

алгоритм
График знаний (3): извлечение знаний

предисловие

知识抽取是知识图谱构建的第一步。
其中的关键问题就是如何从异构数据源中自动的抽取信息,得到候选知识。
知识抽取是一种自动化地从半结构化或者无结构化的数据中抽取实体,关系以及属性的技术。
涉及到的关键技术包括:实体的识别,关系的抽取,属性的抽取。


如果把知识图谱比做是一座大楼的话,
那么知识抽取就是给这座大楼输送砖瓦木料。

1/ Что такое извлечение знаний

知识抽取,即从不同来源、不同结构的数据中进行知识提取,形成知识(结构化数据),存入到知识图谱中。
大体的任务分类与对应技术如下图所示:
不同来源指的是:数据的来源,比如说全网数据,自媒体的数据等
不同结构指的是:半结构化数据,无结构化数据(也就是纯文本数据)

image.png

2/Подзадача извлечения знаний

<1>命名实体识别
    检测: 北京是忙碌的城市。 [北京]: 实体
    分类:北京是忙碌的城市。 [北京]: 地名
    
<2>术语抽取
    从语料中发现多个单词组成的相关术语。
    
<3>关系抽取
    王思聪是万达集团董事长王健林的独子。→ →  [王健林] <父子关系> [王思聪]
    
<4>事件抽取
    例如从一篇新闻报道中抽取出事件发生是触发词、时间、地点等信息.

image.png

<5>共指消解
    弄清楚在一句话中的代词的指代对象。

image.png

3/ Извлечение знаний для неструктурированных данных (извлечение знаний из обычного текста)

实体识别与链接:
    实体识别即识别出句子或纯文本中的实体,
    链接就是将该实体与核心集中的对应实体进行链接。
    其中涉及到了实体的识别与消岐技术。
    消歧是一门总的技术,包括包括归一,关联,建边。
    实体识别技术刚刚介绍过,下面把重点放在实体链接部分。
    

4/ Извлечение знаний для полуструктурированных данных

有一定的结构,但是还需要整理,这样的结构就是半结构。
半结构化数据是指类似于百科、商品列表等那种本身存在一定结构但需要进一步提取整理的数据。