Граф знаний Интеллектуальный метод обучения

искусственный интеллект
Граф знаний Интеллектуальный метод обучения

Это 9-й день моего участия в ноябрьском испытании обновлений, подробности о событии:Вызов последнего обновления 2021 г..

Интеллектуальное изучение графа знаний

Построение графа знаний геологических данных включает два логических компонента: извлечение знаний и управление знаниями. Первый в основном изучает соответствующие геологические знания посредством неконтролируемой обработки, включая пять этапов сегментации слов, частотную статистику, веб-сканер, извлечение ключевых слов и извлечение отношений. Последний в основном состоит из хранения и поиска графа знаний.

(1) Извлечение знаний

Извлечение знаний является ключевым звеном построения графов знаний, а также ключевым звеном обработки геологических документов. В этой статье метод обучения знаний без учителя на основе открытого исходного кода используется для формирования словаря и графа знаний в геологической области посредством автоматического изучения большого количества геологических документов. Процесс извлечения знаний показан на следующем рисунке:

image.png

Извлечение знаний включает три основных этапа: анализ источника данных, извлечение сущностей/концепций и извлечение отношений:

1. Анализ источников данных

Хотя содержание энциклопедии существует в виде веб-страниц, в ней по-прежнему много структурированной информации. Поскольку все энциклопедии имеют свою собственную систему классификации, метки категорий используются для организации большого количества статей. Как правило, каждая запись имеет метку категории, которую можно использовать для обозначения своего типа. Кроме того, большинство записей имеют несколько меток. Например, тег категории для «Стив Джобс» может быть «американский бизнесмен 20-го века», «американский миллиардер», «американский компьютерный бизнесмен» и многие другие в Википедии. Статья «Интеллектуальное обучение графу знаний в отношении геологических данных» в основном посвящена китайской информации в интернет-энциклопедиях. Википедия считается самым большим и популярным общим справочником в Интернете. Однако китайский контент в Википедии не идеален. С одной стороны, общее количество статей в Википедии недостаточно. Кроме того, содержание статей в Википедии относительно короткое, и некоторые их части напрямую переведены с других языков, которым не хватает точного выражения на китайском языке. Поэтому в этой статье мы используем Baike.com вместо Википедии в качестве источника данных для парсинга данных.

2. Извлечение сущности/концепции

Извлечение сущностей/концепций в основном начинается с этих двух источников данных. Комбинируя обработанную текстовую информацию с метками категорий Baike.com, мы можем напрямую отфильтровывать объекты или геологические концепции. Таким образом, извлечение сущности/концепции включает в себяЧетыре восходящих шага: сегментация слов, подсчет частоты, веб-сканирование и извлечение ключевых слов..

Технологию HanLP можно использовать для сегментации слов, фильтрации стоп-слов и частотной статистики.В этой статье алгоритм TextRank используется в качестве движущей силы для введения сегментации слов следующим образом.Во-первых, мы используем стандартный токенизатор HanLP для обработки документов, которые разбиты на слова разных частей речи. Во-вторых, разработан пользовательский словарь данных и расширенный стоп-лист. Наконец, алгоритм TextRank используется для фильтрации слов, не связанных с поисковым контентом, и сохраняется только указанная часть речи, при этом стоп-слова также фильтруются для достижения эффекта извлечения ключевых слов.

Что касается поисковых роботов, мы в основном рассматриваемАвтоинструменты СеленДля обхода тегов категорий записей в Интернет-энциклопедии инструмент может открыть браузер HtmlUnit, выполнить поиск записи и получить доступ к информации тега категории с помощью пользовательского программирования. В частности, метод сканирования онлайн-энциклопедии заключается в следующем: когда мы хотим получить информацию о слове «?», мы должны сначала открыть браузер. Затем найдите и откройте интерфейс энциклопедии для «?» и, наконец, найдите и сохраните элемент тега категории через XPath.

**С точки зрения извлечения ключевых слов, согласно геологическому словарю и меткам категорий, мы можем точно определить, принадлежат ли слова в результате сегментации к геологическим ключевым словам. ** С помощью статистических характеристик тегов категорий Википедии мы извлекли некоторые ключевые слова, включая географию, добычу полезных ископаемых, океан, горные породы, гидрологию, окружающую среду, стихийные бедствия, биологию, города, воздух, нефть, дороги, растения, энергию, металлургию, гражданское строительство. . Мы помещаем все просканированные метки категорий в коллекцию карт. Вызывая метод карты containsKey, мы можем определить, содержит ли собранный объект ключ, и если ответ положительный, объект определяется как геологический объект.

3. Извлечение отношения

Обоснование правил ассоциации состоит в том, что если два понятия или сущности часто встречаются в одной и той же единице (например, в документе, абзаце или предложении), мы можем быть уверены, что между ними существует какая-то связь. Нас интересует не конкретная семантическая связь между двумя понятиями, а степень корреляции между ними.Поэтому более важно судить о степени родства между двумя понятиями посредством анализа совпадений в документах.. По мере увеличения количества обрабатываемых документов два понятия становятся более актуальными, если они часто встречаются вместе. Этот подход также мотивирован процессом чтения и обучения человека.Однако этот метод подходит только для обработки большого количества документов. Этот метод неэффективен при небольшом количестве документов.

В то же время целью сканирования веб-энциклопедий является получение взаимосвязей между понятиями и сущностями за счет использования открытых источников данных в онлайн-энциклопедиях. Как было сказано выше, здесь мы в основном рассматриваем категориальные отношения.

Используя два вышеуказанных метода, наши правила извлечения отношений следующие: с точки зрения релевантности мы устанавливаем релевантность ? для каждого понятия, где ? имеет начальное значение 0. После обработки документа корреляция между всеми словами, встречающимися в документе, увеличивается на 1. Значение ? обновляется каждый раз при обработке документа. Кроме того, каждое понятие имеет метки категорий в качестве атрибутов.