Публично впервые! Применение глубокого обучения в построении графа знаний

машинное обучение глубокое обучение

Введение Алимея: В сегодняшнюю эпоху интеллекта поисковые системы могут не только понимать информацию, полученную пользователями, и обобщать контент, относящийся к теме поиска, но также постепенно создавать полную систему знаний, связанную с результатами поиска, чтобы пользователи могли получать неожиданные результаты. результаты. открытие. Карта знаний и группа приложений Shenma Search постоянно исследуют этот путь.

Вчера мы представили метод извлечения отношений на основе DeepDive и его применение при построении данных графа знаний (портал:Как инженеры Али выигрывают «твердые кости», построенные на данных графа знаний?). Этот метод обладает высокой точностью и хорошим взаимодействием, а также продемонстрировал большие возможности при извлечении отдельных взаимосвязей. Сегодня мы продолжим делиться с вами технологией извлечения отношений на основе глубокого обучения, ее исследованием и практикой построения данных графа знаний Shenma, а также некоторыми проблемами, возникающими в процессе внедрения бизнеса. обсуждаем с вами.

Введение в модели глубокого обучения

Система DeepDive в значительной степени полагается на инструменты НЛП на этапе обработки данных.Если в процессе НЛП есть ошибки, эти ошибки будут постоянно распространяться и усиливаться на последующих этапах маркировки и обучения, влияя на окончательный эффект извлечения отношений. Чтобы избежать такого рода распространения и влияния, в последние годы методы глубокого обучения все больше ценятся и применяются в задачах извлечения отношений. В этой главе в основном представлен метод извлечения отношений, который сочетает в себе контролируемую аннотацию дальнего действия с моделью на основе сверточной нейронной сети и некоторыми усовершенствованными методами этого метода.

Модель кусочно-сверточных нейронных сетей (PCNN)

Модель PCNN была предложена Зенгом и др. в 2015 году и в основном предлагает решения двух проблем:

  • Стремясь решить проблему неправильной маркировки удаленного контроля, модель предлагает использовать обучение с несколькими экземплярами для извлечения обучающих примеров с высокой степенью достоверности из обучающего набора для обучения модели.

  • Стремясь к ошибкам и последующим проблемам распространения ошибок в процессе извлечения признаков традиционных статистических моделей, эта модель предлагает использовать кусочно-сверточные нейронные сети для автоматического изучения признаков, тем самым избегая сложного процесса НЛП.

На следующем рисунке представлена ​​схема модели PCNN:

Модель PCNN в основном включает следующие этапы:

Эксперименты показывают, что верхнее значение N метода PCNN + обучения с несколькими экземплярами на 5 процентных пунктов выше, чем у метода, использующего только обучение с несколькими экземплярами.

Механизм внимания и другие улучшения

Приведенная выше модель выбирает только одно предложение для каждой пары сущностей для изучения и прогнозирования, теряя много информации из других правильно аннотированных предложений. Чтобы более эффективно использовать как можно больше правильно помеченных предложений, отфильтровывая неправильные пометки, Лин и др. предложили алгоритм PCNNs+Attention (APCNN) в 2016 году. По сравнению с предыдущей моделью PCNN, этот алгоритм добавляет механизм внимания на уровне предложения после слоя пула и перед слоем softmax.Схема алгоритма выглядит следующим образом:

В дополнение к механизму «Внимание» в модель обучения с несколькими экземплярами также добавляется некоторая другая вспомогательная информация для повышения качества извлечения отношений, например, добавление информации описания объекта при вычислении векторов объектов (Ji et al., 2017); использование внешних нейронные сети. Сеть получает такую ​​информацию, как надежность данных и достоверность выборки, чтобы направлять обучение модели (Tang et al., 2017).

На следующем рисунке показано сравнение точности и скорости отзыва каждой модели и улучшенного алгоритма Минц не занимается проблемой неправильной метки удаленного наблюдения, а напрямую использует все помеченные примеры для обучения, MultiR и MIML используют вероятностные графические модели например, скрининг PCNN+MIL — это модель, представленная в первом разделе этой главы; APCNN добавляет механизм внимания на основе PCNN+MIL; PCNN+D добавляет использование описательной информации на основе PCNN+MIL; APCNN+ D Добавлено использование описательной информации поверх APCNN. Эксперимент принимает широко используемый Новый Набор данных York Times (NYT) (Riedel et al., 2010).

Прогресс применения методов глубокого обучения в построении графов

Применение моделей глубокого обучения при построении данных графа знаний Shenma все еще находится на стадии исследования.В этой главе будет представлен текущий ход работы и некоторые проблемы, возникающие в процессе реализации бизнеса.

Подготовка корпуса и векторизация сущностей

Модели глубокого обучения во многом зависят от точности векторизации токенов. Так же, как и при подготовке корпуса на основе метода DeepDive, сегментация токенов здесь изменена со слов на основе сущностей, и превалирует степень детализации сущностей, определяемая ссылкой NER. Способность вектора, сгенерированного Word2vec, представлять токены, связана с полнотой и масштабом корпуса.Поэтому мы выбираем корпус энциклопедии в качестве учебного корпуса word2vec.Статистические данные и настройки параметров модели показаны в следующей таблице:

Чтобы проверить эффект обучения вектора слов, мы провели различные тесты результатов word2vec, и здесь приведены некоторые экспериментальные данные. На следующем рисунке показан эксперимент по поиску наиболее релевантной сущности для заданной сущности:

Ниже приведен эксперимент, в котором, учитывая пару сущностей и одну сущность из предсказанной пары сущностей, вычисляют предсказанную сущность другой сущности из пары сущностей. Были случайным образом выбраны пять видов взаимосвязей прогнозирования и построено 15 групп заданных пар сущностей и прогнозируемых пар сущностей.Результаты прогнозирования показаны на рисунке ниже.За исключением двух примеров Piaohong, остальные прогнозы верны:

Выбор модели и подготовка данных для обучения

В конкретном приложении мы решили использовать модель APCNN. Мы воспроизводим несколько ключевых моделей, упомянутых в предыдущей главе, в стандартном наборе данных NYT, включая CNN+MIL, PCNN+MIL, CNN (модель CNN, основанная на механизме Attention) и APCNN. Результаты повторяемости в основном согласуются с базовым уровнем, приведенным в статье, а модель APCNN значительно превосходит другие модели. На следующем рисунке показано сравнение результатов квазивызова нескольких моделей:

Чтобы получить подробные обучающие данные, мы берем 15 основных отношений в графе знаний, которые относительно хорошо зарекомендовали себя в областях персонажей, географических местоположений, организаций, фильмов, телевидения, книг и т. д., таких как актеры кино, авторы книг. , руководители компаний, персонажи Место рождения и т. д., по сравнению с корпусом энциклопедии, получаются помеченные положительные примеры со значением отношения одного из 15 отношений, общее число которых составляет порядка десятков миллионов, а выходные примеры без помеченное значение отношения (значение отношения NA) превышает 100 миллионов.

Попытка применения и анализ проблемы

Модель APCNN все еще находится на стадии испытаний при построении вспомогательных данных графа знаний. С точки зрения вычислительной мощности модель APCNN имеет больше преимуществ, чем система DeepDive: она может одновременно вычислять несколько взаимосвязей в крупномасштабном корпусе, а итеративный процесс обновления не требует ручной проверки и взаимодействия. Однако в процессе бизнес-лендинга мы также столкнулись с некоторыми проблемами, которые можно резюмировать следующим образом:

  • Крупномасштабные эксперименты занимают слишком много времени, что усложняет настройку параметров и итерацию каждой стратегии алгоритма.

  • В настоящее время общепринятым тестовым корпусом в академических кругах является набор данных NYT на английском языке.При применении той же модели к китайскому корпусу возникает проблема сложности сравнительного анализа частоты квазивызовов.

  • В процесс глубокого обучения сложно вмешаться вручную. Предположим, мы хотим предсказать брачные отношения (Ян Ми, Хавик Лау), но начиная с первоначальной крупномасштабной генерации векторов слов на основе корпуса, если доминирующие отношения в совместном появлении (Ян Ми, Хавик Лау) в корпус представляет собой не брачные отношения, а фильм и телевизионную драму (например, «Этот фильм рассказывает историю Ся Ваньцин, которую играет Ян Ми, которую спас плейбой Цяо Цзиньфань, которого играет Хавик Лау, перед дилеммой расчетов ее подруги и брака ее парня, но попала в большую ловушку"), или на основе отношений совместного посещения некоторых мероприятий (таких как "Ян Ми и Лю Кайвэй совместно служили послом общественного благосостояния Sina Xiamen Love Библиотека"), вектор отношений, полученный на этапе внимания, будет смещен в сторону кооперативных отношений, что приведет к расчету пакета. Когда каждое предложение взвешено, предложения, выражающие супружеские отношения, трудно получить высокие баллы, что приводит к смещению в последующее обучение.

  • Результаты моделей глубокого обучения трудно оценить вручную, особенно для пар сущностей, которые не отображаются в графе знаний, необходимо выполнить сопоставление и извлечение в крупномасштабной матрице промежуточного процесса и визуализировать матрицу весов как оценку. каждого предложения в пакете.Потребуется много вычислительных ресурсов и труда.

Резюме и перспективы

Метод, основанный на DeepDive, и метод, основанный на глубоком обучении, имеют свои преимущества и недостатки.Следующие два метода обобщаются и сравниваются с четырех аспектов:

1, Выбор и объем корпуса

  • Глубокое погружение можно применять к меньшим и более специализированным корпусам, таким как анализ отношений между историческими личностями; правила могут быть скорректированы в соответствии с характеристиками корпуса и извлеченными отношениями, такими как один к одному или один ко многим. брачные отношения, такие как язык корпуса, который частично соответствует классическому китайскому, привычка и т. д.

  • Модель APCNN подходит для крупномасштабных корпусов, поскольку предпосылкой нормальной работы механизма внимания является то, что векторы сущностей, изученные word2vec, являются богатыми и исчерпывающими.

2, извлечение отношения

  • Deepdive подходит только для оценки одного отношения, а результатом классификации является ожидаемое значение отношения между парами сущностей. Для разных отношений можно использовать разные правила, а точность маркировки обучающего набора можно улучшить за счет маркировки на основе правил.

  • Модель APCNN подходит для задач множественной классификации, а результаты классификации ранжируются по количеству оценок отношения в наборе отношений. Нет необходимости выполнять операции правил для определенного отношения в наборе отношений.

3. данные длинного хвоста

  • Deepdive больше подходит для интеллектуального анализа отношений длинных хвостов данных.Пока это пара сущностей, которые могут быть идентифицированы NER, даже если частота появления очень низка, он также может делать суждения, основанные на контекстуальных характеристиках данных. пара сущностей.

  • Модель APCNN должна гарантировать, что количество раз, когда объект появляется в корпусе, превышает определенный порог, например min_count>=5, чтобы гарантировать, что объект имеет векторное представление word2vec. В пакете есть определенное количество предложений, из которых легко выбрать наиболее похожие для обучения.

4. Генерация и обнаружение результатов

  • Решение Deepdive о том, является ли выходной результат правильным или неправильным, относится только к одному предложению, и одна и та же пара сущностей, появляющаяся в разных предложениях, может давать совершенно разные результаты предсказания. Тест должен быть объединен с исходным предложением, чтобы определить, является ли результат точным.Преимущество состоит в том, что исходное предложение используется в качестве основы для ручной проверки.

  • Модель APCNN выносит суждения для конкретных пар объектов, и для данной пары объектов система выдает согласованные выходные результаты. Для суждения о правильности результатов новых данных необходимо объединить промежуточные результаты для извлечения и проверки выбранного набора предложений в пакете, что увеличивает сложность ручной проверки.

В дальнейшей работе для метода, основанного на DeepDive, при расширении количества взаимосвязей захвата мы рассмотрим оптимизацию и платформизацию накопленных в бизнес-практике усовершенствованных алгоритмов, а заодно построение вспомогательных инструментов пополнения информации, помогающих уменьшить результаты DeepDive. Ручная проверка в процессе написания карты знаний, например, для пары сущностей брачных отношений, мы можем получить пол, дату рождения и другую информацию о человеке из карты, чтобы помочь суждению отношения между правильным и неправильным.

Для методов, основанных на глубоком обучении, мы будем вкладывать больше времени и энергии, чтобы попытаться способствовать внедрению бизнеса и улучшению модели со следующих аспектов:

  • Примените некоторые улучшенные алгоритмы, эффективность которых была доказана DeepDive, к методам глубокого обучения, таким как фильтрация по ключевым словам, связанным с отношениями, уменьшение размера данных и повышение эффективности работы.

  • Визуализируйте промежуточные результаты вычисления, проанализируйте взаимосвязь между вектором отношения и выбором предложения в процессе внимания, попытайтесь установить механизм суждения для результатов выбора и попытайтесь использовать больше информации для получения более точного вектора отношения.

  • Подумайте, как обойти ограничение предварительно установленных коллекций отношений, провести извлечение отношений для открытых полей и автоматически обнаружить новые отношения и знания.

  • Изучите извлечение отношений для других форм данных, помимо текста, таких как таблицы, аудио, изображения и т. д.

использованная литература

[1].Линь Янкай, Лю Чжиюань, Извлечение отношений на основе глубокого обучения [2].Даоцзянь Цзэн, Кан Лю, Юбо Чен и Цзюнь Чжао.2015.Удаленное наблюдение за извлечением отношений с помощью кусочно-сверточных нейронных сетей.В EMNLP.1753 –1762. [3] Гуолян Цзи, Кан Лю, Шичжу Хэ, Цзюнь Чжао. 2017. Дистанционное наблюдение за извлечением отношений с вниманием на уровне предложений и описаниями объектов, Труды тридцать первой конференции AAAI по искусственному интеллекту [4], Силианг Тан, Цзиньцзянь Чжан, Нин Чжан, Фей Ву, Цзюнь Сяо, Ютинг Чжуан, 2017. ENCORE: Регулярные внешние нейронные ограничения для извлечения отношений, SIGIR'17 [5], Цзэн Д., Лю К., Чен Ю. и Чжао Дж. 2015. Дистанционное наблюдение для извлечения отношений через кусочно-сверточный нейрон сетей. EMNLP. [6]. Ридель, С., Яо, Л. и МакКаллум, А. 2010. Моделирование отношений и их упоминаний без маркированного текста. В машинном обучении и обнаружении знаний в базах данных. Springer. 148–163. [ 7. Цэ Чжан, 2015. DeepDive: управление данными. Система для автоматического построения базы знаний.Кандидатская диссертация.[8].Хоффманн Р., Чжан С., Линг X., Зеттлемойер Л. и Велд Д.С. отношений. 49-е ежегодное собрание Ассоциации компьютерной лингвистики: технологии человеческого языка, том 1, стр. 541–550. Ассоциация компьютерной лингвистики [9].. Сурдеану М., Тибширани Дж., Наллапати Р. и Мэннинг С. Д. 2012. Многоэкземплярность многоэтапное обучение для извлечения отношений, В материалах Объединенной конференции 2012 г. по эмпирическим методам обработки естественного языка и компьютерного изучения естественного языка, 455–465, Ассоциация вычислительной лингвистики, [10]. Шинго Такамацу, Иссей Сато и Хироси Накагава, 2012 г. Сокращение неправильных меток в дистанционном контроле для извлечения отношений, Материалы 50-го ежегодного собрания Ассоциации компьютерной лингвистики, стр. 721–729 [11]. Лю К., Лай С., Чжоу Г., Чжао Дж. и др., 2014. Классификация отношений с помощью сверточной глубокой нейронной сети, В COLING, 2335–2344, [12]. и др. 2017. Сообщения ACM Архив домашней страницы CACM Том 60 Выпуск 5, Pages 93-102 [13].Минц, М., Биллс, С., Сноу, Р. и Джурафски, Д. 2009. Дистанционное наблюдение за извлечением отношений без размеченных данных. В материалах Объединенной конференции 47-го Ежегодное собрание ACL и 4-го Международного Совместная конференция AFNLP по обработке естественного языка: Том 2, 1003–1011. Ассоциация вычислительной лингвистики. [14]. http://deepdive.stanford.edu/

Вам также может понравиться

Нажмите на изображение ниже, чтобы прочитать

«Твердые кости», построенные по данным графа знаний,

Как выигрывают инженеры Али?

Как интерпретировать технологию блокчейн с архитектурным мышлением?

Десять лет назад, как он научился технологии, чтобы войти в Али?

обрати внимание на «Али Технологии»

Уловите пульс передовых технологий