Анализ применения глубокого обучения для распознавания сущностей и извлечения отношений

искусственный интеллект глубокое обучение Нейронные сети

1. Распознавание именованных объектов

Распознавание именованных сущностей (NER) заключается в поиске соответствующих сущностей из фрагмента текста на естественном языке и маркировке их местоположений и типов, как показано на рисунке ниже. Распознавание именованных объектов является основной проблемой некоторых сложных задач в области НЛП, таких как автоматический ответ на вопрос, извлечение отношений, поиск информации и т. д. Его эффект напрямую влияет на эффект последующей обработки, поэтому это основная проблема исследования НЛП. .

NER всегда был центром исследований в области НЛП, и теперь он все больше и больше используется в профессиональных областях, таких как лечение, биология и т. д. В таких отраслях часто имеется большое количество профессиональных терминов, и между существительными и существительными существуют разного рода отношения. В последние годы исследование NER изменилось с методов, основанных на словарях и правилах, методов статистического машинного обучения, на методы, основанные на глубоком обучении.Ход исследования NER показан на рисунке ниже.

К методам, основанным на статистическом машинном обучении, в основном относятся: скрытая марковская модель (Hidden Markov Model HMM), максимальная энтропия (ME), метод опорных векторов (SVM), условные случайные поля (CRF) и так далее.

Скрытая марковская модель (HMM) в основном использует алгоритм Витерби для решения последовательности категорий именованных объектов, что является более эффективным и быстрым в обучении и распознавании. Скрытые марковские модели подходят для некоторых приложений, требующих производительности в реальном времени и обработки большого объема текста, например, для поиска информации, например, для распознавания коротких текстовых именованных объектов.

Модель максимальной энтропии (МЭ) имеет компактную структуру и хорошую универсальность. Недостаток заключается в том, что сложность времени обучения высока, а иногда стоимость обучения невыносима. Из-за необходимости явных вычислений нормализации вычислительные накладные расходы относительно велики.

Традиционным и хорошо известным алгоритмом обработки является условное случайное поле (CRF), которое представляет собой условную модель распределения вероятностей другого набора выходных случайных величин при заданном наборе входных случайных величин.Марковское случайное поле, которое представляет собой дискриминативную модель вероятности, некое случайное поле. CRF часто используется для маркировки или анализа данных последовательности, таких как естественный язык или биологические последовательности.Основное применение в NER - предсказать метку каждого слова с учетом ряда функций.

На приведенном выше рисунке X можно рассматривать как признак, соответствующий каждому слову в предложении, а Y можно рассматривать как метку, соответствующую слову. Метки здесь — это имена людей, мест и т. д. в соответствующей сцене.

Преимущества CRF: на основе локального оптимального решения вычислить распределение вероятностей возможных последовательностей y при заданном z.

В последние годы, с быстрым развитием глубокого обучения, такие модели, как RNN и LSTM, широко используются в задачах NLP.Они характеризуются сильными возможностями моделирования последовательностей.Они могут хорошо фиксировать контекстную информацию и иметь нейронные сети.Возможность подходят нелинейности, это преимущества перед CRF. Преимущество LSTM заключается в получении взаимосвязи между образцами в долгосрочных рядах, в то время как BiLSTM может более эффективно получать признаки до и после входного предложения. BiLSTM+CRF показал очень хорошие результаты в большинстве сценариев НЛП. Например, в задаче сегментации слов, по сравнению с традиционным устройством сегментации слов, BiLSTM может использовать двустороннее получение характеристик предложений, а эффект сегментации слов ближе к ощущению человеческого познания.

2. Извлечение отношения

В текущих исследованиях НЛП задачи извлечения отношений широко используются для упрощения данных и построения графов знаний. Учитывая часть ввода пользователя на естественном языке на основе правильной идентификации сущностей, извлечение отношений между ними является важной проблемой, которую необходимо решить в срочном порядке. В настоящее время методы решения этой проблемы делятся на две категории: последовательное извлечение и совместное извлечение. Как правило, традиционный метод извлечения конкатенации заключается в определении взаимосвязи между сущностями на основе извлечения сущностей. В этом методе результаты раннего распознавания сущностей повлияют на результаты извлечения отношений, а ошибки, скорее всего, будут накапливаться до и после. В ответ на эту проблему предлагается совместная модель, основанная на традиционном машинном обучении, которая постепенно используется для совместного обучения этому типу задач НЛП.

Метод совместной модели в основном основан на сквозной модели нейронной сети для одновременной реализации извлечения сущностей и извлечения отношений, что может лучше сочетать сущности и реляционную информацию.

В статье «Совместное извлечение объектов и отношений на основе гибридной нейронной сети» авторы предлагают модель гибридной нейронной сети для распознавания именованных объектов (NER) и классификации отношений (RC). NER и RC используют одну и ту же сеть BiLstm для кодирования входных данных, связывают объекты на основе прогнозов NER, а затем используют сеть CNN для классификации текста между объектами.

CNN для классификации отношений (RC)

Благодаря совместному использованию параметров базовой модели обе задачи будут обновлять общие параметры с помощью алгоритма обратного распространения во время обучения, чтобы реализовать зависимость между двумя подзадачами.

В статье «Нейронная совместная модель для извлечения сущностей и отношений из биомедицинского текста» автор применяет метод совместного обучения к распознаванию биомедицинских сущностей и извлечению отношений. При классификации отношений входное предложение сначала подвергается анализу зависимостей для построения зависимостей. Синтаксическое дерево, а затем введите эту древовидную структуру в сеть Bilstm+RNN для классификации отношений, как показано ниже:

Из вышеприведенных методов видно, что сети двух задач совместно обучаются по разделяемым параметрам, причем обучение выполняется сначала для НЭР, а затем для классификации отношений по результатам НЭР.

В выдающемся документе ACL этого года «Совместное извлечение сущностей и отношений на основе новой схемы тегирования» была предложена новая стратегия тегирования для извлечения отношений, использующая совместный метод для идентификации распознавания именованных объектов (распознавание именованных объектов) и извлечения отношений (извлечение отношений). шаги объединяются: преобразуйте задачу извлечения в задачу маркировки через новую схему тегов, а затем используйте метод глубокого обучения для передачи сквозной модели (сквозной модели). модель тегов) для извлечения окончательного результата. Пример новой схемы аннотации выглядит следующим образом:

На приведенном выше рисунке «CP» означает «Страна-Президент», а «CF» означает «Компания-Основатель», что полностью преобразует исходные две подзадачи в задачу маркировки последовательностей. Автор использует «BIES» (начало, Inside, End , Single) для обозначения позиции текущего слова во всем объекте, а тип отношения берется из предустановленного набора типов отношений. Используйте «1» и «2», чтобы указать информацию о роли сущности в отношении, где «1» указывает, что текущее слово принадлежит Entity1 тройки (Entity1, RelationType, Entity2), и аналогичным образом «2» указывает, что текущее слово принадлежит Entity2, которая объединяет две соседние последовательные сущности в тройку по результату маркировки. Например: отметив этикетку, мы можем увидеть, что комбинация «Объединенные» и «Штаты» образует сущность «Объединенные». Штаты», сущность «Соединенные Штаты» и сущность «Трамп» объединяются в тройку {США, Страна-президент, Трамп}.

Автор статьи в основном рассматривает случай, когда слово принадлежит только одной тройке, а задачу о перекрытии троек, то есть случай, когда несколько троек содержат одно и то же слово, автор еще не рассматривал. Конечная модель показана ниже:

Модель по-прежнему использует BiLSTM для кодирования, а затем использует LSTM при совместном использовании параметров для декодирования.

Эту модель можно использовать для обогащения существующих ресурсов графов знаний.Например, различные интеллектуальные приложения, такие как автоматический ответ на вопрос, интеллектуальный поиск и персонализированные рекомендации, требуют поддержки графов знаний.

3. Резюме

Метод совместного использования параметров все чаще используется в совместном обучении распознаванию сущностей и извлечению отношений на основе нейронной сети.Этот метод имеет широкий спектр приложений в многозадачности и прост и удобен в реализации. Как лучше сочетать эти два типа задач для извлечения сквозных отношений, является важной тенденцией в следующем исследовании, и мы ожидаем появления лучших методов.

【Выбор редактора】

  1. 10 инструментов машинного обучения, за которыми стоит следить в 2018 году
  2. Теперь пришло время изучить другие методы реализации помимо глубокого обучения.
  3. Подробно объясните, как использовать глубокое обучение для устранения фона и достижения матирования.
  4. Анализ настроений с использованием метода python + машинного обучения (подробные шаги)
  5. Не игнорируйте проблемы глубокого обучения, Гэри Маркус обязан лить холодную воду
【Редактор:Пан ГуйюйТЕЛ: (010) 68476606]
Как 2

Введение официального аккаунта AI Pusher