Введение в статью | Новое открытие OpenAI в области устранения неоднозначности сущностей

Эта статья была изначально создана "AI Frontline", оригинальная ссылка:Введение в статью | Новое открытие OpenAI в области устранения неоднозначности сущностей
Автор｜ДЖОНАТАН РЕЙМАН
Переводчик｜Хао И
Редактор | Эмили

Руководство по передовой ИИ:В этой статье используется метод саморешения нейронной сети, чтобы определить, принадлежит ли слово 100 автоматически обнаруженным типам, тем самым определяя сущность объекта слова. Например, для предложения «жертва видела, как ягуар пересекает джунгли» вместо прямого вывода, является ли «ягуар» автомобилем, животным или чем-то еще, система будет использовать «20 вопросов», чтобы проанализировать, какие предварительно выбранные категория, к которой относится ягуар. . Этот подход является значительным улучшением по сравнению с современными для нескольких наборов данных Entity Disambiguation.

Оригинальный адрес газеты:
АР Вест V.org/ABS/1802.01…
Адрес проекта на гитхабе:
GitHub.com/openlove/deep…

Диаграмма выше является простой иллюстрацией системы типов. В обучающих данных Jaguar считается Jaguar в 70% случаев, Jaguar в 29% случаев и Leopard в 1% случаев. Судя по нашему «типовому» методу, эффект устранения неоднозначности в первом примере малоэффективен, потому что модель считает, что ягуар может бежать по шоссе, но во втором примере модель явно маловероятна, что ягуар будет бежать. пройти через джунгли.

Мы достигли точности 94,88% на CoNLL(YAGO), предыдущая лучшая точность была 91,50% и 91,70%. И добился точности 90,85% в задаче TAC KBP 2010, в то время как предыдущая лучшая точность была 87,20% и 87,70%. В предыдущих методах использовались векторы слов, но для таких задач, как устранение неоднозначности сущностей, методы на основе типов, как правило, превосходят результаты, поскольку идеальные предсказания «типа» могут давать точность от 98,6% до 99%.

общая структура

Наша система разделена на следующие этапы:

Извлеките внутренние ссылки Википедии для каждого слова, чтобы определить набор сущностей, к которым может относиться каждое слово. Например, когда мы встречаем ссылку jaguar на странице Википедии, мы предполагаем, что ссылка может быть значением jaguar.

en.wikipedia.org/wiki/Jaguar

Определяет набор категорий, к которым принадлежит каждый объект, просматривая дерево категорий Википедии (используя граф знаний Викиданных). Например, внизу страницы в следующей таблице находятся эти категории (все они имеют свои категории, такие как автомобили): Категории: [Британские амбары] [Марки автомобилей] [Автомобиль Jaguar] [Автомобили Jaguar]

En. Wikipedia.org/wiki/Ягуар…'Да

Выберите список из 100 категорий для использования в качестве системы типов, затем оптимизируйте систему, чтобы выбранные категории могли более компактно представлять любую сущность. Таким образом, мы знаем сопоставление объекта с категорией, поэтому для нашей системы типов мы можем представить каждый объект в каждой категории как уникальный двоичный вектор примерно из 100 измерений, который представляет этот объект и принадлежность к каждой категории.
Используя каждую внутреннюю ссылку Википедии и ее контекст для создания обучающих данных, нам нужно использовать нейронную сеть, чтобы изучить сопоставление между словами и 100-мерными двоичными векторами. Этот шаг соединяет предыдущие шаги: ссылки Википедии соединяют слова с объектами, на втором этапе мы знаем категорию каждого объекта, а на третьем шаге выбираем категорию, к которой принадлежит объект в нашей системе типов.
На этапе тестирования, учитывая слово и его контекст, наша нейронная сеть будет выводить вероятность того, что слово принадлежит каждой категории в его системе типов. Если мы знаем точный набор членов класса, мы можем сузить результат до одного объекта (при условии, что результат классификации идеален). Но на самом деле нам нужно вычислить около 20 вероятностных задач: для каждой возможной сущности слова нам нужно использовать байесовскую теорию для вычисления вероятности.

больше примеров

Ниже приведены некоторые примеры систем шрифтов. Щелкните исходный текст для получения дополнительной информации:

Чистые данные

Граф знаний Викиданных может быть преобразован в источник обучающих данных для завершения сопоставления мелких сущностей с типами. Для данной сущности мы используем рекурсивное отношение ее сущности (экземпляра), чтобы определить ее набор типов, например, узел huamn имеет тип human как дочерний элемент. Википедия также обеспечивает сопоставление объектов с категориями через ссылки на категории.

Для некоторых объектов внутренняя статистика ссылок Википедии может предоставить более подходящую фразу. Однако иногда ссылка на конкретный экземпляр, а не на саму категорию, может создать информационный шум (анафора — например, слово «король» будет связано с английским Карлом I). Эта ситуация может привести к резкому увеличению числа релевантных экземпляров и снижению эффективности ссылок (например, королева связана с группой Queen 4920 раз, Елизавета II 1430 раз, а монарх только 32 раза).

Проще всего это сделать, удалить редкие ссылки, но это может привести к потере полезной информации. Вместо этого мы используем граф свойств Викиданных, чтобы эвристически преобразовать ссылку в более «общее» значение, как показано на рисунке ниже.

После этого шага количество связанных сущностей для слова «король» сократилось с 974 до 14, а количество связей от «королева» до «монарх» увеличилось с 32 до 3553.

Выберите хорошую систему типов

Нам нужно выбрать лучшую систему типов и параметры, чтобы максимизировать точность устранения неоднозначности. Найти точное решение очень сложно из-за большого набора возможных типов. Поэтому мы использовали эвристический поиск и стохастическую оптимизацию (эволюционные алгоритмы) для выбора системы типов и градиентный спуск для обучения классификатора типов для прогнозирования производительности системы типов.

Кривая ROC отображает частоту истинных положительных результатов по мере увеличения частоты ложных положительных результатов.На изображении выше представлена кривая ROC с AUC 0,76. Случайный классификатор получит прямую линию в качестве кривой ROC (пунктирная линия на рисунке).

Нам нужно выбрать типы, которые легко различить (чтобы можно было быстро сократить набор возможных сущностей) и в то же время легко изучить (т.е. контекст может предоставить полезную информацию для вывода типа нейронной сети). Мы оцениваем и оптимизируем методы поиска, используя два эвристических критерия: обучаемость и точность. Обучаемость определяется путем использования среднего значения площади под кривой ROC (AUC) для обучения классификатора предсказанию принадлежности к типу с использованием AUC. Повышение точности предсказания типов может объяснить устранение неоднозначности с другой стороны.

Тип Обзор системы

Учитывая диапазон слов, мы используем бинарный классификатор, чтобы прогнозировать вероятность его членов среди 150 000 распространенных типов данных. AUC классификатора определенного типа становится отличительной чертой «оценки обучаемости». Высокая AUC означает, что для этого типа легко делать прогнозы из контекста, а плохо работающий классификатор может быть связан с недостатком обучающих данных для этого типа или с тем, что заданный диапазон слов неидеален (это явление).Часто происходит в некоторые неестественные классы, такие как ISBN). Обучение полной модели может занять несколько дней, поэтому мы используем модель меньшего размера в качестве примера для оценки «показателя обучаемости», обучение которого занимает всего 2,5 секунды.

Теперь мы можем использовать эти оценки способности к обучению и статистику для оценки производительности некоторого подмножества нашей системы типов. На следующем рисунке показан эффект оптимизации с использованием перекрестной энтропии Щелкните исходный текст, чтобы просмотреть процесс динамической оптимизации.

Чтобы лучше понять, какие части проще, а какие сложнее при разработке системы типов, исходный текст предоставляет интерактивную систему, которая позволяет пользователям вручную обучать свою собственную систему типов. вы можете достичь цели устранения неоднозначности. В этой системе вы можете выбрать большой класс, такой как Politics&Business на рисунке ниже, и начать обучение на нем многозначным словам.

Варианты в каждой категории показаны ниже, с возможными ответами для слов в примерах предложений, показанных вверху, правильный ответ выделен цветом, а некоторые из доступных типов приведены внизу. Линии представляют отношение наследования между верхним узлом и нижним узлом.Вы можете обучить классификатор, выбрав отношение наследования, которое хотите использовать. Устранение неоднозначности достигается до тех пор, пока вы не выбрали достаточно отношений наследования, чтобы отделить правильный ответ от других вариантов.

система нервного типа

Теперь мы можем маркировать данные Википедии, используя обученную систему типов. С этими данными (4 миллиарда помеченных образцов для каждого из английского и французского языков в наших экспериментах) мы можем обучить двунаправленную сеть LSTM независимо предсказывать все члены типа для каждого слова. В исходном тексте Википедии у нас есть контролируемая информация только для внутренних ссылок, однако этого достаточно для обучения сети с точностью предсказания более 0,91 на F1.

Вот интересная вещь, путем целевого поиска обнаружил, что в основном все системы типов включают в себя Авиацию, Одежду и Игры (это как запись 1754 в Канаде, которая показывает, что в этой базе данных 1754 год очень Захватывающий год), нажмите здесь, чтобы увидеть полный список жанров.

анализировать

Прогнозирование сущностей в документе часто зависит от мер «согласованности» между различными сущностями. Например, чтобы измерить, насколько хорошо каждый объект соответствует друг другу, временная сложность алгоритма составляет O (N ^ 2). Но временная сложность нашего метода составляет O(N), потому что нам просто нужно искать каждую фразу в дереве, сопоставляя фразу с ее возможным значением. Мы ранжируем все возможные сущности в соответствии с частотой ссылок, собранной в Википедии, и взвешиваем каждую сущность, используя ее вероятность вероятности в соответствии с классификатором. Новые объекты могут быть добавлены путем указания членов их типа (человек, животное, страна происхождения, период времени и т. д.).

будущая работа

Что касается проблемы устранения неоднозначности сущностей, наш метод отличается от других предыдущих методов. Сравнение производительности между сквозным методом обучения вектору слов и методом, основанным на выводе типа, описанном в этой статье, представляет интерес для автора. Система типов, упомянутая в этой статье, использует только небольшое подмножество Википедии, но вы, конечно, можете распространить ее на все данные Википедии для более широкого применения.

Посмотреть исходный текст:

blog.openlove.com/discovering…

Для большего содержания сухих товаров вы можете обратить внимание на AI Frontline, ID:ai-front, фоновый ответ "AI", "TF", "Большие данные«Вы можете получить серию мини-книг и карт навыков в формате PDF «AI Frontline».