Обработка естественного языка (NLP) — одна из основных проблем искусственного интеллекта, цель которой — позволить компьютерам понимать язык и осуществлять общение между людьми и компьютерами с использованием естественного языка. В своей дипломной работе «Обработка естественного языка и интеллектуальный анализ текста с графоструктурными представлениями» доктор Лю Банг из Университета Альберты провел исследование по обработке естественного языка и интеллектуальному анализу текста на основе графоструктурированных представлений.
Эта докторская диссертация сочетает в себе несколько основных задач обработки естественного языка и анализа текста с мощными возможностями представления структуры графа, чтобы в полной мере использовать возможности представления глубокого обучения и структурной информации в тексте для решения многих проблем: (1) Организация информация (организация информации): Алгоритм декомпозиции на основе структуры дерева/графа для пар короткий текст/длинный текст предлагается для улучшения задач семантического сопоставления. На основе сопоставления текста дополнительно предлагается система кластеризации и организации новостей с детализацией событий Story Forest; (2) Информационная рекомендация: система интеллектуального анализа концепций ConceptT и система GIANT предлагаются для моделирования точек интереса пользователей и длинных и коротких текстовых тем Карта (онтология) . Построенный граф интересов Attention Ontology способствует пониманию пользователей и текстов, а также значительно улучшает эффект системы рекомендаций;(3)Понимание информации: предлагается система ACS-Aware Question Generation для извлечения текста из неразмеченных текстов.Он генерирует высокие -качественные пары вопрос-ответ в вопросно-ответной системе, что значительно удешевляет построение набора данных для вопросно-ответных систем и способствует повышению эффективности систем понимания прочитанного.
Ссылка на статью: https://sites.ualberta.ca/~bang3/files/PhD-Thesis.pdf
введение
Обработка естественного языка (NLP) направлена на чтение и понимание неструктурированного текста на естественном языке для выполнения различных задач. «Как представлять текст» и «как выполнять вычисления» — две основные проблемы. В ранних исследованиях НЛП для представления текста использовалась модель «мешок слов», а векторное представление текста формировалось путем подсчета частот различных слов, в то же время для обработки текста применялись статистические методы, которые потеряна информация о порядке слов в тексте и связь между словами, которая по существу использует одно горячее кодирование для представления каждого слова; в глубоком обучении исследователи изучают векторы слов на основе совместного появления слов, каждое слово представлено плотным вектор, а слова с похожей или близкородственной семантикой находятся в векторном пространстве.Среднее расстояние меньше, а затем комбинируется с моделью RNN (LSTM, GRU и т. д.) для выполнения кодирования текста для выполнения различных задач, позже есть исследовательская работа по сравнению текста с изображениями, кодированию их в матричные представления и объединению моделей CNN для вычислений; обучение языковым моделям с использованием обучения с самоконтролем для обучения различных крупномасштабных языковых моделей, чтобы придать словам или текстам контекстно-зависимый характер, многослойное семантическое векторное представление, используемая модель представляет собой многослойный преобразователь.
Форма и семантика естественного языка иерархичны, композиционны и гибки. Существующие исследования не в полной мере использовали семантические структуры, присутствующие в различных типах текстов. График (граф) — это общее и мощное представление, которое может выражать множество различных объектов и их связей, будь то обработка естественного языка или социальные сети, реальный мир и другие сценарии, которые повсеместно распространены. Основываясь на мощной способности глубокого обучения к обучению представлению, в этой статье разрабатываются и комбинируются представления различных текстов в виде графов, а также используются вычислительные модели с графовыми структурами, такие как графовые нейронные сети, для решения задач обработки различных естественных языков и анализа текста. Статья состоит из трех частей: первая часть знакомит с кластеризацией и сопоставлением текста, предлагает структурированные алгоритмы для различных задач сопоставления, а затем предлагает систему Story Forest для кластеризации и структурированного представления новостных событий. Система реализована в майнинге горячих событий браузера Tencent QQ. Вторая часть посвящена интеллектуальному анализу текста и предлагает график интереса Attention Ontology, который анализирует и описывает точки интереса пользователей с разной степенью детализации, устанавливает связь между различными точками интереса и может использоваться для описания темы статьи. Эта часть работы значительно улучшает эффект системы рекомендаций по информационному потоку в браузере QQ, мобильном QQ, WeChat и других приложениях. Третья часть посвящена генерации текста и предлагает систему ACS-QG, которая автоматически генерирует высококачественные пары вопрос-ответ из неразмеченного текста, которые можно использовать для обучения систем вопрос-ответ, что помогает значительно снизить стоимость. создания набора данных и улучшения понимания машинного чтения.
Рис. 1. Текстовое представление и эволюция вычислительных моделей
Рисунок 2. Структура композиции статьи
Часть 1. Сопоставление текста и кластеризация
Глава 3 Система организации кластеризации событий Story Forest
В эпоху информационного взрыва запрос и поиск ценной информации — не очень простая задача для пользователей. Современные поисковые системы или службы информационных потоков предоставляют пользователям список статей. Эти новостные статьи содержат много избыточной информации и не имеют структурированной организации. В этой статье предлагается система Story Forest для кластеризации новостных статей с детализацией событий, чтобы разные статьи, сообщающие об одном и том же реальном событии, группировались в узел, а связанные события образовывали структурированное дерево историй. Мероприятия.
Рисунок 3. Дерево истории президентских выборов в США 2016 г., где каждый узел дерева представляет событие
Существующие методы кластеризации текста не могут хорошо выполнять эффект кластеризации детализации событий для статей. В данной статье предлагается алгоритм кластеризации EventX, который представляет собой двухуровневый алгоритм кластеризации: на первом уровне кластеризации ключевые слова во всех статьях используются для формирования сети ключевых слов (граф ключевых слов) и на ней выполняется сегментация графа.Каждое ключевое слово подграф , представляет большую тему, а затем использует сходство, чтобы назначить каждой статье наиболее похожий подграф ключевого слова; в кластеризации второго уровня под каждым подграфом ключевого слова статьи образуют граф документов, а связанные ребра представляют две статьи, которые рассказать о том же событии, а затем выполнить обнаружение сообщества на графе статей, чтобы выполнить вторую кластеризацию. Каждая статья в подграфе статьи представляет событие. Благодаря двухуровневой кластеризации можно проводить детальное семантическое сравнение между парами статей и контролировать временную сложность. После получения кластеров событий различные узлы событий вставляются в существующее дерево историй онлайн, чтобы сформировать структуру истории с помощью алгоритма организации структуры истории. Если событие не принадлежит ни одному существующему дереву историй, формируется новая история.
Рисунок 4. Система Story Forest и алгоритм кластеризации EventX
Глава 4. Сопоставление длинного текста на основе декомпозиции и свертки графа
Сопоставление текста — это оценка отношения или релевантности между двумя текстами.Это основная проблема в НЛП.Есть много задач, ядро которых можно рассматривать как задачу сопоставления текста. В зависимости от длины совпадающего исходного текста и целевого текста мы можем разделить задачи на сопоставление текста на четыре категории: задачи на сопоставление длинного текста, например, в системе Story Forest, основной задачей является определение того, говорят ли две статьи об одном и том же событие; задачи на сопоставление коротких текстов — сопоставление длинных текстов, например, ввод запроса для поиска совпадающих статей; сопоставление кратких текстов, например сопоставление пар вопросов и ответов, измерение схожести пар предложений и т. д.; сопоставление длинных и коротких текстов, например как тематическая классификация текста и т. д.
Рисунок 5. Различные задачи на сопоставление текста делятся на четыре категории в зависимости от длины исходного текста и целевого текста.
В этой главе основное внимание уделяется задаче сопоставления длинных текстов, которая является важным исследовательским вопросом, однако до этого ему было посвящено очень мало исследований. Существующие алгоритмы основаны на сиамской нейронной сети или CNN для кодирования пар предложений или взаимодействия между предложениями и не могут хорошо справиться с задачей сопоставления длинных текстов. Из-за длины длинного текста высока вычислительная сложность; гибкость языка затрудняет выравнивание соответствующего контента между текстовыми парами; в то же время кодировщику также сложно точно закодировать семантику длинного текста.
В этой статье предлагается граф взаимодействия концепций для декомпозиции статьи или пары статей. Его основная идея — «разбить целое на части, разделить и властвовать». Каждый узел в CIG содержит несколько тесно связанных ключевых слов и наборов предложений, тесно связанных с этими ключевыми словами. При сопоставлении текстовых пар каждый узел содержит два набора предложений из двух статей. Таким образом, несколько узлов представляют разные подтемы в двух статьях, включают некоторые предложения в статьи и выравнивают их. Ребра между узлами представляют степень связи между различными подтемами.
Рисунок 6. Игрушечный пример построения графа взаимодействия понятий из статьи
На основе графа взаимодействия концепций в документе также предлагается локальное и глобальное сопоставление текстовых пар с помощью графовых нейронных сетей. В частности, для текстовых пар на каждом узле кодировщик используется для выполнения локального сопоставления, чтобы преобразовать сопоставление длинного текста в сопоставление короткого текста на узле, а затем использовать нейронную сеть графа для встраивания информации о структуре статьи в результаты сопоставления, Объедините все локальные результаты сопоставления, чтобы получить результаты глобального сопоставления.
Рисунок 7. Сопоставление длинного текста на основе Concept Interaction Graph и Graph Convolutional Neural Networks
Глава 5 Сопоставление коротких текстов на основе иерархической декомпозиции и выравнивания
Для сопоставления коротких текстов в статье предлагается иерархическая факторизация предложений для разложения предложений на многослойные выражения, каждый слой содержит все полные слова, а предложения перестраиваются в порядке «предикат-аргумент». По мере увеличения количества слоев предложение постепенно разбивается на более мелкие семантические единицы. Таким образом, с этим многоуровневым, переупорядоченным представлением предложений мы можем выровнять два предложения и сравнить их семантические расстояния в сочетании с разной семантической детализацией.
Рисунок 8.
Сопоставление предложений на основе иерархической факторизации предложений
Этот метод декомпозиции предложений использует представление абстрактного значения для семантического разбора предложений. Затем выполняется ряд операций, чтобы каждый слой содержал все слова в предложении. Для каждой семантической единицы предикат стоит первым, а аргумент — после. Это представление полностью демонстрирует иерархическую, композиционную природу естественного языка и использует нормализованный порядок слов для преодоления гибкого порядка представления естественного языка.
Основываясь на иерархической декомпозиции предложений, в статье также предлагается неконтролируемое расстояние упорядоченного перемещения слов, которое сочетает в себе идею теории оптимального переноса для моделирования семантического расстояния между предложениями. Экспериментально подтверждено, что его эффект значительно лучше, чем у Word Mover's Distance. В то же время в документе также предлагается применять представление предложений с мультисемантической детализацией к различным моделям сопоставления текстов, таким как сиамские нейронные сети. Эксперименты показывают, что эффект сопоставления с множественной гранулярностью значительно лучше, чем эффект сопоставления только исходного предложения.
Часть II: Интеллектуальный анализ текста
Глава 6. Система разработки концепций ConceptT
Концепты содержат знания о мире и облегчают познавательные процессы человека. Извлечение понятий из документов и построение связей между ними играет важную роль в понимании текста, а также в последующих задачах. Понимание «концепции» является важным краеугольным камнем для понимания человеком мира. Например, глядя на Honda Civic или Hyundai Elantra, можно подумать о таких понятиях, как «автомобиль с низким расходом топлива» или «автомобиль эконом-класса», и, в свою очередь, можно подумать о Ford Focus. Focus) или Nissan Versa (Nissan Versa). ) и другие модели.
Рисунок 9. Люди могут концептуализировать вещи и создавать ассоциации
Прошлые исследовательские работы, включая DBPedia, YAGO, Probase и другие графы знаний или базы понятий, извлекали различные концепции из Википедии или веб-статей. Однако понятия, извлеченные таким образом, не согласуются с когнитивной точки зрения пользователя. Например, вместо того, чтобы признать, что Toyota 4Runner является внедорожником Toyota или автомобилем, нас больше интересует, можно ли его концептуализировать как «автомобиль с высоким шасси» или «внедорожник». Точно так же, если в статье обсуждаются такие фильмы, как «Джейн Эйр», «Грозовой перевал», «Великий Гейтби» и т. д., было бы очень полезно, если бы мы могли признать, что в ней обсуждается концепция «фильмов, основанных на романах». Однако текущие работы, такие как графы знаний, направлены на построение структурированного представления знаний о мире с помощью понятий, извлеченных из грамматически строгих статей. Следовательно, они не могут концептуализировать текст (например, запрос и документ) с точки зрения пользователя, чтобы понять его намерения. С другой стороны, текущая работа в основном сосредоточена на извлечении долгосрочных стабильных концепций, и трудно выделить популярные концепции, которые появляются в течение короткого периода времени (например, «Новогодний блокбастер», «Июльская новая программа 2019») и связь между ними.
Мы предлагаем систему интеллектуального анализа понятий ConceptT для извлечения понятий, соответствующих интересам пользователя и когнитивной гранулярности. В отличие от предыдущей работы, система ConceptT извлекает концепции из большого количества журналов поисковых запросов пользователей и дополнительно связывает темы, концепции и сущности вместе, чтобы сформировать иерархическую когнитивную систему. В настоящее время ConceptT развернут в браузере Tencent QQ для анализа различных концепций, улучшения понимания намерений пользовательских запросов и темы длинных статей, а также поддержки таких услуг, как рекомендации по поиску. В настоящее время он извлек более 200 000 высококачественных концепций, основанных на пользовательской точке зрения, и растет со скоростью более 11 000 новых концепций каждый день. Базовая алгоритмическая архитектура системы ConceptT также применима к другим языкам, таким как английский.
Рисунок 10. Процесс интеллектуального анализа концепции ConceptT: интеллектуальный анализ концепций из журналов кликов пользователя при поиске
Систему ConceptT также можно использовать для маркировки статей концептами. Существуют в основном две стратегии: алгоритм тегирования на основе сопоставления и алгоритм тегирования на основе вероятностного вывода.
Рис. 11. Процесс маркировки статей ConcepT: маркировка статей соответствующими концепциями
Рисунок 12. Концептуальное представление, извлеченное системой ConceptT из пользовательского поискового запроса
Рис. 13. Результаты онлайн-тестирования A/B. Система ConceptT значительно улучшила различные показатели бизнес-потока информации браузера QQ. Самый важный показатель, Эффективность воздействия (IE), имеет относительное увеличение на 6,01%.
Рисунок 14. Теги Concept для статей системы ConceptT. В настоящее время обрабатывается 96 700 статей в день, около 35% из которых могут быть помечены понятиями. Мы создали концептуальные данные о тегах для 11 547 статей, чтобы измерить точность тегов. Человеческая оценка показала, что точность маркировки текущей системы составляет 96%.
Глава 7. Онтология моделирования точек интереса пользователя
В предыдущей главе мы представили концепцию системы майнинга. Чтобы более подробно описать точки интереса пользователя, мы дополнительно анализируем различные фразы, включая концепции и события, темы и т. д., и объединяем их с предопределенными темами (категориями) и сущностями в библиотеке сущностей и т. д., формируем отношения высшего и уступает. Мы называем этот граф, который содержит множество узлов, множество отношений ребер и используется для моделирования точек интереса пользователя или точек интереса, как онтологию внимания.
Рисунок 15. Онтология внимания, которая содержит пять типов узлов, представляющих точки интереса пользователя с разной семантической степенью детализации, три вида отношений, представляющих верхние и нижние позиции, включения и ассоциации между узлами.
Attention Ontology может решить проблемы «неточной рекомендации» и «монотонной рекомендации». Например: когда пользователь читает статью о «Речи об отставке премьер-министра Великобритании Терезы Мэй», текущая система рекомендаций на основе ключевых слов может определить ключевое слово «Тереза Мэй» и порекомендовать много информации о Терезе Мэй в статье пользователя Мэй. Однако эта высокая вероятность не представляет интереса для пользователя. Это проблема «неточных рекомендаций» из-за отсутствия или невозможности определить точки интереса с правильной степенью детализации в системе. С другой стороны, система также может продолжать рекомендовать больше статей о «выступлении премьер-министра Великобритании Терезы Мэй», эти статьи дублируют статьи, которые пользователь уже просматривал, и не могут предоставить пользователю более ценную информацию. тоже не интересует. Это проблема «рекомендательного однообразия», и суть этой проблемы заключается в отсутствии связи между различными точками интереса.
Attention Ontology содержит точки интереса пользователя с разной степенью детализации, а между разными узлами есть ребра, представляющие связи между ними. Например, согласно Attention Ontology, мы можем признать, что «речь Терезы Мэй об отставке» связана со средней степенью интереса «Brexit». Если пользователь просматривает статьи о различных событиях в разделе «Брексит», мы можем определить, что пользователь не следит за человеком «Тереза Мэй» или за конкретным событием «Речь об отставке Терезы Мэй». Речь идет о теме «Брексит». ". С другой стороны, зная, что пользователь обращает внимание на эту тему, мы можем использовать связь между различными точками интереса, чтобы рекомендовать пользователю релевантные статьи, тем самым решая проблемы неточных и монотонных рекомендаций.
Чтобы анализировать фразы с различными свойствами, такие как фразы концепции и фразы событий, в статье предлагается график взаимодействия запросов и заголовков (QTIG) для моделирования связей между заголовками статей запросов. Эта структура представления встраивает информацию о выравнивании между различными запросами и заголовками, тегами слов, расстояниями между словами, грамматическими зависимостями и другой информацией в признаки узла и признаки края. Используя это представление, в документе также предлагается модель GCTSP-Net, которая моделирует проблему анализа фраз как проблему «классификации узлов + ранжирование узлов». Модель выполняет бинарную классификацию узлов на QTIG и извлекает слова, принадлежащие целевой фразе, затем ранжирование узлов моделируется как задача коммивояжера, и находится оптимальный путь для сортировки всех узлов, которые классифицируются как положительные. В соответствии с полученным путем узлы, классифицированные как положительные, объединяются для получения выходной фразы.
Рисунок 16. График взаимодействия запроса и заголовка Зеленые узлы на графике — это слова, принадлежащие выходной фразе. Каждый узел представляет собой уникальное слово в запросе или заголовке, а ребра представляют два слова, которые являются смежными или имеют грамматические зависимости.
В этой статье разрабатывается и реализуется система GIANT, которая строит онтологию внимания и применяет ее в различных приложениях. Система GIANT состоит из нескольких основных модулей: во-первых, в соответствии с поисковым запросом пользователя и двудольным графом, сформированным журналом кликов, выполняется кластеризация для получения различных кластеров запрос-документ. Каждый кластер запроса-документа содержит один или несколько похожих запросов вместе со статьями, на которые чаще всего кликали. Для каждого кластера запрос-документ мы преобразовываем его в граф взаимодействия запроса-заголовка и извлекаем скрытые фразы с помощью GCTSP-Net. Затем мы используем разные алгоритмы для извлечения связи между разными фразами, чтобы сформировать онтологию внимания. Наконец, используйте Attention Ontology для реализации различных приложений, включая маркировку статей, концептуализацию запросов, кластеризацию текста и так далее. В то же время узлы в онтологии внимания могут использоваться для описания точки интереса пользователя в портрете пользователя. Это улучшает соответствие между пользователями и интересующими их статьями, тем самым повышая производительность рекомендательной системы.
Рисунок 17. Архитектура системы GIANT
Часть 3: Генерация текста
Главы 8-9: Автоматическое создание пар вопрос-ответ
Генерация вопросов — очень важная проблема генерации текста, которую можно использовать при генерации обучающих данных для систем ответов на вопросы, диалоговых систем, образовательных и других приложений.
Рисунок 18. Различные приложения и важность генерации вопросов
Существующие системы генерации вопросов обычно дают предложение и ответ и требуют, чтобы система генерировала конкретный вопрос. Такая система представляет собой систему генерации вопросов с учетом ответов. Однако качество вопросов, которые они генерируют, недостаточно хорошее. Основная проблема заключается в том, что, имея входное предложение и ответ, мы можем задать несколько разных и разумных вопросов, что является «отображением один-ко-многим», в то время как каждый вход в обучающем наборе имеет только стандартный ответ: «один-ко-многим». к одному отображению».
Рисунок 19. На основе одних и тех же входных данных можно задать разные вопросы
В этой статье предлагается задача генерации вопросов в стиле «ответ-подсказка» (ACS-QG), которая моделирует процесс, когда люди задают вопросы, в четыре этапа: сначала выберите часть ответа в соответствии с входными данными; во-вторых, выберите часть, связанную с ответом. к ответу Информация используется как подсказка (подсказка) для повторения или перефразирования в вопросе; в-третьих, выберите тип вопроса (стиль) в соответствии с ответом, например, кто, где, почему и т. д., всего 9 типы, в-четвертых, в соответствии с входным предложением и тремя указанными выше сведениями (ответ, подсказка, стиль вопроса типа), генерировать вопросы.
Рисунок 20. Процесс генерации вопросов из входных данных
Процесс генерации вопроса можно наблюдать с точки зрения синтаксического дерева: выбор фрагмента ответа подобен покрытию части информации из синтаксического дерева, а процесс выбора фрагмента подсказки (подсказки) заключается в выборе части узел как быстрый выход рядом с покрытой информацией.. в проблему.
Рисунок 21. Моделирование процесса генерации вопросов с помощью синтаксических деревьев
Система ACS-QG, предложенная в этой статье, может генерировать высококачественные данные пар вопрос-ответ из неразмеченных предложений. Он состоит из следующих модулей: модуль создания набора данных, который может создать обучающий набор данных для задачи ACS-QG из существующих наборов данных для ответов на вопросы (например, SQuAD), модуль выбора входных данных, который может выбирать разумные предложения из немаркированных предложений. и создавать тройки (ответ, подсказка, стиль) в качестве входных данных для генерации вопросов; модуль генерации вопросов, который может использовать входные тройки для генерации вопросов, обучающие данные этого модуля поступают из первого модуля создания набора данных; модуль контроля качества для фильтрации низких -качественные пары вопрос-ответ.
Рисунок 22. Система генерации вопросов ACS-QG
Эксперименты показывают, что система ACS-QG может генерировать большое количество высококачественных пар вопрос-ответ, и эффект значительно лучше, чем у ряда существующих алгоритмов генерации вопросов.
Глава 10 Выводы и будущая работа
В этой статье структура графа используется для моделирования текстовых данных в ряде задач НЛП и сочетаются модели глубокого обучения для улучшения эффекта от различных задач. Различные исследования в документе имеют важные последствия для кластерной организации, рекомендаций и понимания информации.
Направления будущих исследований включают: понимание длинных текстов, многозадачное совместное обучение и общее графическое представление, обучение и рассуждения.
Исследование в этой статье было опубликовано на различных ведущих конференциях, таких как SIGMOD, KDD, ACL, WWW, TKDD, CIKM и т. д. Список статей можно найти на личной домашней странице автора: https://sites.ualberta.ca /~bang3/publication.html