Интерпретация монографий НЛП: от чат-бота до NER | PaperDaily #11

искусственный интеллект глубокое обучение Нейронные сети NLP

В эпоху фрагментарного чтения, полного глазных яблок, все меньше и меньше людей будут обращать внимание на исследования и размышления, лежащие в основе каждой статьи.

В этой колонке вы быстро получите основные моменты и болевые точки каждой выбранной статьи, а также будете в курсе передовых достижений искусственного интеллекта.

Нажмите внизу этой статьичитать оригинал«Присоединяйтесь к сообществу сейчас, чтобы увидеть более свежие бумажные рекомендации.

Это первое издание PaperDaily.11 Статья

Вот 11-й выпуск PaperDaily.

Бумажные примечания к этому выпуску предоставлены пользователями сообщества PaperWeekly.@Jeffreygao,@robertdlut и @lc222 Приведение тем НЛП, освещениедиалоговая система,Распознавание именованных объектов (NER)исистема обеспечения качества.

Если есть статья, которая вам подходит, скопируйте ссылку в браузер для просмотра исходного текста.

диалоговая система

■ Диссертация | Генерация аффективных нейронных реакций

■ Ссылка | http://www.paperweekly.site/papers/1043

■ Автор | Джеффрейгао

1. Мотивация диссертации 

Документ взят из лаборатории Huawei Noah’s Ark Lab.

Говорят, что искусственный интеллект должен иметь эмоции, и может переживать радости, горести и печали людей.Сегодня я представлю эмоционального чат-бота. В предыдущих исследованиях большинство диалоговых систем фокусировались только на том, являются ли разумными синтаксис и семантика сгенерированного диалога.Некоторые из них учитывают контекст, некоторые объединяют темы, некоторые генерируют длинные предложения и так далее. Но немногие диалоговые системы фокусируются на эмоциях, что очень неразумно. Потому что в чате, когда один человек выражает печаль, другая сторона часто отвечает соответствующим утешением; когда одна сторона счастлива, другая сторона тоже рада за это. Это похоже на то, как А сказал: «Моя собака умерла», Б должен ответить: «Мне жаль тебя» и тому подобное, и в наших повседневных разговорах есть бесчисленное множество примеров такого рода эмоционального взаимодействия.

На самом деле, на мой взгляд, это также хорошее направление исследований после диалога об открытом домене.В конце концов, есть слишком много работ, чтобы решить проблему, как не давать бессмысленный ответ, такой как «хе-хе».Только реальный смоделированный человек разговоры - это хороший чат-бот.

2. Связанная работа 

В этой статье автор упомянул две связанные работы, одна из которых — Affect Language Model [Ghosh et al. 2017] по ACL2017, а другая — Emotion Chatting Machine (ECM) [Zhou et al. 2017], макет arXiv должен быть За него проголосовали за AAAI2018.

Модель ECM очень красивая, но определение проблемы очень неразумное, где неразумное? Эта модель дает контекст, дает эмоцию реакции, которую вы хотите вызвать, а затем генерирует реакцию с этой эмоцией. Но в повседневном разговоре нет эмоций, на которые Бог поручил вам реагировать. 

3. Модель

Модель этой статьи основана на seq2seq и в основном улучшается по трем пунктам. (1) Добавить эмоциональную информацию во встраивание (2) Улучшить функцию потерь (3) Учитывать эмоции при поиске луча.

3.1 Векторы слов с эмоциями

Здесь используется словарь VAD, поясняемый следующим образом:Валентность (V, приятность стимула), Возбуждение (A, интенсивность эмоции или степень возбуждения, вызванного стимулом) и Доминирование (D, степень власти/контроля, проявляемая стимулом) V-- 1, 5 и 9 соответствуют очень негативным словам (например, педофил), нейтральным (например, скатерть) и очень позитивным (например, счастье) соответственно. слово с очень низкой (например, тупой), умеренной (например, сторожевой пес) и очень высокой (например, безумие) эмоциональной интенсивностью соответственно D-- 1, 5 и 9 соответствует слову/стимулу, который очень бессилен (например, , слабоумие), нейтральный (например, водопад) и очень мощный (например, рай) соответственно».

Проще говоря, теперь есть таблица векторов слов, которая была оценена другими.Измерение вектора слов является трехмерным, и каждое измерение принимает аспект эмоций, который представлен как: (V_score, A_score, D_score). Если слова в обучающей выборке есть в этой таблице VAD, берем этот вектор слов; если это слово oov, которого нет в таблице, берем [5, 1, 5] как относительно нейтральное слово, которое на самом деле эквивалентно наша обычная обработка слов oov Unk времени такая же. 

Конкретный метод в статье заключается в соединении традиционного вектора слов и вектора эмоций W2VA в качестве входных данных кодера и декодера. По сути, этот метод похож на первый шаг машины для общения с эмоциями, но вектор эмоций изучается в ecm без использования внешнего словаря.

3.2 Объективная функция с эмоциями

Автор предлагает здесь три разные функции потерь, что, на мой взгляд, является последним средством, потому что у него нет лучшего способа интегрировать эти вещи. 

3.2.1 Минимизация аффективного диссонанса

В отношении этой функции потерь автор сделал предположение, что, когда два человека разговаривают, их эмоции не будут меняться слишком быстро или часто. Позвольте дать вам каштан: если вы скажете что-то дружелюбное, я отвечу вам дружеским, что вежливо; если вы скажете что-то провокационное, я отвечу вам гневным. Естественно, функция потерь должна учитывать не только перекрестную энтропию, но и учитывать, близка ли эмоция сгенерированного ответа к эмоции ввода, которая измеряется евклидовым расстоянием. следующее:

3.2.2 Максимизация аффективного диссонанса

Здесь автор делает еще одно предположение: например, когда два человека, не знакомые друг с другом, переговариваются, чрезмерное дружелюбие одного человека может вызвать отвращение у другого. Затем постарайтесь сделать эмоции двух предложений несовместимыми и просто поменяйте знак второго пункта приведенной выше формулы. Символ функции потерьLDMAX

3.2.3 Максимизируйте эмоциональное содержание

Идея здесь состоит в том, чтобы модель генерировала предложения с очевидными эмоциональными характеристиками, чтобы избежать создания таких скучных слов, но не нужно указывать, является ли настроение положительным или отрицательным. Это также способ избежать «хе-хе» и «я не знаю». Функция потерь выглядит следующим образом:

3.3 Декодирование с эмоциональным разнообразием

Это декодирование основано на поиске расходящегося луча, который делит верхнюю последовательность B на группы G на основе поиска луча, а затем добавляет дополнительный элемент штрафа Цель этого элемента штрафа состоит в том, чтобы сделать следующий момент в группе A вещи, которые ищут, максимально отличаются от вещей, которые ищут другие группы в следующий момент, что достигает цели разнообразия. Это также измеряется по двум уровням, один — это эмоция отдельного слова, другой — эмоция всего предложения, эталоном является косинус вектора. функция измерения сходства.

4. Экспериментальная часть

В статье используется набор данных диалогов из фильмов Корнелла.Оценка не использует BLEU, ROUGE, METEOR и т. д. в качестве индикаторов, но использует людей для оценки, что можно понять, потому что такие индикаторы, как BLEU, на самом деле предназначены для такого рода диалогов. не имеет особого смысла и может работать не так хорошо, как другие. Обратите внимание, что в методе функции потерь с использованием эмоций нормальная целевая функция кросс-энтропии используется для обучения в течение 40 эпох, а затем используется конкретная функция потерь для обучения в течение 10 эпох. В статье упоминается, что если для обучения используется конкретная функция потерь, синтаксис для генерации ответов будет плохим. 

5. Мысли о модели

В целом были сделаны эмоциональные улучшения в трех необходимых шагах seq2seq, но метод все еще кажется немного неохотным, и нет явного взаимодействия моделирования эмоций, но это также предварительная попытка для эмоций в диалоговой системе.

6. Ссылки

[Гош и др., 2017] Гош, С., Шолле, М., Лаксана, Э., Моренси, Л.-П., и Шерер, С., 2017. Affect-LM: нейронная языковая модель для создания настраиваемого аффективного текста , В ACL, 634–642. 

[Zhou et al. 2017] Zhou, H.; Huang, M.; Zhang, T.; Zhu, X.; and Liu, B. 2017. Emotional chatting machine: Emotional conversation generation with internal and external memory. arXiv preprint arXiv:1704.01074.

Распознавание именованных объектов

■ Бумага | Сквозная маркировка последовательностей с помощью двунаправленного LSTM-CNN-CRF

■ Ссылка | http://www.paperweekly.site/papers/367

■ Автор | robertdlut

В последние годы методы глубокого обучения, основанные на нейронных сетях, добились большого прогресса в области обработки естественного языка. Распознавание именованных сущностей (NER), основная задача в области NLP, не является исключением, и нейросетевые структуры также добились хороших результатов в NER. Среди них, как и в этой статье, многие аналогичные структуры NN-CRF появились в тот же период для NER и стали текущей основной моделью NER и достигли хороших результатов. Вот краткое изложение и поделиться знаниями с вами.

1. Введение

Распознавание именованных сущностей (NER) заключается в поиске соответствующих сущностей из фрагмента текста на естественном языке и маркировке их местоположений и типов, как показано на рисунке ниже. Это основа для некоторых сложных задач в области НЛП, таких как извлечение отношений, поиск информации и т. д. NER всегда был центром исследований в области НЛП.От ранних методов на основе словаря и правил до традиционных методов машинного обучения и методов глубокого обучения в последние годы общая тенденция прогресса исследований NER примерно такая, как показано на рисунок ниже.

В методах, основанных на машинном обучении, NER рассматривается как проблема маркировки последовательностей. По сравнению с задачей классификации текущая прогнозируемая метка в задаче маркировки последовательностей связана не только с текущим входным объектом, но и с предыдущей прогнозируемой меткой, то есть существует сильная взаимозависимость между последовательностями прогнозируемых меток. Например, при использовании BIO для NER за меткой O в правильной последовательности меток не будет следовать метка I.

В традиционном машинном обучении условное случайное поле (CRF) является текущей основной моделью NER. Его целевая функция не только учитывает функцию признака состояния входа, но также включает функцию признака переноса метки. Параметры модели можно узнать с помощью SGD во время обучения. Когда модель известна, поиск прогнозируемой выходной последовательности для входной последовательности заключается в поиске оптимальной последовательности, которая максимизирует целевую функцию, что является задачей динамического программирования и может быть декодировано с использованием алгоритма Витерби. Тем не менее, CRF опирается на разработку признаков.Общими свойствами являются следующие:

Далее мы сосредоточимся на том, как использовать структуру нейронной сети для NER. 

2. Основная структура нейронной сети в NER 

2.1 Модель NN/CNN-CRF 

Фактически, до этой статьи «Обработка естественного языка (почти) с нуля» для NER использовались нейронные сети.

В этой статье автор предлагает две сетевые структуры, метод окна и метод предложения, для NER. Основное различие между двумя структурами заключается в том, что оконный метод использует только контекстное окно текущего прогнозируемого слова для ввода, а затем использует традиционную структуру NN; в то время как метод предложения использует все предложение как ввод текущего прогнозируемого слова, добавление признаков относительного положения в предложение, чтобы различать каждое слово в предложении, а затем использовать слой структуры сверточной нейронной сети CNN.

На этапе обучения автор также дает две целевые функции: одна — логарифмическая вероятность на уровне слова, то есть использование softmax для прогнозирования вероятности метки, что считается традиционной задачей классификации; другая — логарифмическая вероятность на уровне предложения. -вероятность Конечно, на самом деле, учитывая преимущества модели CRF в задаче маркировки последовательностей, к целевой функции добавляется показатель переноса метки. Позже во многих связанных работах эта идея была названа комбинацией слоев CRF, поэтому здесь я называю ее моделью NN/CNN-CRF.

В экспериментах автора вышеупомянутые структуры NN и CNN имеют в основном тот же эффект, но функция правдоподобия на уровне предложения добавляется к слою CRF, и эффект NER значительно улучшается. 

2.2 Модель RNN-CRF 

Основываясь на вышеупомянутой идее CRF, примерно в 2015 году появилась серия работ с использованием структуры RNN в сочетании со слоем CRF для NER, включая эту статью. Представительская работа в основном включает в себя:

Обобщая эти работы, модель RNN-CRF Структура модели выглядит следующим образом:

Он в основном имеет слой внедрения (в основном вектор слов, вектор символов (в конкретном методе реализации вектора символов используется CNN, такой как эта статья, и использование RNN, но эффект подобен мне) и некоторые дополнительные функции), двунаправленный слой RNN, скрытый слой tanh и последний слой CRF. Основное отличие между ним и предыдущим NN/CNN-CRF заключается в том, что он использует двунаправленную RNN вместо NN/CNN. Здесь RNN обычно используют LSTM или GRU.

Экспериментальные результаты показывают, что RNN-CRF достиг лучших результатов, которые достигли или превзошли модель CRF, основанную на богатых функциях, и стали наиболее распространенной моделью в текущих методах NER, основанных на глубоком обучении. С точки зрения функций модель наследует преимущества методов глубокого обучения. Она может достигать хороших результатов с использованием векторов слов и векторов символов без разработки признаков. При наличии качественных признаков словаря ее можно дополнительно улучшить. 

3. Немного недавней работы

В прошлом году исследования NER, основанные на структуре нейронной сети, в основном были сосредоточены на двух аспектах: один — использовать популярный механизм внимания для улучшения эффекта модели (механизм внимания), а другой — провести некоторые исследования на небольшом количестве размеченные обучающие данные. 

3.1 На основе внимания

«Внимание к символам в моделях маркировки нейронных последовательностей» основано на структуре модели RNN-CRF с упором на улучшение сплайсинга векторов слов и векторов символов. Механизм внимания используется для улучшения объединения исходного вектора символов и вектора слов в суммирование весов, а два слоя традиционных скрытых слоев нейронной сети используются для изучения весов внимания, чтобы модель могла динамически использовать информацию о векторе слов и векторе символов. . Экспериментальные результаты показывают лучшую производительность, чем исходный метод сшивания.

В другой статье «Фонологически осведомленная нейронная модель для распознавания именованных объектов в условиях низкой передачи ресурсов» добавляются фонологические функции к исходной модели BiLSTM-CRF и используется механизм внимания к векторам символов, чтобы научиться сосредотачиваться на более эффективных символах, в основном. как показано ниже.

3.2 Небольшой объем размеченных данных

Для методов глубокого обучения обычно требуется большой объем размеченных данных, но в некоторых областях массивных размеченных данных нет. Поэтому, как использовать небольшое количество размеченных данных для NER в методе, основанном на структуре нейронной сети, также находится в центре внимания недавних исследований. К ним относятся трансферное обучение «Переносное обучение для маркировки последовательностей с помощью иерархических рекуррентных сетей» и частично контролируемое обучение.

Здесь я упоминаю документ «Полуконтролируемое тегирование последовательностей с двунаправленными языковыми моделями», который недавно был принят ACL2017. В этой статье используется массивный немаркированный корпус для обучения языковой модели двунаправленной нейронной сети, а затем используется эта обученная языковая модель для получения вектора языковой модели (встраивания LM) текущего слова, которое нужно пометить, а затем добавляется вектор в качестве признака к исходный двунаправленный в модели RNN-CRF.

Экспериментальные результаты показывают, что добавление этого вектора языковой модели может значительно улучшить эффект NER на небольшом количестве помеченных данных.Даже на большом количестве помеченных обучающих данных добавление этого вектора языковой модели все еще может обеспечить эффект исходного RNN-CRF. модель. Общая структура модели выглядит следующим образом:

4. Резюме

Я не буду вводить экспериментальную часть статьи. Наконец, я подытожу.В настоящее время модель NN / CNN / RNN-CRF, которая сочетает в себе нейронную сеть и модель CRF, стала основной моделью NER. Я думаю, что для CNN и RNN ни у кого нет абсолютного преимущества, и у каждого есть свои преимущества. Поскольку RNN имеет естественную структуру последовательности, RNN-CRF используется более широко.

Метод NER, основанный на структуре нейронной сети, наследует преимущества метода глубокого обучения и не требует большого количества искусственных признаков.Только векторы слов и векторы символов могут достичь основного уровня, а добавление высококачественных словарных функций может еще больше улучшить эффект..Что касается проблемы небольшого количества помеченных обучающих наборов, то в центре внимания будущих исследований должны быть трансферное обучение и обучение с полуучителем.

5. Ссылки

[1] Лафферти Дж., МакКаллум А., Перейра Ф. Условные случайные поля: вероятностные модели для сегментации и маркировки данных последовательности, Материалы восемнадцатой международной конференции по машинному обучению, ICML, 2001, 1: 282-289.

[2] Саттон С., МакКаллум А. Введение в условные случайные поля, Основы и тенденции® в машинном обучении, 2012 г., 4(4): 267-373.

[3] Коллоберт Р., Уэстон Дж., Ботту Л. и др. Обработка естественного языка (почти) с нуля, Журнал исследований машинного обучения, 2011 г., 12 (август): 2493-2537.

[4] Лампл Г., Бальестерос М., Субраманиан С. и др. Нейронные архитектуры для распознавания именованных объектов, Труды NAACL-HLT, 2016 г.: 260–270. 

[5] Хуан З., Сюй В., Ю К. Двунаправленные модели LSTM-CRF для маркировки последовательностей, Препринт arXiv arXiv: 1508.01991, 2015 г. 

[6] Ma X, Hovy E. Сквозная маркировка последовательностей с помощью двунаправленного lstm-cnns-crf, препринт arXiv arXiv: 1603.01354, 2016 г. 

[7] Chiu J PC, Nichols E. Распознавание именованных объектов с помощью двунаправленных LSTM-CNN, препринт arXiv arXiv: 1511.08308, 2015 г. 

[8] Рей М., Крайтон Г.К.О., Пюйсало С. Обращение к персонажам в моделях маркировки нейронных последовательностей, Препринт arXiv arXiv:1611.04361, 2016.

[9] Акаш Бхарадвадж, Дэвид Мортенсен, Крис Дайер, Хайме Дж. Карбонелл Нейронная модель с фонологическим знанием для распознавания именованных объектов в условиях низкой передачи ресурсов EMNLP, страницы 1462–1472, 2016.

[10] Ян З., Салахутдинов Р., Коэн В. В. Перенос обучения для маркировки последовательностей с помощью иерархических рекуррентных сетей, ICLR, 2017. 

[11] Matthew E. Peters, Waleed Ammar, Chandra Bhagavatula, Russell Power. Semi-supervised sequence tagging with bidirectional language models. ACL, 2017.

система обеспечения качества

■ Бумага | Закрытые сквозные сети памяти

■ Ссылка | http://www.paperweekly.site/papers/1073

■ Автор |lc222

Эта статья основана на статье о сквозных сетях памяти с некоторыми изменениями. Поскольку эффект сквозных сетей памяти в мультифактном контроле качества, позиционных рассуждениях, диалогах и других полях не очень хорош, в этой статье говорится о кратчайших связях, связанных с сетями HighWay и остаточными сетями в поле CV, и вводится Закрытый механизм достижения памяти Регуляризация , чтобы модель могла динамически изменять память. 

Поскольку сквозные сети памяти уже знакомы, давайте сначала представим идею магистральных сетей. В основном он вводит вентиль преобразования T и вентиль переноса C до того, как сеть выведет следующий уровень, чтобы сеть узнала, что и сколько информации следует передать на следующий уровень. Мы предполагаем, что выход этого уровня сети: y=H(x), затем добавляем следующую функцию отображения:

Часто мы будем выбирать C = 1-T, поэтому приведенную выше формулу можно преобразовать в:

 

Остаточная сеть может рассматриваться как частный случай сети Highway, поскольку она напрямую рассматривает и T, и C как I, поэтому она эквивалентна y=H(x) + x. Но у меня не было времени понять принцип, лежащий в основе этого, почему это облегчает успешное обучение более глубокой сети, и я рассмотрю соответствующие документы, когда у меня будет время учиться. 

Затем давайте посмотрим, как интегрировать его в сети сквозной памяти, Поскольку функцию каждого прыжка можно рассматривать как u'=H(u), что соответствует приведенной выше формуле, u эквивалентно входу x, o равно эквивалентно выходу y, поэтому подставьте приведенную выше формулу, чтобы получить:

То есть изменить формулу выходного слоя в исходной модели. Тогда параметры W и b имеют два пути: глобальный и независимый от каждого прыжка.Последние экспериментальные результаты показывают, что лучше оставить каждый пролет независимым. Инновация бумаги не очень велика, это просто комбинация двух статей, но кажется, что экспериментальный эффект все же значительно улучшился. Окончательная схема архитектуры модели выглядит следующим образом:

Результаты экспериментов

Модель, предложенная в этой статье, дает хорошие результаты не только на наборе данных bAbI, но и на наборе данных диалогового диалога bAbI. Этот набор данных должен быть представлен в следующей статье, поэтому здесь я не буду вдаваться в подробности. Вот также две фотографии результатов эксперимента:

На втором рисунке показан расчет веса каждого предложения между MemNN и каждым прыжком модели, предложенной в этой статье.Видно, что модель в этой статье более сконцентрирована на наиболее важном предложении, а MemNN более рассеяна, что также показывает эффект модели в этой статье лучше.

Эта статья выбрана и рекомендована академическим сообществом искусственного интеллекта PaperWeekly. В настоящее время сообщество охватывает такие направления исследований, как обработка естественного языка, компьютерное зрение, искусственный интеллект, машинное обучение, интеллектуальный анализ данных и поиск информации. Нажмите «Читать исходный текст», чтобы немедленно присоединяйтесь к сообществу!