Статья, принятая Alibaba AAAI 2018: Повышение качества англо-русского перевода на основе предсказания суффиксов

искусственный интеллект

Резюме

Нейросетевая модель перевода ограничена размером словарного запаса, который она может использовать, и часто сталкивается с ситуациями, когда словарь не может охватить исходные и целевые слова, особенно при работе с морфологически богатыми языками (такими как русский, испанский и т. д.). ) охват словарного списка по всему корпусу часто оказывается недостаточным, что приводит к генерации большого количества «незарегистрированных слов», что серьезно сказывается на качестве перевода.

Существующие работы в основном сосредоточены на том, как скорректировать гранулярность перевода и расширить словарный запас Эти работы могут уменьшить генерацию «незарегистрированных слов», но морфологическая проблема самого языка толком не изучена и не решена.

Наша работа предлагает инновационный метод, который может не только уменьшить разреженность данных за счет контроля детализации перевода, тем самым уменьшая «незарегистрированные слова», но и значительно уменьшить морфологические ошибки русских переводов на целевом конце за счет эффективного механизма предсказания окончаний слов. качество англо-русского перевода. По сравнению с рядом влиятельных существующих работ (методы, основанные на подсловах и символах), наш метод может успешно работать с двумя основными методами, основанными на RNN и Transformer, на сверхбольшом наборе данных порядка 50 миллионов. модель постоянно совершенствовалась.

Предыстория исследования

В последние годы нейронный машинный перевод (NMT) показал значительно лучшие результаты, чем статистический машинный перевод (SMT) во многих языках и сценариях. Машинный перевод нейронной сети кодирует предложение на исходном языке в скрытое состояние, а затем начинает декодировать из этого скрытого состояния, чтобы одно за другим генерировать переведенные слова на целевом языке. Система NMT установит словарь фиксированного размера на целевом конце.На каждом этапе фазы декодирования слово будет предсказано и сгенерировано из этого словаря фиксированного размера в качестве слова перевода текущего шага. Из-за ограниченности аппаратных ресурсов компьютера этот словарь часто не устанавливается очень большим (обычно 30 000-50 000). Более того, по мере увеличения словарного запаса соответственно будет возрастать и сложность предсказания. Системы NMT на основе слов часто сталкиваются с «незарегистрированными словами» (Out словарного запаса, OOV), особенно когда целью является морфологически богатый язык, эта проблема будет более серьезной. Если взять в качестве примера "англо-русский" перевод, то русский - язык с очень богатыми формами, словарь в 30-50 тысяч часто не может охватить все слова на русской стороне, а ООВ будет много. Внешний вид OOV оказывает большое влияние на качество перевода.

Есть много способов попытаться решить эту проблему. Некоторые из этих методов начинаются с точки зрения детализации перевода, а другие пытаются эффективно расширить размер целевого словаря. Хотя эти методы могут эффективно уменьшить OOV, они не моделируют конкретно морфологию целевого языка.

Для морфологически богатого языка, такого как русский, количество основ будет намного меньше количества слов, поэтому естественно думать о моделировании основ и суффиксов отдельно. Мы разрабатываем и реализуем метод, который предсказывает основы и окончания отдельно на каждом этапе декодирования во время декодирования. На этапе обучения сторона целевого языка будет использовать две последовательности, а именно последовательность основы и последовательность суффикса. Процесс генерации последовательности основы и последовательности суффиксов показан на следующем рисунке:

(Генерация последовательности основы и последовательности суффикса, «N» означает, что основа такая же, как и само слово, то есть слово не имеет суффикса)

Таким образом, проблема разреженности данных будет смягчена, потому что разнообразие основ будет значительно меньше, чем разнообразие слов, а видов окончаний всего несколько сотен.

Связанных с работой

Эти два метода, основанные на подсловах и на основе символов, помогают облегчить проблему перевода морфологически богатых языков на целевом конце с точки зрения настройки детализации перевода. Метод на основе подслов использует алгоритм BPE (Byte Pari Encoding) для создания словаря. Слова, часто встречающиеся в корпусе, сохраняются в словаре, а менее распространенные слова разбиваются на подслова. Поскольку небольшое количество подслов может составить все неупотребительные слова, достаточно оставить в словаре НМТ только общеупотребительные слова и эти подслова. Существует также символьная система NMT, в которой как исходное предложение, так и целевое предложение представлены в виде последовательностей символов.Такая система может лучше обрабатывать исходный морфологически богатый язык, а путем введения сверточная нейронная сеть на стороне источника (convolutional нейронная сеть, CNN), также можно моделировать долгосрочные зависимости. Хотя вышеупомянутые два метода могут уменьшить разреженность данных, они не моделируют конкретно морфологию языка, а подслова и символы не являются полной лингвистической единицей.

Есть также некоторые исследовательские работы, которые начинаются с того, как эффективно расширить словарный запас цели, Например, на цели задан большой словарный запас, но в каждом учебном процессе прогноз делается только по одной подтаблице. таблица содержит все возможные переводы. Хотя этот метод может решить проблему незарегистрированных слов, проблема разреженности данных все еще существует, поскольку низкочастотные слова полностью не обучаются.

Машинный перевод нейронной сети

В этой статье проверяется эффективность метода «предсказания окончаний слов» в двух основных системах перевода нейронных сетей, а именно на основе рекуррентных нейронных сетей (на основе RNN) и предложении Google, предложенном 17 лет назад.Последняя модель перевода нейронных сетей (Transformer), подробное введение можно найти в соответствующей статье. Машинный перевод нейронной сети на основе RNN выглядит следующим образом:

(«Нейронный машинный перевод путем совместного обучения выравниванию и переводу», Багданау и др., 2015 г.)

Структура трансформатора выглядит следующим образом:

(«Внимание — это все, что вам нужно», Ашиш Васвани и др., 2017 г.)

Русские основы и окончания

Русский язык богат морфологией, единственное и множественное число (число), падеж (падеж), род (род) — все это влияет на морфологию слов. Взяв в качестве примера существительное «мяч», «мяч» является нейтральным словом, поэтому оно не изменится при изменении инь и ян, но при изменении падежа единственного и множественного числа оно будет производить следующие формы:

Русское слово можно разделить на две части, а именно основу и суффикс.Изменение суффикса является воплощением русского морфологического изменения, а суффикс может отражать единственное и множественное число, падеж, инь и мужской род информации Русский. С помощью основанного на правилах инструмента определения корней русского языка можно получить основы и окончания каждого слова в предложении на русском языке.

сеть предсказания окончаний слов

На этапе декодирования NMT каждый этап декодирования предсказывает основу и суффикс отдельно. Генерация стеблей согласуется с исходной сетевой структурой NMT. Кроме того, используя основу, сгенерированную текущим шагом, скрытое состояние текущего декодера и исходную контекстную информацию источника, окончание слова текущего шага генерируется через нейронную сеть с прямой связью. Структура сети следующая:

Наконец, сгенерированные основы и окончания соединяются вместе, что является словом перевода текущего шага.

эксперимент

Мы проводили эксперименты и на RNN, и на Transformer, на некоторых учебных корпусах (около 5,3 млн) англо-русского задания по переводу новостей WMT-2017 эффект следующий:

Среди них Subword использует метод на основе подслов в качестве базовой линии, а Fully Character-based использует систему NMT на основе символов в качестве базовой линии. «Предсказание суффикса» — это наша система.

Кроме того, мы также используем крупномасштабный корпус (50 миллионов) данных в области электронной коммерции, чтобы доказать эффективность метода Результаты эксперимента показаны на рисунке:

Тестовый набор включает заголовок продукта (Title), детали (Description) и комментарии пользователей (Comment), например:

Некоторые примеры результатов перевода:

В первом примере морфология русского слова с пометкой 1 и 2 указывает на то, что слово является возвратным глаголом, прямое дополнение и подлежащее возвратного глагола одно и то же, иными словами, агент возвратного глагола Подлежащее и тема одна и та же. Из исходного предложения видно, что агент «возврата» — это лицо, купившее товар, а получатель — товар, подлежащий возврату, поэтому переведенные слова 1 и 2 неверны. Переведенное слово 3 правильное, и его окончание означает, что это инфинитив глагола, и этот инфинитив глагола может иметь дополнение. Во втором примере цифры 1 и 2 обозначают множественное число, а 4 — единственное число. В третьем примере 3 представляет прошедшее время, а 1 и 2 представляют настоящее время. В приведенном выше примере наша модель может давать более правильную русскую морфологию по сравнению с моделями на основе подслов и символов.

Суммировать

Мы предлагаем простой и эффективный метод повышения качества перевода систем NMT, ориентированных на морфологически богатые языки, такие как «англо-русский». На каждом этапе фазы декодирования сначала генерируются основы, а затем окончания. Мы сравниваем методы, основанные на подсловах и символах, на двух моделях NMT (NMT на основе RNN и Transformer) и демонстрируем эффективность метода. Мы используем крупномасштабные (5,3 млн) и гипермасштабные (50 млн) корпуса, и в дальнейшем этот подход может привести к устойчивым улучшениям как в области новостей, так и в области электронной коммерции. В нашей работе окончания слов впервые специально моделируются в NMT.