0. Предисловие
Глубокое обучение используется уже более года, и недавно начались исследования и разработки естественной обработки НЛП. Только что воспользовался этой возможностью, чтобы написать серию практических курсов глубокого обучения по машинному переводу НЛП.
Эта серия курсов будет проходить от объяснения принципов и обработки данных до практической практики и развертывания приложений и будет включать следующее содержание: (обновление)
- Практический курс глубокого обучения NLP Machine Translation Zero (основные понятия)
- Практический курс глубокого обучения машинного перевода NLP 1 (база RNN)
- Практический курс глубокого обучения по машинному переводу НЛП II (база RNN + Attention)
- Практический курс глубокого обучения машинного перевода НЛП 3 (база CNN)
- Практический курс машинного перевода НЛП по глубокому обучению (база «Само-внимание»)
- Практический курс машинного перевода НЛП по глубокому обучению Ву (развертывание приложения)
Справочные блоги для этой серии руководств:Что.CSDN.net/Китай тел Эко…
1. Состояние разработки машинного перевода НЛП
1.1 Статус-кво машинного перевода
1.1.1 Что такое машинный перевод?
Что такое машинный перевод?
Грубо говоря, это преобразование одного языка в другие языки с помощью компьютера, то есть машинный перевод.
Это знакомо нашим одноклассникам, так какова же теоретическая поддержка машинного перевода? И в чем разница между машинным переводом десятилетней давности и нейронной сетью, о которой мы говорим каждый день?
Прежде всего, давайте кратко опишем его с точки зрения исторического развития машинного перевода.История машинного перевода прошла примерно три этапа:
- Машинный перевод на основе правил (1970-е годы)
- Машинный перевод на основе статистики (1990)
- Машинный перевод на основе нейронных сетей (2014)
Машинный перевод на основе правил (1970-е годы)
Идея машинного перевода на основе правил впервые появилась в 70-х годах. Основываясь на наблюдениях за работой переводчиков, ученые пытаются заставить компьютеры делать то же самое. Компоненты этих систем перевода включают:
Двуязычный словарь (русский -> английский)
Разработайте набор лингвистических правил для каждого языка (например, существительные, оканчивающиеся на определенные суффиксы -heit, -keit, -ung и т. д.)
это все. При необходимости система также может дополнять различные технические правила, такие как имена, орфографическая коррекция и транслитерация слов.
Заинтересованные студенты могут обратиться в Интернет, чтобы тщательно проверить соответствующую информацию.Вот общая блок-схема, представляющая процесс реализации машинного перевода на основе правил.
Скорректируйте структуру предложения в соответствии с правилами, затем посмотрите значение соответствующего фрагмента слова в словаре, перекомпонуйте новое предложение и, наконец, используйте некоторые методы для грамматической корректировки сгенерированного предложения.
Машинный перевод на основе статистики (1990)
В начале 1990-х впервые была представлена система машинного перевода в IBM Research. Вместо того, чтобы разбираться в общих правилах и лингвистике, он анализирует похожие тексты на двух языках и пытается понять закономерности.
Идея статистических моделей состоит в том, чтобы рассматривать перевод как вопрос вероятности. В принципе, надо использовать параллельные корпуса, а потом делать статистику пословно. Например, хотя машина не знает, что такое «знание» на английском языке, после большинства корпусных статистических данных она обнаружит, что до тех пор, пока есть предложение со знанием, соответствующее английское примерное предложение будет содержать слово «Знание». Это позволяет машинам понимать значение слов без необходимости вручную поддерживать словари и правила грамматики.
Эта концепция не нова, т. к. Уоррен Уив первым предложил подобную концепцию, но параллельных корпусов не хватало, а возможности компьютеров в то время были слишком слабыми, поэтому она не была реализована на практике. Откуда взялся современный статистический машинный перевод, чтобы найти «современный Розеттский камень»? Основным источником на самом деле является Организация Объединенных Наций, потому что резолюции и объявления Организации Объединенных Наций будут доступны на языке каждого государства-члена, но, кроме того, вы должны сделать свой собственный параллельный корпус, и вы можете видеть, что стоимость высокая за счет преобразования стоимости ручного перевода удивительно.
Большая часть из 20 миллионов корпусов, используемых сегодня нашей собственной системой, представляет собой параллельный корпус из Организации Объединенных Наций.
CMS.uno V.org/UN corpus/ Это…
До 14 лет знакомый Google Translate был основан на статистическом машинном переводе. Услышав это, всем должно быть ясно, что модель статистического перевода не может достичь великого дела Вавилонской башни. По вашим впечатлениям, машинный перевод пока только на уровне "полезный", а не "полезный".
Машинный перевод на основе нейронных сетей (2014)
Нейронные сети не новы, на самом деле нейронные сети были изобретены более 80 лет назад, но с тех пор, как Джеффри Хинтон (первый из трех великих богов глубокого обучения) в 2006 году исправил фатальный недостаток слишком медленной оптимизации нейронных сетей, Глубокое обучение продолжает развиваться, и в нашей жизни часто появляются всевозможные чудесные результаты. В 2015 году машины впервые превзошли людей в распознавании изображений; в 2016 году Alpha Go победила мирового шахматного короля; в 2017 году распознавание речи превзошло людей-стенографисток; в 2018 году машины впервые превзошли людей в понимании прочитанного на английском языке. Конечно, область машинного перевода также начала процветать благодаря суперудобрению глубокого обучения.
В своей статье 2014 года Йошуа Бенжио впервые изложил базовую архитектуру технологии глубокого обучения для машинного перевода. В основном он использует рекуррентную нейронную сеть на основе последовательностей (RNN), которая позволяет машине автоматически фиксировать особенности слов между предложениями, которые затем могут быть автоматически записаны как результат перевода на другой язык. Как только эта статья вышла, Google стал настоящим сокровищем. Вскоре, с достаточным запасом пороха у Google и благословением великого бога, Google официально объявил в 2016 году, что все статистические машинные переводы будут сняты с полок, а машинные переводы на основе нейронных сетей возьмут верх, став абсолютным мейнстримом современной машинные переводы.
Краткое введение в общую структуру машинного перевода на основе нейронных сетей: структура кодировщик-декодер.
С точки зрения непрофессионала, кодировщик — это процесс сжатия информации, а декодер — это процесс декодирования информации обратно к человеческому пониманию.Чем меньше потери информации в этом процессе, тем лучше.
Структура показана на следующем рисунке:
Рис. 1. Среда машинного перевода gnmt
Это структура фреймворка gnmt, опубликованного Google в 2016 г. Она реализована с использованием механизма lstm+attention Заинтересованные студенты могут ознакомиться с документами или блогами, связанными с Baidu.
Рис. 2. Платформа машинного перевода Transformer
Transformer — это новаторская архитектура, предложенная Google в статье https://arxiv.org/pdf/1706.03762.pdf в 2017 г. Эта структура отличается от всех предыдущих сетевых структур машинного перевода и опирается только на преимущества модели. современные результаты, превосходящие результаты машинного перевода любого предыдущего метода.
Если вы хотите понять принципы более глубоко, вам все равно нужно прочитать некоторые теоретические статьи. Если вы просто хотите построить такую систему и выполните шаги в следующем практическом занятии, у вас будет возможность построить систему машинного перевода на основе самых передовых моделей в мире.
Вот некоторые теоретические введения, которые необходимы в машинном переводе, в том числе следующие:
Краткое введение в векторы встраивания слов:blog.CSDN.net/U012052268/…
Документы, связанные с машинным переводом:
Обучение от последовательности к последовательности с помощью нейронных сетей (2014 г.)
Предложение механизма внимания (2016)
Gnmt, основанный на внимании Google (2016 г.)
Механизм внутреннего внимания: Трансформер (2017)
Самая известная конференция на высшем уровне по машинному переводу также является конкурсом WMT. Все известные гигантские компании мира с технологией машинного перевода выиграли конкурс. Конкурс стартовал в 2017. Все лучшие команды Итеративная оптимизация выполняется изготовление модели трансформера.
Методы и приемы, предложенные некоторыми из этих команд, также были собраны и отсортированы компаниями с технологией машинного перевода, чтобы попытаться использовать их в своих собственных системах перевода.
Кроме того, некоторые важные решения для конкуренции в стране и за рубежом также являются некоторыми моментами, на которые мы должны ссылаться.
www.statmt.org/wmt18/