1. Представьте

При разработке системы перевода с моделью Seq2Seq предполагается, что вводится предложение на французском языке, а выводится на английском языке. В разделе Вывод декодера выберите другие слова, и результаты вывода (перевода) будут другими.

Вот пример со следующим рисунком:

在这里插入图片描述

Французское предложение переводится в 4 разных английских предложения с помощью модели Seq2Seq. Какой результат мы должны выбрать в качестве окончательного результата?

На приведенном выше рисунке дана формула, в которойxозначает французское предложение,yПредставляет окончательное английское предложение, состоящее из каждого слова, а разные комбинации y представляют разные переводы, то есть y1~yn представляет последовательность слов.

Ключом к решению этой проблемы является поиск подходящего значения y, чтобы максимизировать значение формулы на графике.

Но как именно? Здесь мы представляем один метод: жадный поиск.

2. Жадный алгоритм: жадный поиск

Первый метод выбора — это простейший жадный поиск, который представляет собой самый простой жадный алгоритм: каждый раз выбирается слово с наибольшим значением выходной вероятности для формирования последовательности слов, как показано на следующем рисунке:

在这里插入图片描述

Сначала выберите первое слово с наибольшим значением вероятности в качестве выхода и введите его в декодер, а затем выберите второе и третье слово с наибольшим значением вероятности. . .

Очевидно, что это не очень хороший подход. Потому что жадный алгоритм не находит оптимального решения. Например, два предложения, переведенные на английский язык:

A. Jane is visiting Africa in September.
B. Jane is going to be visiting Africa in September.

В этих двух переводах А и Б верны по содержанию, но А, очевидно, более лаконичен и является лучшим переводом. Но если вы используете жадный алгоритм, после ввода «Jane is» вы можете получить «going», потому что «going» используется чаще, поэтому алгоритм в конечном итоге выбирает B.

Самый идеальный способ — исчерпывающе перечислить каждый тип вывода, а затем посмотреть, является ли значение формулы в предыдущем разделе максимальным, чтобы найти оптимальное решение, но это требует слишком многократного исчерпания, а сложность неприемлема. .

Ссылаться на

[1]. blog.CSDN.net/WeChat_3893…
[2]. Andrew Ng Sequence Models video

Первоначально опубликовано в:blog.CSDN.net/общее желание/AR…