1. Представьте
При разработке системы перевода с моделью Seq2Seq предполагается, что вводится предложение на французском языке, а выводится на английском языке. В разделе Вывод декодера выберите другие слова, и результаты вывода (перевода) будут другими.
Вот пример со следующим рисунком:
Французское предложение переводится в 4 разных английских предложения с помощью модели Seq2Seq. Какой результат мы должны выбрать в качестве окончательного результата?
На приведенном выше рисунке дана формула, в которойx
означает французское предложение,y
Представляет окончательное английское предложение, состоящее из каждого слова, а разные комбинации y представляют разные переводы, то есть y1~yn представляет последовательность слов.
Ключом к решению этой проблемы является поиск подходящего значения y, чтобы максимизировать значение формулы на графике.
Но как именно? Здесь мы представляем один метод: жадный поиск.
2. Жадный алгоритм: жадный поиск
Первый метод выбора — это простейший жадный поиск, который представляет собой самый простой жадный алгоритм: каждый раз выбирается слово с наибольшим значением выходной вероятности для формирования последовательности слов, как показано на следующем рисунке:
Сначала выберите первое слово с наибольшим значением вероятности в качестве выхода и введите его в декодер, а затем выберите второе и третье слово с наибольшим значением вероятности. . .
Очевидно, что это не очень хороший подход. Потому что жадный алгоритм не находит оптимального решения. Например, два предложения, переведенные на английский язык:
- A. Jane is visiting Africa in September.
- B. Jane is going to be visiting Africa in September.
В этих двух переводах А и Б верны по содержанию, но А, очевидно, более лаконичен и является лучшим переводом. Но если вы используете жадный алгоритм, после ввода «Jane is» вы можете получить «going», потому что «going» используется чаще, поэтому алгоритм в конечном итоге выбирает B.
Самый идеальный способ — исчерпывающе перечислить каждый тип вывода, а затем посмотреть, является ли значение формулы в предыдущем разделе максимальным, чтобы найти оптимальное решение, но это требует слишком многократного исчерпания, а сложность неприемлема. .
Ссылаться на
- [1]. blog.CSDN.net/WeChat_3893…
- [2]. Andrew Ng Sequence Models video
Первоначально опубликовано в:blog.CSDN.net/общее желание/AR…