Результаты поиска и оценки луча

Это 25-й день моего участия в августовском испытании обновлений. Ознакомьтесь с подробностями мероприятия: Испытание августовского обновления

поиск луча

В предыдущей статье seq2seq и механизм внимания мы упоминали, что кодировщик, наконец, выводит фоновый вектор. $\boldsymbol{c}$ , фоновый вектор кодирует входную последовательность $\boldsymbol{x}_1,\boldsymbol{x}_2,...,\boldsymbol{x}_T$ Информация. Предположим, что выходная последовательность в обучающих данных равна $\boldsymbol{y}_1,\boldsymbol{y}_2,...,\boldsymbol{y}_{T'}$ , вероятность генерации выходной последовательности равна

P(\boldsymbol{y}_1,\boldsymbol{y}_2,...,\boldsymbol{y}_{T'})=\prod_{t'=1}^{T'}P(\boldsymbol{y}_{t'}\mid \boldsymbol{y}_1,...,\boldsymbol{y}_{t'-1},\boldsymbol{c})

Для вывода машинного перевода, если набор словарного запаса выходного языка $\mathcal{Y}$ размер $|\mathcal{Y}|$ , длина выходной последовательности $T'$ , то возможные виды выходных последовательностей $O(|\mathcal{Y}|^{T'})$ . Чтобы найти выходную последовательность с наибольшей вероятностью генерации, один из подходов состоит в том, чтобы вычислить все $O(|\mathcal{Y}|^{T'})$ Вероятность генерации каждой возможной последовательности и вывод последовательности с наибольшей вероятностью. Мы называем эту последовательность оптимальной последовательностью. Но этот подход требует больших вычислительных ресурсов (например, $10000^{10}=1\times10^{40}$ )

Декодер, который мы представили до сих пор, выдает только слово с наибольшей вероятностью генерации в каждый момент времени. в любой момент $t'$ , мы начинаем с $|\mathcal{Y}|$ выходное слово поиска слов

\boldsymbol{y}_{t'} = \operatorname*{argmax}_{\boldsymbol{y}_{t'} \in \mathcal{Y}} P(\boldsymbol{y}_{t'} \mid \boldsymbol{y}_{1}, \ldots, \boldsymbol{y}_{t'-1}, \boldsymbol{c})

Таким образом, вычислительные затраты на поиск $O(|\mathcal{Y}|\times T')$ значительное снижение (например, $10000\times 10=1\times 10^{5}$ ), но это не гарантирует, что будет найдена оптимальная последовательность

Поиск луча находится где-то посередине. Давайте посмотрим на пример

Предполагая, что словарь выходной последовательности содержит только 5 слов: $\mathcal{Y}=\{A,B,C,D,E\}$ . Гиперпараметр поиска луча называется шириной луча. Взяв в качестве примера ширину луча, равную 2, пусть длина выходной последовательности равна 3. Если время 1 генерирует вероятность $P(\boldsymbol{y}_{t'}\mid \boldsymbol{c})$ Два самых больших слова $A$ и $C$ , мы на время 2 для всех $\boldsymbol{y}_{2}\in \mathcal{Y}$ рассчитываются отдельно $P(\boldsymbol{y}_2\mid A,\boldsymbol{c})$ и $P(\boldsymbol{y}_{2}\mid C,\boldsymbol{c})$ , возьмите две самые большие из 10 рассчитанных вероятностей, предполагая, что $P(B\mid A,\boldsymbol{c})$ и $P(E\mid C,\boldsymbol{c})$ . Тогда мы в момент 3 для всех $\boldsymbol{y}_{3}\in \mathcal{Y}$ рассчитываются отдельно $P(\boldsymbol{y}_3\mid A,B,\boldsymbol{c})$ и $P(\boldsymbol{y}_3\mid C,E,\boldsymbol{c})$ , возьмите две самые большие из 10 рассчитанных вероятностей, предполагая, что $P(D\mid A,B,\boldsymbol{c})$ и $P(C\mid A,B,\boldsymbol{c})$

Далее мы можем вывести последовательность: $A$ , $C$ , $AB$ , $CE$ , $ABD$ , $ABC$ Последовательности-кандидаты, заканчивающиеся специальным символом EOS, отфильтровываются. Затем возьмите следующую последовательность с наивысшим баллом в качестве последней последовательности-кандидата в последовательности-кандидате:

\frac{1}{L^\alpha} \log P(\boldsymbol{y}_1, \ldots, \boldsymbol{y}_{L}) = \frac{1}{L^\alpha} \sum_{t'=1}^L \log P(\boldsymbol{y}_{t'} \mid \boldsymbol{y}_1, \ldots, \boldsymbol{y}_{t'-1}, \boldsymbol{c}),

в $L$ длина последовательности-кандидата, $\alpha$ Как правило, его можно выбрать равным 0,75. в знаменателе $L^{\alpha}$ состоит в том, чтобы оштрафовать член логарифмического сложения в счете более длинной последовательности

Оцените результаты перевода

В 2002 году команда IBM предложила индикатор для оценки результатов перевода, названный BLEU (Bilingual Evaluation Understudy).

Предполагать $k$ - максимальная длина n-граммы, которую мы хотим оценить, например. $k=4$ . Точность n-граммов $p_n$ Отношение количества эталонных выходных данных для соответствия количеству n-грамм в выходных данных модели к количеству n-грамм в выходных данных модели. Например, эталонный выход (истинное значение) — ABCDEF, а выход модели — ABBCD. Так $p_1=4/5,p_2=3/4,p_3=1/3,p_4=0$ . Предполагать $\text{len}_{\text{ref}}$ и $\text{len}_{\text{MT}}$ количество слов в эталонном выводе и выводе модели соответственно. Тогда BLEU определяется как

\exp(\min(0, 1-\frac{\text{len}_{\text{ref}}}{\text{len}_{\text{MT}}}))\prod_{i=1}^{k}p_{n}^{1/2^n}

Следует отметить, что с $n$ увеличивается, вес n-граммовой точности увеличивается с $p_{n}^{1/2^n}$ Индекс уменьшается и увеличивается. Например

0.5^{1/2}\approx 0.7,\ 0.5^{1/4}\approx 0.84,\ 0.5^{1/16}\approx0.96

Другими словами, за совпадение 4 граммов должно быть больше вознаграждения, чем за совпадение 1 грамма. Кроме того, чем короче вывод модели, тем легче получить более высокую точность n-грамм. Следовательно, коэффициенты, предшествующие члену умножения в формуле BLEU, предназначены для штрафа за более короткие выходные данные. Например, когда $k=2$ , эталонный выход — ABCDEF, а выход модели — AB. В это время $p_1=p_2=1$ ,и $\exp(1-6/2)\approx0.135$ , поэтому BLEU=0,135. Когда выход модели также ABCDEF, BLEU=1