Машинный перевод и автоматическое реферирование метрик оценки BLEU и ROUGE

NLP
Машинный перевод и автоматическое реферирование метрик оценки BLEU и ROUGE

В задачах машинного перевода обычно используются BLEU и ROUGE: BLEU измеряет качество перевода в соответствии с Precision, а ROUGE измеряет качество перевода в соответствии с Recall.

1. Метрики оценки машинного перевода

После использования метода машинного обучения для создания перевода текста необходимо оценить производительность перевода модели, что требует использования некоторых показателей оценки машинного перевода, среди которых наиболее распространенными являются BLEU и ROUGE. Эти две метрики имеют более старую историю: BLEU был предложен в 2002 году, а ROUGE — в 2003 году. Хотя у этих двух индикаторов есть некоторые проблемы, они по-прежнему являются относительно распространенными индикаторами оценки машинного перевода.

общее использованиеCПредставляет машинный перевод плюс m справочных переводов.S1, S2, ..., Sm. Показатели оценки могут измерять производительность машинного переводаCи справочные переводыS1, S2, ..., Smстепень соответствия.

2.BLEU

Полное название BLEU — Bilingual Assessment Understudy.Оценка BLEU варьируется от 0 до 1. Чем ближе оценка к 1, тем выше качество перевода. BLEU в основном основан на коэффициенте точности (Precision).Ниже приведена общая формула BLEU.

  • BLEU необходимо рассчитать точность перевода 1-грамм, 2-грамм, ..., N-грамм.Как правило, N можно установить равным 4. Pn в формуле относится к точности n-грамм.
  • Wn относится к весу n-граммы, который обычно устанавливается как единый вес, то есть Wn = 1/N для любого n.
  • BP — штрафной коэффициент, если длина перевода меньше самого короткого эталонного перевода, то BP меньше 1.
  • Точность BLEU в 1 грамм показывает, насколько перевод соответствует оригиналу, в то время как другие n-граммы указывают на беглость перевода.

2.1 Расчет точности в н-граммах

Гипотетический машинный переводCи справочный переводS1следующее:

C: a cat is on the table
S1: there is a cat on the table 

Затем вы можете рассчитать точность 1 грамма, 2 грамма, ...

Есть некоторые проблемы с вычислением Precision напрямую, например:

C: there there there there there
S1: there is a cat on the table 

В настоящее время результат машинного перевода явно неверен, но точность его 1 грамма равна 1, поэтому BLEU обычно использует скорректированный метод. данный справочный переводS1, S2, ..., Sm, который можно рассчитатьCТочность n-кортежа внутри вычисляется следующим образом:

2.2 Штрафной коэффициент

Метод BLEU для расчета точности n-грамм представлен выше, но все еще есть некоторые проблемы.Когда длина машинного перевода относительно мала, оценка BLEU будет относительно высокой, но этот перевод потеряет много информация, такая как:

C: a cat
S1: there is a cat on the table 

Следовательно, вам нужно умножить балл BLEU на штрафной коэффициент.

3.ROUGE

Полное название индикатора ROUGE — (Recall-Oriented Understudy for Gisting Evaluation), которое в основном основано на уровне отзыва. ROUGE — это широко используемая метрика оценки для машинного перевода и рефератов статей, предложенная Чин-Ю Лином, который в своей статье предложил четыре метода ROUGE:

  • ROUGE-N: вычисление отзыва на N-граммах
  • ROUGE-L: учитывает самую длинную общую подпоследовательность между машинным переводом и эталонным переводом.
  • ROUGE-W: улучшенный ROUGE-L с использованием взвешенного метода для расчета самой длинной общей подпоследовательности.
  • ROUGE-S: Он также считает N-граммы, но используемые им N-граммы позволяют «пропустить», то есть слова не должны появляться последовательно.

3.1 ROUGE-N

ROUGE-N в основном подсчитывает скорость отзыва на граммах N. Для N-грамм можно рассчитать балл ROUGE-N. Формула расчета следующая:

Знаменатель формулы — это количество N-грамм в эталонном переводе, а числитель — количество N-грамм в эталонном переводе и машинном переводе.

C: a cat is on the table
S1: there is a cat on the table 

Показатели ROUGE-1 и ROUGE-2 для приведенного выше примера следующие:

Если даны несколько справочных переводовSi, Чин-Ю Лин также привел метод расчета, предполагая, что существует M переводовS1, ..., SM. ROUGE-N рассчитает баллы ROUGE-N машинного перевода и этих эталонных переводов отдельно и возьмет максимальное значение, формула выглядит следующим образом. Этот метод также можно использовать для ROUGE-L, ROUGE-W и ROUGE-S.

3.2 ROUGE-L

L в ROUGE-L относится к самой длинной общей подпоследовательности (LCS), а машинный перевод используется при расчете ROUGE-L.Cи справочные переводыSСамая длинная общая подпоследовательность , формула расчета выглядит следующим образом:

R_LCS в формуле представляет собой полноту, P_LCS представляет собой точность, а F_LCS представляет собой ROUGE-L. Обычно для бета установлено очень большое число, поэтому F_LCS почти учитывает только R_LCS (т. е. отзыв).Обратите внимание, что если бета здесь велика, F будет уделять больше внимания R вместо P. Вы можете увидеть следующую формулу. Если бета велика, термин P_LCS можно игнорировать.

3.3 ROUGE-W

ROUGE-W является улучшенной версией ROUGE-L, рассмотрим следующий пример,Xозначает справочный перевод, иY1,Y2Представляет два машинных перевода.

В этом примере очевидноY1более качественных переводов, потому чтоY1Есть больше последовательных совпадающих переводов. Однако оценки, рассчитанные ROUGE-L, действительно одинаковы, то есть ROUGE-L(X, Y1)=ROUGE-L(X, Y2).

Поэтому автор предлагает взвешенный метод самой длинной общей подпоследовательности (WLCS), который дает более высокий балл для последовательных переводов.Для получения дополнительной информации, пожалуйста, прочитайте оригинальную статью «РУЖЕ: пакет для автоматической оценки резюме».

3.4 ROUGE-S

ROUGE-S также считает N-граммы, но используемые им N-граммы допускают «пропуск», то есть слова не должны появляться последовательно. Например, Skip 2-грамма предложения «У меня есть кошка» включает (я, имею), (я, а), (я, кошка), (имею, а), (имею, кошка), (а , Кот).

4. Ссылки