Стабильный голосовой перевод в режиме реального времени в Google Translate

искусственный интеллект
Стабильный голосовой перевод в режиме реального времени в Google Translate

Видео введение:Стабильный голосовой перевод в режиме реального времени в Google Translate

Transcribe в приложении Google Translate можно использовать для создания транскрипций перевода в реальном времени для таких мероприятий, как встречи и презентации, или просто для историй, рассказанных за обеденным столом на языке, который вы не понимаете. В этом случае полезно своевременно отображать переведенный текст, чтобы поддерживать интерес и вовлеченность читателей.
Однако в более ранних версиях этой функции переведенный текст подвергался множеству оперативных изменений, что могло отвлекать. Это связано с немонотонными отношениями между оригиналом и переводом, слова в конце исходного предложения будут влиять на слова в начале перевода.

Сегодня мы рады представить некоторые технологии, лежащие в основе недавно выпущенного обновления функции транскрипции в приложении Google Translate, которое значительно сокращает количество исправлений перевода и улучшает взаимодействие с пользователем. В двух статьях представлены исследования, направленные на достижение этой цели. В первой сформулированной структуре оценки, ориентированной на перевод на месте и разработку методологий для снижения нестабильности. Второй показывает, что эти методы очень хорошо сопоставимы с альтернативами, сохраняя при этом простоту исходного метода. Полученная модель более стабильна и обеспечивает значительно улучшенный опыт чтения в Google Translate.


Оцените перевод в реальном времени
Прежде чем предпринимать какие-либо улучшения, важно сначала понять и количественно оценить различные аспекты взаимодействия с пользователем с целью максимального повышения качества при минимальных задержках и нестабильности. В разделе «Стратегии ретрансляции для полного, синхронного, устного перевода» мы разработали систему оценки для перевода в реальном времени, которая с тех пор лежит в основе нашей исследовательской и инженерной работы. В данной работе предлагаются показатели эффективности с использованием следующих показателей:

  • Стирание: измерьте дополнительную нагрузку на пользователей из-за нестабильности чтения. Это количество слов, стертых и замененных для каждого слова в окончательном переводе.
  • Задержка: измеряет среднее время, которое проходит между моментом, когда пользователь произносит слово, и моментом, когда перевод слова, отображаемого на экране, становится стабильным. Требование стабильности позволяет избежать систем вознаграждения, потому что эти системы могут быть достигнуты быстро только с частыми исправлениями.
  • BLEU Score: измеряет качество окончательного перевода. Различия в качестве промежуточных переводов фиксируются комбинацией всех показателей.

Важно признать неотъемлемые компромиссы между этими различными аспектами качества. Transcribe обеспечивает перевод в реальном времени, накладывая машинный перевод на автоматическое распознавание речи в реальном времени. Для каждого обновления идентифицированной расшифровки в режиме реального времени генерируется новый перевод; обновления могут происходить несколько раз в секунду. Этот подход ставит Transcribe на крайний случай трехмерной структуры качества: он демонстрирует наименьшее отставание и лучшее качество, но также имеет высокий уровень стирания. Знание этого позволяет нам работать над поиском лучшего баланса.

стабильная ретрансляция
Простое решение для уменьшения стирания — уменьшить частоту обновлений перевода. В соответствии с этим модели «потокового перевода» (такие как STACL и MILk) разумно учатся распознавать, когда получено достаточно исходной информации для безопасного расширения перевода, поэтому перевод никогда не нужно менять. При этом модель потоковой трансляции способна добиться нулевого стирания.
Недостатком таких моделей потокового перевода является то, что они снова занимают крайнюю позицию: нулевое стирание требует жертвовать BLEU и задержкой. Вместо того, чтобы полностью устранять стирание, небольшой бюджет случайной нестабильности может позволить улучшить BLEU и отставание. Что еще более важно, потоковый перевод требует переобучения и поддержки специальных моделей, предназначенных для перевода в реальном времени. Это исключает использование потокового перевода в некоторых случаях, так как поддержание бережливого конвейера является важным фактором для такого продукта, как Google Translate, который поддерживает более 100 языков.
В нашей второй статье «Ретрансляция и потоковая передача для одновременного перевода» мы показываем, что наш исходный подход к «повторному переводу» перевода в реальном времени может быть точно настроен для уменьшения стирания и достижения более благоприятной транзакции стирания/запаздывания/BLEU. Без обучения каких-либо специализированных моделей мы применяем пару эвристик времени вывода к исходной модели машинного перевода — маскирование и смещение.
Конец продолжающегося перевода имеет тенденцию мерцать, потому что он, скорее всего, будет полагаться на исходное слово, которое еще не прибыло. Мы уменьшаем это, усекая некоторые слова из перевода до тех пор, пока не будет соблюден конец исходного предложения. Таким образом, этот процесс маскирования меняет задержку на стабильность без ущерба для качества. Это очень похоже на стратегии на основе задержки, используемые в методах потоковой передачи (например, Wait-k), но применяется только во время логического вывода, а не обучения.
Нейронный машинный перевод часто «качается» между одинаково хорошими переводами, что приводит к ненужному стиранию. Мы улучшаем стабильность, смещая вывод в сторону того, что мы уже показываем пользователю. В дополнение к уменьшению стирания, смещение также имеет тенденцию уменьшать задержку за счет более ранней стабилизации перевода. Предвзятость хорошо взаимодействует с масками, так как маски также могут быть нестабильными для слов, которые не позволяют модели исказить их. Однако этот процесс требует тщательной настройки, так как высокое смещение, а также недостаточное маскирование могут негативно сказаться на качестве.
Комбинация маскирования и смещения дает высококачественную систему повторного перевода с малой задержкой, практически исключая стирание. В таблице ниже показано, как метрики реагировали на введенную нами эвристику, и как они соотносятся с другими системами, рассмотренными выше. На рисунке показано, что даже при очень небольшом бюджете стирания ретрансляция превосходит системы потокового перевода с нулевым мерцанием (MILk и Wait-k), обученные для перевода в реальном времени.
система синяя команда стереть
Перевести (старый) 20,4 4,1 2,1

  • стабильный (новый) 20,2 4,1 0,1


Сравнение ретрансляции со стабильными и специализированными моделями потока (Wait-k и MILk) на WMT 14 англо-немецкий язык. Ретранслированные кривые компромисса BLEU-lag получены с различными комбинациями смещений и масок, при сохранении бюджета стирания менее 2 слов на 10 сгенерированных стираний. Ретрансляция обеспечивает лучший компромисс между BLEU и задержкой, чем модели потока, которые нельзя исправить и которые требуют специального обучения для каждой точки компромисса.

в заключении
Решение, описанное выше, очень быстро возвращает достойный перевод, позволяя при этом пересматривать его по мере того, как произносится больше исходного предложения. Простая структура ретрансляции позволяет нам применять наши лучшие модели речи и перевода с минимальными усилиями. Однако сокращение стирания — это только часть дела. Мы также надеемся улучшить общий опыт перевода речи с помощью новых технологий, которые могут уменьшить задержку при переводе или улучшить транскрипцию, когда говорят несколько человек.

Инструкции по обновлению: Приоритет отдается обновлению общедоступной учетной записи WeChat «Блог дождливой ночи», а блог будет обновлен позже, а затем будет распространен на различные платформы.Если вы хотите узнать больше заранее, обратите внимание на Публичный аккаунт WeChat «Блог дождливой ночи».

Источник блога:Блог Дождливой ночи