Введение
Будучи китайцем, хорошо изучать английский язык с начальной школы было неприятно, но в последние годы, с быстрым развитием ИИ, вопрос о том, будут ли языковые различия сужены или даже устранены, стал горячей темой. 15 мая Google AI опубликовал на блог-платформе статью, официально представляя черную технологию «синхронного перевода», способную сохранять исходный звук.Как только новость вышла, она быстро пронеслась по интернету и принесла новый рассвет технологиям. энтузиастов. , Далее давайте разгадаем тайну под названием «Транслаторон».
Появление Транслатотрона
В настоящее время процесс перевода широко используемых на рынке продуктов голосового перевода состоит из трех этапов: сначала голос преобразуется в текст, затем текст преобразуется машиной в текст на целевом языке и, наконец, текст в целевом формате. язык преобразуется в голос (полное название преобразования текста в речь Text-To).-Речь, также называемая TTS).
Google Translatotron совсем другой: он каким-то образом обеспечивает прямой перевод речи в речь, избегая трех вышеперечисленных шагов. Кроме того, он имеет некоторые другие преимущества, такие как более высокая скорость рассуждений, более легкое определение имен и профессиональных терминов, не требующих перевода, и т. д. Лучше всего то, что он может сохранить голосовые характеристики оригинального диктора и добиться оригинального звучания. Выведите другие языки, представьте, что вы говорите своим голосом на иностранном языке, который даже вы не понимаете, не правда ли, это немного похоже на синхронный перевод в «Блуждающей Земле», как интересно, вот дань уважения Да Лю!
Принцип транслатотрона
На самом деле сквозной перевод речи появился в 2016 г. В то время исследователи обнаружили, что использование «модели последовательности в последовательность» для перевода «речь в текст» вполне осуществимо. доказал, что это действительно работает Очень бросается в глаза, но этого недостаточно Появление Транслатотрона доказало всем, что «модель последовательности в последовательность» может не только преобразовывать текст, но и напрямую преобразовывать его в речь, не полагаясь на какие-либо промежуточные текст.
Существительные в приведенной выше части немного двусмысленны. Позвольте мне объяснить здесь.Сквозное обучение, английское название сквозное, это как черный ящик, людей волнует только то, соответствует ли результат ожидаемому результату после закидывания в него данных, и их не волнует промежуточный процесс реализации. Принцип реализации этого черного ящика заключается в том, что при возникновении ошибки между результатом и ожидаемым результатом он передает ошибку обратно на каждую ссылку обучающей модели, чтобы они могли настроить себя в соответствии с ошибкой до тех пор, пока результат не совпадет. ожидание.
ипоследовательная модель, Sequence to Sequence на английском, этоСтруктура реализации сквозной концепции, впервые появившийся в статье Бенжио 2014 г. Бенжио — профессор Монреальского университета, и его и двух других друзей люди в области искусственного интеллекта окрестили «канадской мафией».
Целью модели «последовательность к последовательности» является «преобразование последовательностей в одном домене (например, китайском) в последовательности в другом домене (например, английском)», что достигается путем объединения двух рекуррентных нейронных сетей (RNN). в то время как комбинированная эта структура также называется структурой кодировщик-декодер, Оба конца структуры поддерживают различные типы данных, такие как текст, голос, изображение, видео и т. д., которые очень подходят для машинного перевода.
Translatotron использует тип данных изображения, который принимает спектрограмму в качестве входных данных, а затем генерирует спектрограмму целевого языка, а затем пропускает через голосовой кодек, называемый вокодер (для анализа и синтеза для сжатия аудиоданных), сигналы человеческой речи для мультиплексирования, шифрование речи, преобразование речи и т. д.) для преобразования вновь сгенерированной спектрограммы в форму волны во временной области (волнистая форма, которая выражает отношение сигнала ко времени). Кроме того, он может дополнительно использовать кодировщик для сохранения исходных речевых характеристик в синтезированной переведенной речи.
Исследование было проведено командами Google Brain, Google Translate и Google Speech. Из-за небольшого объема обучения Translatotron показал, что качество перевода и сопоставление исходного звука не так хороши, как ожидалось, но с большим количеством данных. Считается, что обучение имеет очень светлое будущее. Заинтересованные студенты могут зайти в официальный блог, чтобы узнать.
Если хотите, позвольте мне помочь вам сосредоточиться на знаниях, которые вы, возможно, не знаете и хотите знать, но никогда не думали о них.