Несмотря на то, что было приложено много усилий для улучшения качества видео, снятого камерами смартфонов, качество звука в видео часто упускается из виду. Например, речь субъекта в видео с несколькими динамиками или с высоким фоновым шумом может быть искажена, искажена или трудна для понимания. Чтобы решить эту проблему, два года назад мы запустили Look to Listen, метод машинного обучения (ML), который использует визуальные и звуковые подсказки для выделения речи субъектов видео. Обучая модель на большом количестве онлайн-видео, мы можем фиксировать корреляции между речью и визуальными сигналами (такими как движения рта и выражение лица), которые затем можно использовать для отделения речи одного человека от речи другого в видео или Отделяйте речь от фоновых звуков. Мы показываем, что этот метод не только обеспечивает самые современные результаты в разделении и улучшении речи (значительное улучшение на 1,5 дБ по сравнению с моделями только для аудио), но и может улучшить результаты обработки только аудио, особенно при наличии нескольких аудиосигналов. модели . Люди говорят, потому что визуальные подсказки в видео помогают определить, кто что говорит.
Теперь мы рады предложить пользователям технологию Look to Listen с новой функцией улучшения аудиовизуального голоса в YouTube Stories (iOS), позволяющую создателям делать более качественные селфи-видео за счет автоматического улучшения звука и снижения фонового шума. Донести эту технологию до пользователей — непростая задача. В течение прошлого года мы тесно сотрудничали с пользователями, чтобы понять, как они хотели бы использовать подобную функцию, в каком контексте и какой баланс голоса и фонового звука они хотели бы иметь в своих видео. Наш высокооптимизированный режим прослушивания Outlook, который делает его эффективным для работы на мобильных устройствах, сокращает общее время работы с 10-кратного в реальном времени на настольных компьютерах до нашей бумажной производительности из 0,5-кратной производительности в реальном времени на мобильных устройствах. Мы также тщательно протестировали технологию, чтобы убедиться, что она стабильно работает в разных условиях записи и с людьми с разной внешностью и голосом.
От исследования к продукту
Оптимизация Find Listening для быстрой и надежной работы на мобильных устройствах требует от нас решения многих проблем. Во-первых, вся обработка должна выполняться на устройстве в клиентском приложении, чтобы свести к минимуму время обработки и защитить конфиденциальность пользователя; аудио- или видеоинформация не отправляется на сервер для обработки. Кроме того, в дополнение к самой ресурсоемкой записи видео модель должна сосуществовать с другими алгоритмами машинного обучения, используемыми в приложении YouTube. Наконец, алгоритм должен работать быстро и эффективно на устройстве при минимальном потреблении заряда батареи.
Первым шагом в конвейере «найти и прослушать» является выделение миниатюр, содержащих лицо говорящего, из видеопотока. Теперь этот шаг можно выполнить за миллисекунды, используя MediaPipe BlazeFace и вывод с ускорением на графическом процессоре. Затем мы переключаем часть модели, которая обрабатывает каждую миниатюру по отдельности, на более легкую архитектуру MobileNet (v2), выводя визуальные характеристики, изученные для целей улучшения речи, извлеченные из миниатюр лиц со скоростью 10 мс на кадр. Поскольку время вычисления для встраивания визуальных признаков невелико, это можно сделать во время записи видео. Это позволяет избежать необходимости хранить кадр в памяти для дальнейшей обработки, уменьшая общий объем памяти. Затем, после завершения записи видео, аудио и вычисленные визуальные характеристики передаются в аудиовизуальную модель разделения речи, которая генерирует изолированную и улучшенную речь.
Мы уменьшаем общее количество параметров в аудиовизуальной модели, заменяя «обычные» 2D свертки разделяемыми свертками (1D в частотном измерении, затем 1D во временном измерении) с меньшим количеством фильтров. Затем мы дополнительно оптимизировали модель с помощью TensorFlow Lite — набора инструментов, которые могут запускать модели TensorFlow на мобильных устройствах с низкой задержкой и небольшим размером двоичного файла. Наконец, мы повторно реализовали модель в среде Learn2Compress, чтобы воспользоваться преимуществами встроенного обучения квантованию и поддержкой QRNN.
Эти оптимизации и улучшения варьируются от 10-кратного сокращения времени выполнения с использованием оригинальной формулы рабочего стола в режиме реального времени «смотри и услышь» до 0,5-кратного увеличения производительности в реальном времени с использованием только процессора iPhone и уменьшения размера модели со 120 МБ до 6 МБ, что упрощает развертывание. проще . Поскольку видеоролики YouTube Stories короткие (не более 15 секунд), результаты обработки видео доступны уже через несколько секунд после записи.
Наконец, чтобы избежать обработки видео с чистой речью (чтобы избежать ненужных вычислений), мы сначала запускаем нашу модель только для первых двух секунд видео, а затем сравниваем вывод улучшения речи с исходным входным звуком. Если различий достаточно (имеется в виду, что модель очистила речь), мы улучшаем речь для остальной части видео.
Исследовать потребности пользователей
Ранние версии Look to Listen были разработаны, чтобы полностью изолировать речь от фонового шума. В ходе исследования пользователей, которое мы провели совместно с YouTube, мы обнаружили, что пользователи предпочитают оставлять некоторые фоновые звуки, чтобы передать контекст и сохранить общую атмосферу некоторых сцен. Основываясь на этом пользовательском исследовании, мы берем линейную комбинацию исходного звука и наших сгенерированных чистых речевых каналов: output_audio = 0,1 x original_audio + 0,9 x речь. На видео ниже показана чистая речь в сочетании с различными уровнями фонового звука в сцене (10% фона — это баланс, который мы используем на практике).
Анализ справедливости
Еще одно важное требование заключается в том, чтобы модель была справедливой и инклюзивной. Он должен быть в состоянии обрабатывать различные типы голосов, языков и акцентов, а также различные визуальные эффекты. С этой целью мы провели серию тестов, изучающих производительность модели по различным визуальным и речевым/слуховым атрибутам: возрасту говорящего, цвету кожи, разговорному языку, высоте речи, видимости лица говорящего (процент видео ) говорящего в кадре), поза головы, растительность на лице, наличие очков и уровень фонового шума в (входном) видео на протяжении всего видео.
Для каждого из вышеперечисленных визуальных/слуховых атрибутов мы запускаем нашу модель на сегментах оценочного набора (отдельно от обучающего набора) и измеряем точность улучшения речи, сегментированную в соответствии с различными значениями атрибута. Результаты для некоторых свойств представлены на рисунках ниже. Каждая точка данных на графике представляет собой сотни (в большинстве случаев тысячи) видео, соответствующих критериям.
Использовать функцию
Создатели YouTube, которые имеют право создавать истории YouTube, могут записать видео на iOS и выбрать «Расширенная речь» в инструменте редактирования регулятора громкости. Это немедленно применит улучшение голоса к звуковой дорожке и зациклит улучшенный голос. Затем эту функцию можно включать и выключать несколько раз, чтобы сравнить улучшенную речь с исходным звуком.
Запуская эту новую функцию на YouTube, мы изучаем другие места для этой технологии. Больше будет позже в этом году - следите за обновлениями!
Инструкции по обновлению: сначала обновите блог, а затем обновите публичный аккаунт WeChat «Блог дождливой ночи», а затем распространяйте его на различные платформы одну за другой.Если вы хотите узнать больше заранее, обратите внимание на «Блог дождливой ночи». .
Источник блога:Блог Дождливой ночи