Решение аудиоуправляемого видео было очень популярно в прошлом году. Вот LiveSpeechPortraits от NTU, который может реализовать вождение в реальном времени. Многие из предыдущих решений медленны или неэффективны. Идея этой статьи также очень простой.
адрес проекта:Юаньсюнь Олень.GitHub.IO/projects/li…Диссертация в основном разделена на три процесса для завершения:
Короче говоря, первый этап преобразует звук в матрицу для обработки, а второй этап в основном собирает информацию о лице, в основном движения рта, движения головы, брови и т. д. Самая интересная часть этой статьи состоит в том, чтобы сделать два предположения: (1) Движения головы и голос связаны слабо, что можно понимать как то, что голос и движения головы мало связаны, но связь небольшая; (2) Текущее движение головы и предыдущие движения головы также слабо коррелируют;
Разрушение этих двух предположений заключается в том, что речь в основном связана с движением рта, мало связана с движением головы и почти не связана с движениями бровей, поэтому мы видели в статье, что обрабатываем звук на первом этапе.Результат вводится в движение рта, брови используются в качестве выборки, а движение головы используется в качестве вероятностного принятия, которое хорошо интегрирует предыдущие предположения. Третий этап заключается в использовании приведенных выше сводных результатов для создания прогнозируемых изображений с помощью преобразования изображений.На этом этапе для обучения используется метод GAN;
Далее мы подробно опишем описанный выше процесс.
Первый этап
Из-за звуковой последовательности звук сначала вводится в модуль gru, и можно получить речевые представления.Модуль здесь представляет собой используемую модель APC, которая является общей моделью предварительной обработки для распознавания речи;речевые представления еще не завершено, чтобы обеспечить надежность модели, следующим шагом является популярное отображение речевых представлений, чтобы гарантировать, что хороший эффект может быть достигнут в будущем, когда входной звук и существующее распределение звука несовместимы, и эффект будет не плохой.
вторая стадия
Этот этап разделен на 3 различных модуля:
(1) Движения, связанные со ртом
Выше мы упоминали, что результаты, полученные с помощью нашего входного аудио, в основном связаны с движением рта.Мы также должны понимать, исходя из нашей повседневной жизни, что речь, безусловно, наиболее важна для движения рта. Из первого изображения мы должны знать, что рот по очереди вводил две модели, одна - LSTM, а другая - MLP, Математическое выражение можно использовать для краткого выражения процесса:
(2) Движение головы и верхней части тела
Здесь продуманно разработан модуль для сбора вероятностных данных, который не только использует часть данных предыдущего заголовка для данных текущего заголовка, но также использует аудиоданные, а затем вводит агрегированные результаты в данные текущего заголовка.
(3) Глаза и брови
Просто пробуйте напрямую, никакая другая обработка не выполняется
Третий этап
Этот этап заключается в использовании сети генерации конфронтации для генерации картинок, особой сложности в этой части нет, в качестве входных используются непосредственно данные второго этапа, а в среднем слое вводятся несколько картинок кандидатов, а затем результат изображение (диаграмма последовательности/видео) вводится;
результат
Также смотрите видеоэффектreplicate.com/GrandfatherDeer/Приходите…Ограничение этого кода заключается в том, что общедоступного обучающего кода нет, опубликовано только несколько демонстраций, и он не объясняет, как генерируются файлы в демонстрации, поэтому вам нужно догадаться самостоятельно.