Мона Лиза сказала «Рэп», мистер Су Ши рассказал стихотворение, а Голлум спел «Мороженое в черном розовом». Да, вы правильно прочитали, алгоритм ИИ, представленный в этой статье, позволяет вам добиться вышеупомянутых супер-причудливых спецэффектов за 5 минут с нуля и самостоятельно создавать супер-видео с миллионами кликов и горячими поисками.
Без лишних слов, давайте сначала посмотрим на эффект!
Мало того, что ~ Лю Еси, недавно популярный виртуальный блогер о красоте, первый ведущий ИИ на языке жестов главной станции видеонаблюдения, выпущенный Baidu на прошлой неделе, и основные технологии цифровых людей, такие как виртуальные айдолы, это также основная технология, которая делает цифровые люди говорят этот алгоритм ИИ.
Так что же это за волшебная технология?
Ответ - новая любимица набора с открытым исходным кодом PaddleGAN PaddleGAN - модель Wav2lip.
Спешите ознакомиться с исходным кодом и документацией по проекту. Этот проект также предоставляет популярные модели GAN, такие как реализации AnimeGANv2, GauGAN и First Order Motion. Открытый исходный код — это непросто. Надеюсь, все поддержат Star!
Что более интимно, так это то, что полный код проекта был опубликован в AI Studio, и вы можете испытать его кончиками пальцев:
студия любви.Baidu.com/lovestudio/liar…
Ниже приводится разбор технических принципов и конкретных операций для вас, и я научу вас, как реализовать стихи Су Ши, Мону Лизу, поющую рэп, или любого идола, о котором вы хотите поговорить ⁄(⁄ ⁄•⁄ω⁄•⁄ ⁄)⁄.
Это задача ввода фрагмента речи, чтобы форма губ на изображении и видео целевого человека автоматически совпадала и двигалась в соответствии с речью. Поэтому нам нужно подготовить аудио и видео портрета/персонажа аниме, а также ввести аудио и видео в модель Wav2lip.После того, как модель Wav2lip предскажет, будет выведено видео целевого персонажа/персонажа аниме, говорящего входной звук. Дубляж видео "Million Level" завершен~
Возможность переноса губ PaddleGAN - Wav2lip
Ключом к модели Wav2lip, обеспечивающей точную синхронизацию губ и речи, является:
- Дискриминатор синхронизации губ используется, чтобы заставить генератор постоянно производить точные и реалистичные движения губ.
- Кроме того, визуальное качество улучшается за счет использования нескольких последовательных кадров вместо одного кадра в дискриминаторе и использования потери визуального качества (а не просто потери контраста) для учета временных корреляций.
Универсальная модель Wav2lip работает с любым лицом, любым голосом, любым языком! Высокая точность может быть достигнута для любого видео, и его можно легко объединить с исходным видео.Как видеоэффект, так и голосовой эффект очень реалистичны.
В то же время PaddleGAN провел оптимизацию высокого разрешения для модели Wav2Lip, сделав подгонку губ более тонкой и реалистичной.
Как использовать PaddleGAN Wav2lip
С помощью PaddleGAN требуется всего два шага, чтобы выполнить вышеупомянутое волшебное самодельное «дублирование / синхронизацию губ»:
1. Загрузите PaddleGAN и необходимый установочный пакет.
`# Загрузить установочный пакет PaddlePaddle
Клонируйте код PaddleGAN с github (если скорость загрузки слишком низкая, вы можете использовать исходный код gitee)
!git клон
#!git клон
# Установите PaddleGAN локально
%cd /home/aistudio/PaddleGAN
!pip install -v -e .
!pip install -r requirements.txt
!pip install librosa!pip install numba==0.53.1`
2. Используйте команду «Композиция губ».
%cd applications/
!python tools/wav2lip.py \
--face /home/aistudio/1.jpeg \
--audio /home/aistudio/2.m4a \
--outfile /home/aistudio/pp_put.mp4 \
--face_enhancement
Просто замените параметр лица и параметр звука в следующей команде собственными путями к видео и аудио, а затем запустите для создания видео, синхронизированного со звуком.После завершения операции в текущей папке будет создан файл с именем outfile. Видеофайл — это видеофайл, синхронизированный со звуком:\
- lface: исходное видео, губы персонажей видео будут синтезированы в соответствии со звуком
- laudio: звук, который управляет синтезом губ, персонажи в видео будут синтезированы губами в соответствии с этим звуком.
- loutfile: название готового видео
- lface_enhancement: добавить лицо, чтобы усилить спецэффекты
Трюки PaddleGAN
Думаете, PaddleGAN остановится на достигнутом? НетНет~
Конечно, возможности бесплатного набора PaddleGAN с открытым исходным кодом не ограничиваются технологией миграции/генерации формы губ, он полон богатых и интересных возможностей по генерации и обработке изображений/видео. Популярные передовые модели, такие как AnimeGANv2, GauGAN, First Order Motion и другие модели, ждут вас для изучения.
Например, перенос стиля изображения, восстановление видео, сверхвысокое разрешение изображения, портретная анимация, фотоанимация, редактирование лица и т. д.
PaddleGAN похож на «игровую площадку». «Игроки» могут присоединиться и испытать различные «игровые возможности» без билетов. Если вам весело, не забудьте нажать «Звезда», чтобы поддержать ~
GitHub.com/paddle pad DL…
Нажмите, чтобы получить дополнительную техническую информацию~~