Секрет рэпа Моны Лизы! Этот алгоритм ИИ нельзя пропустить! ! !

Мона Лиза сказала «Рэп», мистер Су Ши рассказал стихотворение, а Голлум спел «Мороженое в черном розовом». Да, вы правильно прочитали, алгоритм ИИ, представленный в этой статье, позволяет вам добиться вышеупомянутых супер-причудливых спецэффектов за 5 минут с нуля и самостоятельно создавать супер-видео с миллионами кликов и горячими поисками.

Без лишних слов, давайте сначала посмотрим на эффект!

Мало того, что ~ Лю Еси, недавно популярный виртуальный блогер о красоте, первый ведущий ИИ на языке жестов главной станции видеонаблюдения, выпущенный Baidu на прошлой неделе, и основные технологии цифровых людей, такие как виртуальные айдолы, это также основная технология, которая делает цифровые люди говорят этот алгоритм ИИ.

Так что же это за волшебная технология?

Ответ - новая любимица набора с открытым исходным кодом PaddleGAN PaddleGAN - модель Wav2lip.

Спешите ознакомиться с исходным кодом и документацией по проекту. Этот проект также предоставляет популярные модели GAN, такие как реализации AnimeGANv2, GauGAN и First Order Motion. Открытый исходный код — это непросто. Надеюсь, все поддержат Star!

GitHub.com/paddle pad DL…

Что более интимно, так это то, что полный код проекта был опубликован в AI Studio, и вы можете испытать его кончиками пальцев:

студия любви.Baidu.com/lovestudio/liar…

Ниже приводится разбор технических принципов и конкретных операций для вас, и я научу вас, как реализовать стихи Су Ши, Мону Лизу, поющую рэп, или любого идола, о котором вы хотите поговорить ⁄(⁄ ⁄•⁄ω⁄•⁄ ⁄)⁄.

Это задача ввода фрагмента речи, чтобы форма губ на изображении и видео целевого человека автоматически совпадала и двигалась в соответствии с речью. Поэтому нам нужно подготовить аудио и видео портрета/персонажа аниме, а также ввести аудио и видео в модель Wav2lip.После того, как модель Wav2lip предскажет, будет выведено видео целевого персонажа/персонажа аниме, говорящего входной звук. Дубляж видео "Million Level" завершен~

Возможность переноса губ PaddleGAN - Wav2lip

Ключом к модели Wav2lip, обеспечивающей точную синхронизацию губ и речи, является:

Дискриминатор синхронизации губ используется, чтобы заставить генератор постоянно производить точные и реалистичные движения губ.
Кроме того, визуальное качество улучшается за счет использования нескольких последовательных кадров вместо одного кадра в дискриминаторе и использования потери визуального качества (а не просто потери контраста) для учета временных корреляций.

Универсальная модель Wav2lip работает с любым лицом, любым голосом, любым языком! Высокая точность может быть достигнута для любого видео, и его можно легко объединить с исходным видео.Как видеоэффект, так и голосовой эффект очень реалистичны.

В то же время PaddleGAN провел оптимизацию высокого разрешения для модели Wav2Lip, сделав подгонку губ более тонкой и реалистичной.

Как использовать PaddleGAN Wav2lip

С помощью PaddleGAN требуется всего два шага, чтобы выполнить вышеупомянутое волшебное самодельное «дублирование / синхронизацию губ»:

1. Загрузите PaddleGAN и необходимый установочный пакет.

`# Загрузить установочный пакет PaddlePaddle

Клонируйте код PaddleGAN с github (если скорость загрузки слишком низкая, вы можете использовать исходный код gitee)

!git клон

git ee.com/paddle pad DL…

#!git клон

GitHub.com/paddle pad DL…

# Установите PaddleGAN локально

%cd /home/aistudio/PaddleGAN

!pip install -v -e .

!pip install -r requirements.txt

!pip install librosa!pip install numba==0.53.1`

2. Используйте команду «Композиция губ».

%cd applications/

!python tools/wav2lip.py \

--face /home/aistudio/1.jpeg \

--audio /home/aistudio/2.m4a \

--outfile /home/aistudio/pp_put.mp4 \

--face_enhancement

Просто замените параметр лица и параметр звука в следующей команде собственными путями к видео и аудио, а затем запустите для создания видео, синхронизированного со звуком.После завершения операции в текущей папке будет создан файл с именем outfile. Видеофайл — это видеофайл, синхронизированный со звуком:\

lface: исходное видео, губы персонажей видео будут синтезированы в соответствии со звуком
laudio: звук, который управляет синтезом губ, персонажи в видео будут синтезированы губами в соответствии с этим звуком.
loutfile: название готового видео
lface_enhancement: добавить лицо, чтобы усилить спецэффекты

Трюки PaddleGAN
Думаете, PaddleGAN остановится на достигнутом? НетНет~
Конечно, возможности бесплатного набора PaddleGAN с открытым исходным кодом не ограничиваются технологией миграции/генерации формы губ, он полон богатых и интересных возможностей по генерации и обработке изображений/видео. Популярные передовые модели, такие как AnimeGANv2, GauGAN, First Order Motion и другие модели, ждут вас для изучения.
Например, перенос стиля изображения, восстановление видео, сверхвысокое разрешение изображения, портретная анимация, фотоанимация, редактирование лица и т. д.

PaddleGAN похож на «игровую площадку». «Игроки» могут присоединиться и испытать различные «игровые возможности» без билетов. Если вам весело, не забудьте нажать «Звезда», чтобы поддержать ~
GitHub.com/paddle pad DL… Нажмите, чтобы получить дополнительную техническую информацию~~