О танцевальном поколении виртуальных айдолов

искусственный интеллект

Эта статья была впервые опубликована на:Уокер ИИ

С развитием двухмерной культуры виртуальные идолы становятся все более популярными.

Технология виртуального идола в основном включает в себя синтез пения и генерацию танца, то есть способность петь и танцевать.

В этой статье основное внимание уделяется созданию танцев, и она решила представить ее в статье «Танцевальная революция: создание длинных последовательностей танцев с музыкой посредством обучения по учебной программе», опубликованной в ICLR 2021. Статья была подготовлена ​​Университетом Фудань, Microsoft, Meituan и Rinna AI.

1. Танцевальное поколение

Dance Generation, введите музыкальную последовательность (частоаудио функции), получить осмысленный период той же длительностипоследовательность действий, то есть под музыку с танцем. Звуковые функции и последовательности действий кратко описаны ниже.

1.1 Звуковые характеристики

Файлы аудиоданных, состоящие из огромного количества точек выборки. Одна секунда звука может достигать десятков тысяч точек дискретизации, что создает огромные трудности для обучения модели. В реальном использовании звук обычно не используется как прямой ввод и вывод, но функции звука используются в качестве ввода и вывода.

Общие характеристики звука:

​ МФЦК

​ Дельта МФЦК

Хромаграмма с постоянной добротностью

темпограмма

При фактическом использовании нет необходимости подробно разбираться в вышеперечисленных аудиофункциях, достаточно лишь того, что вышеуказанные аудиофункции сокращают длину временного ряда аудио почти в сто раз.

1.2 Последовательность действий

Рисунок 1. Диаграмма извлечения последовательности действий

Последовательность действий относится к данным временного ряда о действиях, сгенерированных оценкой позы.Данные каждого временного шага состоят из ключевых точек, которые используются для представления движений человеческого тела. Как показано на рисунке 1, точки сплошного цвета представляют собой ключевые точки текущего действия, а соединительные линии могут хорошо отображать движение тела текущего персонажа. (Подробнее см.GitHub.com/CMU-восприятие…

Последовательность действий может извлекать только движения тела персонажей, исключать мешающие фонемы, такие как персонажи и фоны, и извлекать танцевальные движения, поэтому танец представлен последовательностью действий.

Танец – это действие с сильным ритмом.Помимо вышеперечисленных общих черт, автор рассматривает однократное кодирование барабанного боя как звуковую особенность для обучения моделей.

1.3 Постановка проблемы генерации танца

После понимания звуковых особенностей и последовательностей действий, вот определение проблемы генерации танца.

Для заданного музыкально-танцевального набора данных D, D состоит из пар сегментов последовательности музыкальных и танцевальных действий, музыкальные и танцевальные действия находятся во взаимно однозначном соответствии, X — это музыкальный сегмент, а Y — сегмент танцевального действия. Обучите модель g(·) с помощью D таким образом, чтобы g(X)=Y.

Эта задача выходной последовательности входной последовательности определяется как последовательность к последовательности (Sequence-to-Sequence, сокращенно seq2seq). По сравнению с проблемой машинного перевода «последовательность к последовательности», музыку можно сопоставить со многими танцами, в ней нет уникальности, а музыка больше похожа на стиль. Автор начинает с проблемы seq2seq, и идея оптимизации, которую он выдвигает, также исходит из проблемы seq2seq.

1.4 Предыстория и мотивация

Изучая современные методы генерации танца, авторы обнаружили, что существует два основных способа генерации существующего танца:

​ Первый – это метод сплайсинга (соединение разных танцевальных движений).

Вторая — авторегрессионные модели (например, lstm и другие модели).

Первому способу не хватает естественности, а второй ограничен накоплением ошибок в авторегрессионной модели и может генерировать только короткие последовательности действий, поэтому автор предлагает два способа его решения:

изучение курса

местное внимание

Оба метода описаны в Структуре модели.

2. Структура модели

Рисунок 2. Структурная схема модели генерации танца

Как показано на рисунке 2, входные звуковые характеристики модели проходят через кодер и декодер для получения последовательности действий.

Кодер и декодер будут представлены отдельно ниже.

2.1 encoder

Кодер такой же, как и в общей задаче seq2seq.Он использует архитектуру, подобную трансформатору, и состоит из N блоков преобразователя.Каждый блок преобразователя состоит из последовательно соединенных нейронных сетей с самостоятельным вниманием и прямой связью с несколькими головками.

местное внимание

Аудио представляет собой временную последовательность сигналов. По сравнению с текстовой последовательностью временной шаг звука больше, а предложение может состоять из сотен слов, но звук может иметь миллионы точек выборки. Даже если выполняется извлечение признаков. , длина аудио еще выше.тысячи или около того. Вычислительная сложность многоголовочного модуля самообслуживания трансформатора равна квадрату длины последовательности, чем больше длина последовательности, тем больше ресурсов требуется для вычислений. С другой стороны, звук удовлетворяет кратковременной инвариантности, произвольно перехватывая значимый звук, перехваченный сегмент все еще имеет смысл. Поэтому автор предлагает полностью связанное самовнимание сделать локальным, как показано в левом верхнем углу рис. 2, и задать размер окна для внимания каждого временного шага, чтобы модели требовалось только вычислять данные к/2 до и после.

Рисунок 3. Формула локального внимания

На рисунке 3 показана реализация локального самовнимания с несколькими головками.По сравнению с многоголовым самовниманием, локальная реализация добавляет только ограничение диапазона при суммировании, и в фактической реализации требуется только умножить матрицу маски.

2.2 decoder

Рисунок 4. Формула декодера

На рис. 4 показана реализация декодера. Основой декодера является обычная сеть RNN, которая принимает информацию hi-1 предыдущего временного шага и скрытое состояние yi-1 предыдущей ячейки RNN в качестве входных данных и получает скрытое состояние hi текущей ячейки RNN и текущее временной шаг, выдаваемый кодировщиком.Скрытое состояние zi сращивается через линейный слой, чтобы получить окончательный вывод yi. В отличие от проблем с естественным языком, таких как машинный перевод, генерация танцев не требует выборки текущего временного шага при выводе.

изучение курса

Обучение по учебной программе считает, что модель должна быть похожа на человека, а обучение должно идти от простого к сложному. Для задач классификации обучение по учебной программе должно сначала изучать простые образцы, а затем сложные образцы; для задач seq2seq обучение по учебной программе должно сначала изучать короткие последовательности, каждый раз только для того, чтобы предсказать следующий шаг текущего шага (принуждение к обучению) в модели обучения. Достигнув определенного уровня, постепенно начинают увеличивать длину последовательности последующих предсказаний, например, увеличивая до двух следующих временных шагов текущего шага предсказания. Автор статьи усовершенствовал учебную программу по проблеме танцевального поколения, которая не будет здесь распространяться.

3. Критерии оценки

Модель, предложенная в этой статье, относительно проста, и основное внимание уделяется стандарту оценки.

Генерация танца аналогична синтезу речи, и обычно используемые методы оценки делятся на две категории: объективная оценка и субъективная оценка.

Объективная оценка оценивает подлинность, стилистическую согласованность и соответствие саундтреку сгенерированного танца с точки зрения тестовых данных.

3.1 Fréchet Inception Distance

Рисунок 5. Формула расчета FID

На рис. 5 представлена ​​формула расчета начального расстояния Фреше. Начальное расстояние Фреше называется FID и используется для расчета сходства двух распределений. Принцип заключается в том, что чем более похожи среднее значение и ковариация двух гауссовых матриц распределения, тем более похожи эти две матрицы. Как показано в приведенной выше формуле, μ — это среднее значение, ∑ — ковариация, а Tr представляет собой сумму элементов на диагонали матрицы.

В генерации танца FID используется для общего сходства с реальным танцем, то есть аутентичности танца.

3.2 ACC

Он используется для оценки степени соответствия между генерацией танца и музыкальным стилем. Обучите MLP (многослойный персептрон) для классификации реальных танцев (например, балет, хип-хоп, поп, категории взяты из музыкальной классификации), используйте MLP для классификации сгенерированных танцев и оцените, соответствуют ли они музыкальным категориям.

3.3 Beat Coverage

Покрытие битов — это отношение общего количества ударов танцевального движения к общему количеству музыкальных ударов. Чем выше охват битов, тем сильнее ритмический рисунок танца.

3.4 Beat Hit Rate

Beat Hit Rate — это отношение количества хитовых музыкальных битов к общему количеству тактов действия во всех тактах движения. Чем выше частота попаданий, тем лучше танцевальные движения соответствуют музыке.

3.5 Diversity

Разнообразие: создайте несколько танцев на основе музыки из тестового набора и оцените общее разнообразие этих танцев.

3.6 Multimodality

Мультимодальность, которая генерирует несколько танцев из одного музыкального произведения и оценивает общее разнообразие этих танцев.

Многие из приведенных выше критериев оценки взяты из «Системы обработки нейронной информации для танцев под музыку».Если вы хотите полностью понять область создания танцев, автор рекомендует прочитать эту статью.

3.7 Критерии субъективной оценки

Все критерии, представленные в 3.1–3.6, являются объективными критериями оценки. Многие аспекты хорошего или плохого танца трудно поддаются количественной оценке и требуют человеческой оценки, т.е. субъективной оценки. Субъективная оценка: найдите нескольких профессиональных танцоров, сыграйте танец, сгенерированный предложенной моделью, сравните танец, сгенерированный моделью, с реальным танцем и задайте следующие три вопроса, и танцоры получат баллы.

  1. Аутентичность: Помимо музыки, какой танец более аутентичен?
  2. Silky: Помимо музыки, какой танец мягче?
  3. Совместимость: С точки зрения стиля, какой танец лучше соответствует музыке?

Организатор усредняет баллы по трем показателям каждого аудио, чтобы получить окончательный результат оценки.

4. Резюме

В этой статье предлагается модель генерации танца SOTA.По сравнению с предыдущими исследованиями сгенерированный танец близок к реальному танцу. Автор статьи приводит пример видео:woohoo.YouTube.com/watch?V=LME…

Из этого видео мы также можем увидеть недостатки нынешнего танцевального поколения:

  1. Получившийся танец может нарушать человеческую физиологию: на видео можно увидеть много вывернутых рук, движений, которые нормальные люди сделать не могут.
  2. Частота кадров при генерации танца слишком низкая: частота кадров модели в этой статье составляет 15 кадров в секунду, что намного ниже, чем обычная частота кадров видео.
  3. Генерация танцев не в реальном времени: из-за низкой скорости генерации модели она не может соответствовать требованиям к скорости генерации в реальном времени; модель в основном использует архитектуру seq2seq, которая кодирует музыку целиком, а затем постепенно ее декодирует. , без учета требований реального времени.
  4. Качество сборки можно было бы улучшить: даже любитель может увидеть множество резких телодвижений при просмотре примера видео для этой статьи.

Генерация танцев переживает бум с прошлого года, и качество создаваемых танцев улучшается. Недавно Google выпустил «Учитесь танцевать с AIST++», а Huiye Technology выпустила «DanceNet3D: DanceNet3D: генерация танцев на основе музыки с параметрическим преобразователем движения». , Как важная технология для создания виртуальных идолов, она привлекла большое внимание.

Обращая внимание на текущие исследования танцевальной генерации, автор также обнаружил горячие точки танцевальной генерации:

  1. наборы данных более высокого качества
  2. 3D генерация танца
  3. структура базовой модели трансформатора
  4. более высокая частота кадров

Генерация танцев является частью исследования виртуальных идолов ИИ Уокера. Автор и другие исследователи постоянно изучают новые методы и стандарты оценки и приветствуют обмен мнениями между коллегами и сотрудничество, а также присоединение.


PS: Для получения дополнительной технической галантереи, пожалуйста, обратите внимание на [Публичный аккаунт | xingzhe_ai] и обсудите с ходоками!