iQIYI M2VOC Challenge завершен, 6 статей включены в ICASSP2021

01 Введение

В последние годы недавние достижения в области трансферного обучения, переноса стиля, вокодеров и акустических моделей предоставили потенциальные решения для клонирования речи с низкими ресурсами. iQIYI сотрудничает с Исследовательской группой аудио-речи и языковой обработки Северо-Западного политехнического университета, Национального университета Сингапура, Шэньчжэньской международной высшей школы Университета Цинхуа, Origin Intelligence и Hill Shell вICASSP2021организованныйКонкурс многоканальных мультистильных голосовых клонов - M2VoC.

Целью M2VoC Challenge является предоставлениеобщий набор данныхичестный испытательный стенд,правильноголосовой клонОдна из главных задач Международной конференции по акустике, обработке речи и сигналов (ICASSP2021) Signal Processing Challenge 2021 года привлекла к участию многих исследователей из научных кругов и промышленности.

На этой неделе на саммите ICASSP2021 успешно завершился челлендж M2VoC и были объявлены результаты конкурса. общий153На это испытание зарегистрировались только команды, в том числеРяд академических учреждений и интернет-компанийСовместно участвовали академические учреждения, включая Пекинский университет, Университет Цинхуа, Чжэцзянский университет, Шанхайский университет Цзяотун, Национальный тайваньский университет, Харбинский технологический институт, Критский университет, Институт автоматизации, Китайская академия наук, Университет Цукуба, Университет Нагоя, Университет Фудань. , Китайский университет Гонконга, Университет Китайской академии наук, Китайский университет электронных наук и технологий и т. д., участвующие интернет-компании включают Huya, Microsoft, Didi, Tencent, NetEase и т. д.

02 6 статей iQIYI M2VoC Challenge были включены в ICASSP2021

iQIYI Multi-Speaker Multi-Speaker Multi-Style Voice Clone Contest делится наТрек с несколькими сэмпламииОчень мало пробных трековдве задачи. Для трека с несколькими сэмплами организатор предоставляет каждому выступающему100 предложенийТренировочные образцы для разных стилей речи; для треков с очень небольшим количеством образцов спонсор предоставляет5 предложенийТренировочные образцы разных стилей говорения, при этом организатор предоставляет две базовые библиотеки, каждая из которых содержит по 5000 обучающих образцов разных стилей говорения, для обучения участников базовым моделям. В конце концов, организатор будет использовать четыре критерия «сходство говорящего, качество голоса, стиль / выражение и точность произношения» в качестве критериев оценки конкурса.

В ответ на представленные результаты Оргкомитет iQIYI провелДва раунда субъективной оценки: В первом раунде были представлены заявки от всех команд, а во втором раунде оценивались несколько лучших команд. Окончательный победитель для каждого трека выбирается на основе объединенных результатов двух раундов. Учитывая огромные затраты на субъективную оценку качества, стиля и сходства за короткий промежуток времени, оргкомитет принялМетод выборочной оценки. Первый и второй этапы субъективного прослушивания были66-й и 30-йУчаствуют профессиональные аудиторы. Все слушатели быликитайский языкНосители языка, состоящие из специалистов по лингвистике и профессиональных голосовых аннотаторов.

Рисунок: MOS, представленный треком один

Рисунок: MOS, представленный треком 2

Соревнование объединяет лучшие команды отрасли, так как отрасльПервое соревнование по клонированию тонов с несколькими динамиками в разных стилях., что отражает текущий самый высокий уровень в отрасли и научных кругах. Собрано в этом задании18 статейсопутствующие документы, среди которыхВ ICASSP2021 было включено 6 статей.

Рисунок: Документы, включенные в конкурс ICASSP 2021

Участвующие команды предложили инновации в акустической модели, представлении динамика, вокодере, стратегии адаптации динамика и других аспектах и добились хороших результатов. Соответствующие результаты применяются кУстное вещание APP, озвучивание UGC, аудиокниги, стилизованный синтез речии многие другие сценарии приложений для удовлетворения постоянно меняющихся сценариев настройки звука, особенно на основеМультистилевая низкокачественная корпусная сценанастройка звука.

Рисунок: Все представленные MOS в первом раунде оценки для каждого трека

03 Заключение

Конкурс iQIYI Multi-Speaker Multi-Speaker Multi-Style Voice Clone Contest (M2VoC) является крупнейшим в мире.Первая небольшая задача клонирования тона ресурсов, целью которого является предоставление общего набора данных и справедливого испытательного стенда для исследования задач клонирования речи. Задача демонстрирует производительность современных методов клонирования речи: с развитием глубокого обучения клонирование речи с несколькими кадрами достигло довольно хорошей производительности, ноКлонирование речи с одним образцом все еще остается открытой проблемой. В реальных приложениях для клонирования речи низкокачественный (зашумленный) звук и временные/стоимостные ограничения на обучение/адаптацию/вывод также являются важными факторами, которые нельзя игнорировать.

iQIYI также выпустила соответствующие документы на ICASSP2021, в которых резюмируется ситуация с этим соревнованием. Надеемся, что по результатам этого конкурсаГолосовой клон, распознавание голосаИнновационное исследование передовых технологий предоставляет больше возможностей для дальнейшегоРасширить область применения технологии искусственного интеллекта,Обеспечить новые возможности для развития аудиовизуальной индустрии.