Примечание редактора: с непрерывным улучшением производительности сети видео стало основным способом получения информации, развлечения и досуга для все большего количества людей. В то же время появилось много создателей видео. Материал представлен в виде креативных материалов. видео, что вызывает зависть у Сяобая, у которого нет таких навыков создания видео, как у Сяобяня. Тем не менее, вы можете быстро достичь этой способности с помощью технологий.Модель предварительного обучения генерации видео с открытым доменом GODIVA, предложенная Microsoft Research Asia, основанная на механизме трехмерного внимания, преодолевает проблему моделирования непрерывности видеокадра и может использоваться в секундах Реализуйте генерацию видео на основе текстового сценария.
Вопрос: Положить слона в холодильник...? (буси) Сделай это снова.
Вопрос: Сколько шагов занимает от написания сценария до создания креативных видеороликов?
Ответ: Шагов довольно много, и это требует концепции изображения, дизайна зеркала, подбора цветов, выбора сцены, оформления элементов, полевых съемок, производства анимации и т. д. Можно сказать, что это путешествие через горы и реки, небо и земля...
Однако с непрерывным развитием технологии искусственного интеллекта в будущем нам нужно будет только вводить текстовые сценарии для непосредственного создания видео, что можно выполнить за один шаг.
Недавно группа Natural Language Computing Group Microsoft Research Asia выпустила инновационный результат исследования — модель GODIVA для предварительного обучения генерации видео в открытом домене (ссылка на документ:АР Вест V.org/ABS/2104.14…
Да, вы правильно прочитали, это работа исследователей в области обработки естественного языка (NLP). Почему ученые НЛП начали работать с видео? Как они внедрили эту технологию? Давайте узнаем дальше.
Кросс-модальный интеллект в естественном языке и видении
На самом деле получение информации посредством чтения текста и языкового диалога — это лишь часть процесса человеческого роста и обучения, а часть информации поступает от визуального ввода: полет в небе, а не плавание в воде и т. д. Поскольку такого рода информация воспринимается как нечто само собой разумеющееся и редко находит отражение в словах и языке, исследователи все чаще ощущают нехватку знаний здравого смысла в существующих моделях при обучении моделей НЛП на основе крупномасштабных текстов, поскольку эти знания обычно появляются более в картинках и видео.
Ранее, из-за различий в вычислительной мощности и методах междоменной обработки ИИ, междоменное мультимодальное обучение было затруднено. В последние годы, с быстрым развитием технологии NLP, появились некоторые новые базовые модели, которые начали применяться для обучения моделей в других областях, таких как компьютерное зрение (CV), например Transformer.
С ростом общности базовых моделей между двумя областями обработки естественного языка и компьютерного зрения исследователи в этих двух областях также все чаще пробуют алгоритмы из другой области, чтобы улучшить возможности представления и рассуждения моделей. На всемирной высшей конференции ACL в области НЛП в последние годы было представлено много статей, связанных с мультимодальными ответами на вопросы, мультимодальной генерацией абстрактов и мультимодальным поиском контента, а также на ведущих конференциях в области компьютерного зрения, таких как CVPR. Существует множество кросс-модальных подходов, включающих задачи НЛП. Междоменное мультимодальное машинное обучение дало первые результаты.
«С исследовательской точки зрения в области НЛП мы надеемся получить информацию здравого смысла, которая редко описывается в тексте, из сигнала видео или изображения, чтобы дополнить здравый смысл или физические знания, отсутствующие в существующих моделях НЛП. и, наконец, заставить модель НЛП достигать лучших результатов. В то же время она также может сделать НЛП неразрывно связанным с задачами изображения и видео», — сказал Нан Дуан, старший научный сотрудник группы вычислений на естественном языке в Microsoft Research Asia. первоначальный замысел нашего исследования по созданию видео. где."
GODIVA внедряет инновационный 3D-механизм внимания, чтобы решить проблему непрерывного видеомоделирования
Текущая распространенная технология генерации видео в основном основана на генеративно-состязательной сети (GAN), а генерация видео Microsoft Research Asia основана на технологии VQ-VAE. Для исследователей в области НЛП технический маршрут последнего ближе к исследовательским идеям в области НЛП: он может преобразовывать информацию видео/изображений в текст, а затем обрабатывать ее с точки зрения сериализации для генерации символов.
Существенной разницы между видео и картинкой здесь нет, потому что видео можно разделить на множество видеокадров, то есть картинок. Используя модель алгоритма VQ-VAE, каждый видеокадр может быть закодирован в дискретное векторное представление, так что информация об изображении может соответствовать соответствующему тексту, который может быть сериализован в токен, который НЛП лучше всего обрабатывает, в полной мере используя существующие модели и алгоритмы НЛП. После крупномасштабной предварительной подготовки данных дискретные последовательности обратно восстанавливаются в видеокадры на основе модели VQ-VAE, и все кадры соединяются вместе для формирования визуального видео.
Преимущество этого метода в том, что каждый сгенерированный видеокадр имеет высокую корреляцию с текстом, но как обеспечить плавность между сгенерированными видеокадрами и как решить проблему моделирования длинной последовательности, возникающую при генерации видео, становится проблемой.Технические трудности которые должны преодолеть исследователи. В ответ на две вышеупомянутые проблемы исследователи представили трехмерный механизм разреженного внимания между кадрами.При генерации определенной области текущего кадра строка (Row), столбец (Column), время (Temporal) визуальная информация в трех размеры (как показано на рисунке 1).
Рисунок 1: Матрица маски для трехмерного разреженного внимания
На рис. 1 показана трехмерная матрица разреженной маски внимания, когда длина входного текста составляет 3 токена, а выходное видео — 2 кадра, каждый кадр состоит из 4 токенов. Среди них строка представляет 8 визуальных токенов (v_1, v_2,..., v_8), которые модель должна сгенерировать, а столбец показывает, на какие токены нужно обратить внимание, чтобы сгенерировать визуальный токен. Красный, синий и фиолетовый представляют собой уникальное внимание трех разреженных механизмов внимания строки, столбца и времени соответственно, зеленый представляет общее внимание трех механизмов внимания, а черный представляет отсутствие внимания. Например, первые три столбца в первой строке окрашены в зеленый цвет, что указывает на то, что при создании v_1 все три механизма внимания обращают внимание на все языковые токены t_1, t_2, t_3. Вторая строка указывает, что первые три столбца окрашены в зеленый цвет, а четвертый столбец — в синий, указывая на то, что при генерации v_2, в дополнение ко всем трем механизмам внимания, обращающим внимание на t_1, t_2 и t_3, механизм внимания столбца также уделяет особое внимание внимание на v_1. Это связано с тем, что v_1 является предыдущим маркером столбца v_2, когда кадр видео состоит из 4 маркеров (как на рисунке 2, 1 предшествует 2 для оси столбцов). В другом примере 4-я строка означает, что при создании v_4 модель уделяет особое внимание v_2 в дополнение к t_1, t_2 и t_3, а внимание столбца уделяет особое внимание v_4. Как видно из рисунка 2, это связано с тем, что v_2 является токеном предыдущей строки v_4, а v_3 — токеном предыдущего столбца v_4. Стоит отметить, что для сокращения вычислений модель больше не обращает внимания на v_1, которая находится далеко от v_4.
Рис. 2. Расположение токенов, когда каждый кадр видео состоит из 4 токенов.
Это имеет три преимущества: во-первых, благодаря моделированию с разреженным вниманием модель экономит много операций (как видно из рисунка 1, большое количество позиций зачернено), так что можно моделировать длинные последовательности. Во-вторых, внимание к трем измерениям строки, столбца и времени позволяет модели одновременно учитывать пространственные и временные зависимости при создании определенной визуальной области, чтобы создавать более плавное видео внутри кадров и между кадрами. В-третьих, поскольку при создании каждого визуального маркера уделяется внимание всей текстовой информации (первые три столбца на рисунке 1 все зеленые), согласованность между сгенерированным видео и текстом будет лучше.
Рисунок 3: Схема модели GODIVA
На рис. 3 представлена полная схема модели GODIVA. Можно видеть, что благодаря вышеупомянутому циклическому наложению строк, столбцов и разреженного внимания модель может итеративно генерировать последовательности визуальных маркеров. После того, как эти токены собраны, видео может выводиться кадр за кадром через декодер VQ-VAE.
В дополнение к вышеупомянутым техническим проблемам, еще одна трудность при создании видео на основе текста заключается в том, что оценка эффектов генерации видео является относительно субъективной. Для одного и того же текста о ребенке и собаке, играющих у бассейна, соответствующее видео может быть представлено тысячами способов.Сгенерированное видео трудно измерить с помощью данных маркировки, что создает большие проблемы для механизма автоматической оценки видео. исследование поколения... Чтобы решить эту проблему, исследователи из Microsoft Research Asia использовали комбинацию ручной проверки и технических оценок. Что касается технической дискриминации, исследователи на основе CLIP (ссылка на документ:АР Вест V.org/ABS/2103.00…RM (относительное соответствие):
Среди них t представляет входное текстовое описание, v^(l) и v ̂^(l) представляют l-й кадр в реальном видео v и сгенерированном видео v ̂ соответственно, CLIP(t, v^(l) ) представляет модель, основанную на CLIP. Вычислите сходство между t и v^(l). Экспериментальные данные показывают, что этот индикатор может хорошо выбирать входное текстовое описание, соответствующее сгенерированному видео, из нескольких наборов текстовых описаний (по максимальному значению RM-показателя, как показано на рис. 4), что доказывает, что видеоконтент, сгенерированный GODIVA и Существует хорошая корреляция между входными текстовыми описаниями.
Рис. 4. Сходство между введенным текстом и стандартными ответами на видео
В настоящее время GODIVA предварительно обучена на общедоступном наборе данных HowTo100M и настроена на общедоступном наборе данных MSR-VTT и добилась хороших результатов тестирования. Хотя существующая версия генерирует только десять видеокадров, видно, что видео имеет высокую когерентность и высокую корреляцию с текстом, что предварительно подтверждает осуществимость технологии генерации видео на основе текста. С обновлением алгоритма и повышением вычислительной мощности в будущем исследователи будут улучшать дополнительные детали, такие как длина видео, качество изображения и разрешение.
Давайте посмотрим на текущие видеоэффекты, созданные GODIVA на основе текста:
Введите текст:Цифра 9 движется вниз, затем вверх.
Выходное видео:
Введите текст:Цифра 7 перемещается вправо, затем влево, а цифра 3 перемещается вниз, а затем вверх.
Выходное видео:
Введите текст:Играют в бейсбол.
Выходное видео:
Введите текст:Девушка на голосе малышей разговаривает с судьями.
Выходное видео:
Интеграция мультитехнологий — это тренд, до видео «создания чего-то из ничего» еще далеко?
Что касается генерации видео, у вас может возникнуть вопрос: модель ИИ ищет и фильтрует подходящее видео на основе текста или генерирует совершенно новое видео? Этот вопрос немного философский. Пикассо однажды сказал: «Хорошие художники копируют, великие художники воруют». Художественное творчество художников интегрирует и обновляет сущность всех сторон, которые они поглотили, поэтому ИИ также не может быть исключением.
Как правило, генерацию текста в видео можно разделить на три типа: первый, основанный на поиске, для фильтрации наиболее подходящих видео (ссылки на соответствующие статьи:АР Вест V.org/ABS/2104.08…
В настоящее время GODIVA, технология генерации текстового видео, разработанная Microsoft Research Asia, находится примерно между методами второго и третьего поколения — некоторые перехватываются моделью ИИ из существующих видео, а некоторые генерируются ИИ. сама модель из. Тем не менее, текстовые видео на основе VQ-VAE и GAN соответственно имеют определенные недостатки, но у них также есть свои преимущества.
«В будущем интеграция и дополнительные преимущества VQ-VAE и GAN станут направлением исследований для текстового видео. Мы также пытаемся инновационно комбинировать различные технологии искусственного интеллекта для улучшения качества контента и длины генерируемого видео. Мы надеемся способствовать прогрессу моделей предварительного обучения НЛП в передовых областях, таких как мультимодальная обработка и получение знаний на основе здравого смысла, сосредоточив внимание на понимании видео и исследованиях генерации», — сказал Нан Дуан.
Документ: GODIVA: Создание видео Open-Domain на основе естественных описаний
Ссылка на бумагу:АР Вест V.org/ABS/2104.14…
Авторы: У Ченфэй, Хуан Лунь (Университет Дьюка), Чжан Цяньси, Ли Биньян, Цзи Лэй, Ян Фан, Гильермо Сапиро (Университет Дьюка), Дуан Нань
Оригинальная ссылка:Последние результаты исследования Microsoft Research Asia: видео генерации текста, всего один шаг