Прежде чем читать статью, посмотрите сначала видео!

[video(video-8GYL0mW9-1616487948511)(type-youku)(url-player.Youku.com/embed/X NT Электронная почта…)]

【Гид сестры Али] С усилением фрагментации времени пользователей видео «от длинного к короткому» стало тенденцией, и спрос на потребление короткого видео в сценариях потока информации увеличивается.Youku предоставляет пользователям большое количество высококачественных видеоресурсов каждый год, с естественными преимуществами «От длинного к короткому», и совершил прорыв в автоматическом производстве коротких видеороликов с быстрым просмотром с помощью исследования алгоритма.

Введение

Связанные исследования

В академических кругах эта проблема называется выравниванием текста и видео: учитывая сценарий видео, на основе сходства между кадром видео и предложением выполните выравнивание двух последовательностей. Задействованы две задачи, первая задача — вычислить сходство между текстом и видеофрагментами, а вторая задача — согласование текстовой последовательности и видеоряда.

Разница между выравниванием видеотекста и заземлением видеотекста заключается в том, что он не чувствителен к границам сегментов видео, не требует границ регрессии и измеряет только сходство между кадром и текстом. То же самое с поиском видеотекста заключается в том, что необходимо вычислять характеристики и сходство видеоклипа и текста, разница в том, что выравнивание текста видео имеет информацию о времени, и время последовательно, и нет беспорядка. Подобное выравнивание текста и видео выравнивание есть только в указанном видео, а кросс-видео поиск отсутствует.

Видео обычно содержит информацию о многих различных модальностях, таких как оптический поток, лицо, звук и т. д. Предыдущие методы рассматривают только характеристики определенной модальности. В статье [1] предлагается структура вычисления подобия, которая включает все модальные признаки в вычисление сходства видеотекста и может быть гибко расширена для большего количества модальностей, а также может обрабатывать отсутствие модальных признаков. 在这里插入图片描述 В статье [2] процесс кросс-модального сопоставления видео и текста абстрагируется в процесс работы стека видеопоследовательности и стека текстовой последовательности. LSTM используется для моделирования видеопоследовательности и текстовой последовательности для формирования стека видеопоследовательности и стека текстовой последовательности, а сопоставление последовательностей реализуется путем прогнозирования различных операций вершины стека в цикле. Могут быть выполнены различные типы требований соответствия. 在这里插入图片描述 Структура вычисления сходства в статье [3] и статье [1] применяется в области поиска видеотекста. На основе исходной структуры добавлен модуль фильтрации информации и добавлен канал слияния информации между различными модальностями, который может лучше интегрировать функции разных модальностей. 在这里插入图片描述 В статье [4] графовая нейронная сеть применялась в области поиска видеотекста. Признаки разных уровней извлекаются в модальностях текста и видео соответственно, а нейронная сеть графа используется для объединения признаков в модальностях, и, наконец, вычисляется сходство. По сравнению с другими методами представление структуры графа может более разумно организовать информацию и повысить производительность модели.

Алгоритм Описание

Алгоритмическая структура 在这里插入图片描述 Особенности дизайна

Особенности видео

Извлечение функций на стороне видео требует сначала структурирования видео (благодаря интеллектуальному анализу информации об изображении в видео извлекается ключевая информация, а текст семантически описывается). 在这里插入图片描述

текстовые функции

Извлечение текстовой информации включает в себя несколько частей: классификацию текста, распознавание именованных сущностей (Named Entity Recognition), ссылочное разрешение и анализ зависимостей. Эти технические модули вместе образуют полную цепочку обработки текста, а ключевые характеристики текста извлекаются для мультимодального сопоставления.

Классификация текста обеспечивает важную основу для веса алгоритма сопоставления, и алгоритм сопоставления примет соответствующую стратегию сопоставления в соответствии с результатом классификации предложения. Например, для описательного текста используется встроенное векторное сопоставление персонажей, сцен и поведений, а для диалогового текста используется сопоставление текста распознавания.

Распознавание именованных объектов может извлекать именованные объекты в тексте, например ключевую информацию, такую как персонажи, поведение и сцены.Эти структурированные данные могут вычислять семантическое расстояние между вектором встраивания видео и алгоритмом подобия, чтобы обеспечить соответствие алгоритм, основанный на векторе встраивания и метке. Предоставляет важные функции оценки. Модель Bert[1] используется для задач классификации текста и распознавания именованных сущностей, в частности, используются модели, предварительно обученные на других более крупных китайских корпусах, а затем настроенные на наборы данных, аннотированные сами по себе.

Ссылочное разрешение и анализ зависимостей предоставляют инструменты для устранения неоднозначности и избыточных терминов в текстовых функциях. В сюжетном тексте много местоимений в предложениях, и напрямую вывести ключевые персонажи с НЭР невозможно. Например, «Чэнь Юнжэнь услышал, что у Хань Чена была новая партия наркотиков, поэтому он быстро передал эту новость Хуан Чжичэну». «Он» во втором предложении не может быть представлен точно без возможности сослаться на резолюцию.

На этой основе анализ зависимостей предложений извлекает наиболее важную информационную часть предложения, отбрасывает мешающие элементы и значительно улучшает качество извлеченных признаков. В сюжетном тексте обычно много атрибутов и наречий, которые мало помогают для задачи text2video и будут мешать извлечению тела предложения.

В это время наиболее важные субъект, сказуемое (поведение) и объект извлекаются с помощью анализа отношения зависимости предложения в качестве основного компонента предложения и, таким образом, используются в качестве признака соответствия.

Кросс-модальное соответствие

Кросс-модальное сопоставление решает проблему согласования предложений в тексте с видеоклипами. Это очень сложная системная проблема. Чтобы решить эту проблему, мы разрабатываем многоуровневый алгоритм сопоставления, который в основном делится на два семантических уровня сопоставления: уровень встраивания вектора и уровень метки.

Для уровня вектора внедрения мы обучим модель извлечения вектора семантического внедрения для текста и видео соответственно, а затем вычислим соответствующий вектор семантического внедрения для каждого предложения и видеосегмента, а затем используем нейронную сеть для изучения взаимосвязи между этими двумя векторами. , соответствующие отношения. Эта часть данных была аннотирована вручную.

Уровень вектора встраивания может решить проблему семантического сопоставления в широком смысле, однако есть несколько простых логических операций, которые можно выполнить быстро и точно, используя алгоритм сопоставления на уровне тегов с небольшими затратами. Например, если соответствующий человек появляется в тексте и видео, то соответствующий тег человека можно использовать для фильтрации несовпадающих сегментов. Чтобы решить эту проблему, некоторые эффективные функции оценки оценки подобия предназначены для вычисления семантического расстояния между тегами, чтобы оценивать и ранжировать поисковые совпадения.

текстовое совпадение

Существует два различных требования к сопоставлению текста: сопоставление короткого текста на уровне короткого предложения и сопоставление на уровне предложения, где векторы слов используются для вычисления схожести текста. Модель словарного вектора была обучена на общедоступном китайском корпусе (8 миллионов китайских слов) для расчета словесного вектора фраз.

Для сопоставления текста на уровне фраз в качестве основы сопоставления используется вектор слов, непосредственно рассчитанный моделью вектора слов. Для сопоставления текста на уровне предложения векторы слов рассчитываются индивидуально для слов в предложении, а затем взвешиваются и усредняются как векторы слов для всего предложения.

После того, как у вас есть векторы слов фраз и предложений, вам также необходимо рассчитать расстояние текста в соответствии с векторами слов. Используемый эталонный метод довольно лаконичен: вычисление косинусного сходства вложений слов двух предложений после вычисления среднего значения вложений слов фраз в предложении. Этот метод прост, но работает так, как ожидалось, в большинстве сценариев. Для более сложных сценариев расстояние смещения слова используется для расчета кратчайшего расстояния, необходимого для того, чтобы слово в одном тексте переместилось в другое текстовое слово в семантическом пространстве.

применение

Целью автоматического редактирования ИИ является автоматическое или полуавтоматическое редактирование видео с помощью алгоритмических средств и реализация массового производства с помощью пакетных преимуществ машин, которые могут повысить эффективность производства контента и эффективность работы с короткими видео. и распространение. В настоящее время производство искусственных коротких видеороликов во всей сети сосредоточено на головном IP, а автоматическое редактирование ИИ может обеспечить адресную поставку авторского IP-контента для пояса и хвоста, принося новые точки роста трафика.

В настоящее время Youku расширил возможности алгоритма ИИ для ряда бизнес-сценариев, таких как извлечение основных моментов экрана маркеров Youku, теги для понимания видео, предварительная оценка эпизода, интеллектуальное изображение обложки, комментарии для быстрого просмотра видео и т. д. Например, возможность интеллектуального изображения обложки не только поддерживает интеллектуальное создание коротких видеороликов, но также открыта для UPGC в качестве базовой услуги для медиаресурсов и используется в таких сценариях, как загрузка учетной записи Youku, поиск Youku и короткие/маленькие видео рекомендация.

В то же время была также создана производственная линия «машинное производство + ручная проверка + создание рекламы».По сравнению с чисто ручным производством новая ссылка сокращает время производства с дней до минут, что чрезвычайно значительно повышает эффективность производства.

Показать результаты

[video(video-ZmfZXeWu-1616487922249)(type-youku)(url-player.Youku.com/embed/X NT Электронная почта…)]

Ссылки и примечания

[1] Обучение встраиванию текста в видео из неполных и разнородных данных [2] Техника нейронного многопоследовательного выравнивания (NeuMATCH) [3] Используйте то, что у вас есть: поиск видео с использованием представлений от совместных экспертов [4] Детализированный поиск видеотекста с иерархическим построением графа Примечание. Технология синтеза речи TTS предоставлена речевой лабораторией Академии Alibaba Damo.

在这里插入图片描述