После изображений структурирование видео стало еще одной горячей точкой в области глубокого обучения. По сравнению с изображениями видеоконтент, несомненно, более сложен. Столкнувшись с требованиями к структуре видео в различных сценариях, какие стратегии необходимо принять, чтобы добиться максимального эффекта? Какое значение имеет структурирование видео с помощью ИИ для преобразования Интернета, вещания и других отраслей?

На конференции QCon Global Software Development Conference 20 апреля Яо Тангрен, главный архитектор Лаборатории облачного искусственного интеллекта Qiniu, поделился своим практическим опытом структурирования видео для глубокого обучения.

1. Преимущества искусственного суммирования видео и структурирования видео ИИ

Согласно исследованию Гарвардской школы бизнеса, зрение является наиболее важным способом получения информации для людей, на его долю приходится 83% всех органов чувств. Потому что через носителя фото и видео объем информации, которую мы можем получить, самый большой. По сравнению со статическими изображениями динамические видео увеличивают размерность времени и имеют более богатую композицию. Согласно текущей ситуации с онлайн-видео,Весь отечественный масштаб видео по-прежнему поддерживает быстрый рост.

На самом деле рост масштабов видео не ограничивается интернет-индустрией. **Во многих отраслях может быть больше видеоданных, одной из них является индустрия вещания. ** Радио- и телеиндустрия не только сталкивается со взрывным ростом видеоданных, но и во многих случаях оказывается в ловушке управления стоковыми видеоданными. Перед лицом огромного количества и возрастающих видеоданных традиционные методы ручного суммирования видео обнаружат следующие дефекты:

Неполный контент: при просмотре видео у каждого будет свое внимание. Для контента, находящегося вне фокуса, будут разные степени пренебрежения. Игнорирование частей каждого видео может привести к огромной потере информации.
Опираясь на опыт: Искусственные сводки видео в значительной степени зависят от опыта рецензентов, а результаты описания часто отражают понимание видео соответствующим персоналом. Когда в группу проверки добавляется много новичков, описание может быть недостаточно точным и полным.
Плохая работа в режиме реального времени: человеческая проверка может быть сделана только через много времени после события. Столкнувшись с внезапным взрывом роста данных, люди практически не могут выполнять просмотр и маркировку в реальном времени, что приводит к низким результатам в реальном времени.
Плохая своевременность: когда происходят определенные конкретные события (звездные скандалы, инверсии событий), одно и то же видео будет иметь разные ярлыки до и после события (например: популярный артист после скандала, связанного с наркотиками, указан как «плохой артист». «. ») Ручная аннотация затруднительна для быстрого запуска или удаления связанных видео в пакетном режиме в соответствии с чрезвычайными ситуациями.

При таком количестве проблем в процессе обработки видео использование человеческого труда, очевидно, приведет к огромным затратам. В настоящее время структурирование видео с помощью ИИ является лучшим решением.

Преимущество 1: Широкий диапазон распознавания Когда люди резюмируют, фокус очень ограничен, и у машин нет этой проблемы. Первым преимуществом использования машинного обучения для распознавания является возможность непрерывно увеличивать широту распознавания. **Возможно, первоначальная модель не распознает достаточно контента, но по мере того, как модель машинного обучения продолжает повторяться, контент и точность распознавания также будут значительно улучшены.

Преимущество 2: Высокая эффективность Эффективность машин с графическим процессором намного выше, чем у людей, и машины могут работать непрерывно.Сводные видеоролики человека ограничены временем физического воспроизведения, в то время как машины могут увеличить скорость структурирования с улучшением физической вычислительной мощности и эффективности модели.

Преимущество 3: повторяемость Мы можем постоянно оптимизировать точность распознавания контента посредством итерации модели.

Преимущество 4: Инновационный фонд

Благодаря такому эффективному методу, а не дифференцированному познанию контента, этот метод может принести много инноваций в бизнес.

Модерация контента. Модерация контента для изображений и видео становится все более важной, поскольку изображения и видео заменяют текст в качестве основного средства коммуникации. Например, если артист совершил плохое поведение, его нужно немедленно забанить. Если мы завершим структуру видео контента, очень легко найти видео, связанные с ним. Кроме того, вы также можете извлекать и каталогизировать содержимое видео, что является всеми функциями, необходимыми при широком редактировании.
Размещение рекламы: Когда мы размещаем рекламу, мы можем добиться таргетированной рекламы. Например, все банки в ролике помечены нужным контентом для полного размещения рекламы.
Прогнозирование горячих точек: например, когда происходят какие-то события горячих точек, мы можем анализировать теги функций этого события, а также связывать и рекомендовать видео, связанные с соответствующими тегами. Подобные функции имеют большое значение для операций в Интернете.

2. Этапы реализации структурирования ИИ-видео

2.1 Разложение видео

Прежде всего, в видео нам сначала нужно разложить разные сцены и разные кадры, а затем идентифицировать содержимое внутри. В примере у нас есть система маркировки видео классификации, Фактически, системный процесс маркировки на самом деле является нашим пониманием контента и тем, как сделать направление структурированного распознавания.

С точки зрения модели, что мы должны сделать, чтобы идентифицировать контент? Прежде всего, мы должны выполнить сегментацию, Сегментация — это расщепление хрусталика. После разборки необходимо понять тему, выраженную фрагментом кадра, и далее определить содержание по кадру, и сделать это по размерам людей, предметов и сцен.

2.2 Структурированное описание видео

Например, когда мы хотим описать футбольное видео, оно будет разделено на три уровня.

Первый уровень — это основные элементы в видео: игроки, футбол, трава, текст. При этом газон — это не обычный газон, а футбольное поле, слова — не бессмысленные слова, а рекламный щит у корта.
Второй уровень — это сцена из видео: игра Ла Лиги, в которой играет «Барселона».
Третий уровень — это полноценная история: спортивные новости освещают игру, в которой Месси из «Барселоны» привел свою команду к победе.

Получите бейсбольное видео, вы можете обработать его следующим образом:

Первым шагом является его кадрирование и идентификация содержимого кадра.
Второй шаг — сделать некоторый оптический поток, цель которого — получить информацию о движении. Информация о движении в видео более сложная, и после завершения оптического потока легче описать изменение положения между предыдущим и последующими кадрами, чтобы можно было описать движение. После описания видов спорта определяется, что это игра в бейсбол, путем сопоставления со спортивной информационной сценой.
Третий шаг заключается в использовании звука для облегчения суждения, а информация об изображении может быть дополнена в соответствии с информацией, распознаваемой в голосе.
Наконец, используйте другую информацию на видеоэкране, такую как окружающие рекламные объявления, субтитры, логотипы радиостанций и другую связанную информацию, чтобы помочь в оценке. Благодаря этой информации мы можем узнать, к какой категории относится эта сцена, будь то варьете или новости.

2.3 Учебная платформа глубокого обучения

Обучение модели является очень важным соединением, а количество видеоданных очень велико.Для поддержки предпосылки обучения модели и анализа видео необходима эффективная платформа глубокого обучения. Чтобы повысить эффективность обучения, платформа глубокого обучения Qiniuyun завершила создание всего конвейера от сбора данных, маркировки, очистки и фильтрации до обучения, рассуждений и выхода в онлайн, и продолжает итерации.

Сталкиваясь с огромным количеством видео в разных форматах, мы разделяем весь процесс. Обучение модели в распределенной очереди,Также необходимо сплавлять модели для достижения лучших результатов.

Наша стратегия структурирования видео состоит в том, чтобы сначала разделить видео на кадры и классифицировать его по теме,После интерпретации людей, объектов и сцен в видео свяжите их с изображениями, звуками и текстами.

Здесь упоминается извлечение признаков.Разница между извлечением разных данных заключается в том, что извлечение данных каждой сетью отличается.В это время мы извлекаем многотерминальную сеть, а затем объединяем ее. Можно видеть, что признаки, извлеченные сетью в этом примере, ясно выражают информационные признаки движения собак.

Когда видео подлежит классификации, мы сначала используем LSTM для объединения одного кадра и одного кадра для обучения сетевой модели LSTM. Позже мы приняли метод 3D-переноса, но, поскольку его канал представляет собой операцию на геометрическом уровне, он потребует огромного объема вычислений.Третий метод —Сначала объедините изображение и оптический поток, а затем выполните объединение модели.

Существует два метода слияния моделей: предварительное слияние и пост-слияние. Пост-слияние относится к слиянию, выполняемому после выхода сетевого соединения.

Я только что говорил об извлечении некоторых его функций, но если извлечение кадров для видео слишком велико, объем вычислений станет очень большим. В настоящее время мы обычно практикуем использование трех видео переднего, среднего и заднего плана для сцены. После отрисовки кадра выполняется слияние, что является более сбалансированным и эффективным методом по эффекту и объему расчета.

3. Видео структурированные точки внимания и практический опыт

3.1 Информационная структура персонажа

Ключом к персонажу является узнавание лица. В видео мы воспроизводим последовательные кадры, и лицо меняется в каждом кадре, поэтому нам нужно не только обнаружить лицо, но и оценить лицо: включая ракурс лица, очки и другие окклюдеры. Последнее — отслеживание лица. Например, повороты, кивки и т. д.

Иногда, когда отслеживание лица перемещается на затылок или когда боковой угол относительно большой, часто трудно обеспечить высокую точность. Тем не менее, в процессе отслеживания лица, пока точка оценки захвачена, может быть известно, что весь процесс отслеживает одни и те же данные объекта, и оценка может быть выполнена на основе этого. **После прохождения оценки на основе оценочных баллов люди, отслеживаемые в этом сегменте, будут демонстрировать относительно высокие характеристики. **Кроме того, было бы лучше, если бы мы соотнесли лицо со сценой, а затем сравнили ее.

Практика структурирования информации о персонажахПри выполнении сопоставления лиц вы также можете использовать связанный с ним реляционный граф. Реляционный граф — очень важный момент во всем процессе структурирования видео.

Например, предположим, что мы анализируем видео игры Месси, но на видео его лицо не обращено в камеру, а только профиль. На этот раз мы пришли к выводу, что это игра с мячом на основе анализа сцены, и мы знаем, кто эти две стороны, по форме команды. Мы можем узнать, кто входит в команду, тренера и товарищей по команде Месси, благодаря информации, которую мы получаем в Интернете, и построить карту взаимоотношений.

В это время вы можете сравнить профиль Месси с данными в базе данных профилей, такими как Top 10 или Top 20. С картой отношений точность может быть значительно улучшена. Просто достоверность профиля и процент ошибок очень высоки.

В дополнение к этому мы также можем идентифицировать товарищей по команде Месси по их номерам на футболках. Таким образом, это кажется относительно простым описанием лица, но в разных сценариях оно может быть описано более глубоким анализом. В противном случае после того, как машина только распознает лицо, из-за недостаточного количества данных и информации разрыв с реальным результатом будет очень большим.

Заметки на практике

На практике мы найдем много проблем. Вот, например, видео голосования в новостях: много людей голосуют последовательно перед урной, и избиратели постоянно меняются. В настоящее время, если для отслеживания используется сравнение местоположений, поскольку кто-то голосовал в ящике для идентификации в одном и том же месте, результат, вероятно, будет определять, что всегда голосует один и тот же человек. Если мы можем сначала распознать, что это событие голосования, основанное на действии персонажа и окружающей сцене, мы принимаем не отслеживание, а обнаружение.

Вот демонстрация нашей видео структуры. В этом видео мы можем соединить временные шкалы, где появляются все персонажи. Таким образом, при поиске людей можно легко найти релевантный контент с помощью структурированного распознавания видео.

3.2 Структура информации об объекте

В отличие от людей, при распознавании объектов нет такой очевидной особенности, как лицо. В настоящее время модель можно напрямую использовать для обнаружения в разных местах.Точность обнаружения зависит от модели.Модель нуждается в сильной способности к обобщению и может обнаруживать объекты под разными углами.

Практика структурирования информации об объектах

В это время нам нужно совместить время появления объекта. Например, на видео есть певец, и микрофон в его руке неоднократно появляется на видео.Поскольку период времени, когда микрофон появляется на видео, не является непрерывным, нам нужно найти лучший порог для его идентификации. В разных темах, таких как новости и фильмы, существуют разные способы объединения разного контента.

Как и лица, структурирование объектов также должно быть связано со сценой. Так же, как и в случае с футболом, после обнаружения лужайки общее опознание является лужайкой, но по этой сцене судят, что в мяч играют. В настоящее время выходным объектом является выходной стадион, который является отношением между контекстами сцены.

Заметки на практикеНа практике мы предприняли много попыток, когда принимали решение определять плотность кадров. Интуитивно мы должны думать, что чем выше плотность, тем лучше эффект. Для тестирования мы выбрали несколько значений: 0,1 секунды, 0,2 секунды, 0,5 секунды, 1 секунда и 2 секунды. После тренировки более подходящим значением будет 1 секунда.

Хотя теоретически чем выше плотность кадров обнаружения, тем лучше, но это потребует некоторых вычислительных затрат. Когда плотность обнаружения составляет 0,1 секунды, количество вычислений в 10 раз больше, чем 1 секунда. Порассуждаем, почему 1 секунда больше подходит: при описании большинства видео переключение сцен будет не очень частым, а быстрое и многократное переключение сцен в течение 1 секунды не принесет хорошего впечатления от просмотра, поэтому при обнаружении объектов использовать 1 секунду можно использовать для определения плотности.

3.3 Распознавание сцен

Описывая такое фото сцены, мы можем с первого взгляда увидеть, что может содержать изображение, морские звезды животных, океанские волны, на открытом воздухе, пляж. Но при выводе меток мы выводим две метки сцены. Зачем отмечать два? Потому что когда сам объект находится в разных сценах, сцены ведут себя по-разному.

На этой картине видно, что есть горы и реки, эти элементы составляют природный ландшафт, а природный ландшафт подчинен открытому хребту. Причина такой конструкции в том, что после структурирования поиск будет очень полезен. Например, при поиске сцены встречи вы также можете искать в помещении, а при поиске горы вы также можете искать пейзажи. Один и тот же контент можно искать по разным тегам. Тот же контент относится к природному ландшафту, но относится к категории наружного в более широком масштабе.

Заметки на практике

Это случай спортивных новостей, нам сначала нужно определить тему сцены, будь то телевизионный развлекательный зал, развлекательная комната или игровой зал. После того, как тема определена, ее можно разрезать на разные кадры, а затем, когда будет обнаружена корреляция и выполнена классификация, ее можно будет описать более точно.

3.4 Помощь звука для распознавания

Звук — это полезная информация в видео. Что касается звукового контента, мы должны иметь дело с ним в двух категориях.

Первая категория — это преобразование голоса в текст, мы можем выделить тему на основе содержания видео. Таким образом, текст, извлеченный из звука, может помочь определить такую тему. Это то, о чем мы обычно можем думать.

Вторая категория — это функции голосового отпечатка.Например, в некоторых сценах нет текста, например, кричащий человек или страдающий человек, мы можем идентифицировать сцену с помощью функции голосового отпечатка.

Это структурированное представление всего видео. На нижнем уровне нам нужны некоторые базовые модели, чтобы идентифицировать нас, чтобы определить, что является сценой для каждой вещи, что является объектом, каково его лицо и каковы связанные атрибуты.Это самая базовая модель. На практике эта модель будет иметь некоторые особенности в измерении видео, видеокадре, оптическом потоке и непрерывной взаимосвязи. Идем дальше, как построить структурированную платформу при использовании моделей и функций, а также практики? Эта платформа заключается в том, что мы хотим описать события.Самое раннее - сегментировать видео, а затем также через карту знаний.Вот как эта платформа использует эти вещи.

Чтобы сегментировать, постройте граф знаний, а затем опишите события с помощью базовой модели. Что такое приложение верхнего уровня?Это может быть просмотр контента, а может конечно размещение рекламы.Это интеграция некоторых методов приложения.

Я думаю, что структурирование в области видео только началось, и нужно больше людей, чтобы практиковаться и исследовать. Изменения, вызванные измерением времени видео, очень богаты. Например, в следующих двух примерах один из них является непоследовательным, а другой заключается в том, что фрагментированные видео не могут видеть реальную тему. Эти аспекты требуют от нас дальнейшего изучения и упражняться.