Анализ и извлечение массивного короткого видеоконтента на основе глубокого обучения

RTC

На интернет-конференции RTC 2018 в режиме реального времени директор по технологиям Meitu Cloud Vision Чжао Лили поделился технологическим приложением искусственного интеллекта Meitu в области короткого видео.Контент в основном состоит из трех частей: бизнес-сценарий короткого видео Meitu и короткое видео, основанное на этом бизнес-сценарий Анализ видеоконтента и технологии поиска, а также возникшие проблемы и соответствующие решения. Наконец, некоторые мысли о процессе построения платформы. Далее следует содержание выступления.

Добро пожаловать в гостиСообщество разработчиков RTC, чтобы обменяться опытом с другими разработчиками аудио и видео в реальном времени. 

Репрезентативным продуктом Meitu в области коротких видео является приложение для коротких видео «Meipai», выпущенное в 2014 году. В последние годы также появилось несколько конкурирующих продуктов, таких как Douyin и Kuaishou. Недавно Meipai также перенастроила и позиционировала свой контент, в основном обучающие программы Meihe.Есть надежда, что пользователи также смогут получить некоторую питательную информацию и знания в процессе развлечения.

технология, используемая в видео

Видео может включать множество методов обработки в течение своего жизненного цикла. Начиная с 2D- и 3D-захвата, затем кодирования и декодирования, этот этап также включает в себя передачу, хранение, а затем редактирование и обработку, такую ​​как редактирование, улучшение фильтров, перенос стилей и сегментация фона. Затем следует извлечение информации, включая распознавание объектов, обнаружение сцен, анализ персонажей, распознавание поведения, извлечение тем и обнаружение событий. После выполнения вышеуказанных шагов мы получили большое количество видео, и нам нужно выполнить поиск видео. У него есть две функции: одна — извлекать нужный нам контент с помощью данного видео, а другая — извлекать похожие видео из огромной базы данных с помощью данного видео.

Применение технологии искусственного интеллекта в бизнесе коротких видео Meitu в основном находится на двух уровнях: один — на уровне инструментов, а другой — на уровне контента.

Инструментальный уровень заключается в использовании технологии ИИ для обработки видео, таких как украшение видеоперсонажей, замена фона и функции похудения персонажей в видео. Уровень контента — это маркировка, например идентификация объектов в видео, обнаружение сцен в видео и некоторое обнаружение поведения пользователя. Кроме того, самое главное, что после того, как мы получим видео, мы можем использовать ИИ, чтобы определить, являются ли качество изображения и видеоконтент незаконными. После извлечения функций видео мы выполняем некоторую работу по поиску видео и используем эту работу для поддержки бизнеса, связанного с короткими видео, включая портреты пользователей, операции, рекомендации и поиски.

Основываясь на вышеуказанных бизнес-требованиях, мы создали платформу для анализа и поиска мультимедийного контента.Эта платформа разделена на две части на основе алгоритма анализа контента.Одна из них представляет собой платформу анализа мультимедийного контента, которая отвечает за анализ характеристик видеоконтента. и пометка.. Другой — платформа для поиска мультимедийных данных.

Рисунок: Meitu Short Video Content Analysis and Retrieval Platform Application Architecture

Технические проблемы анализа и поиска короткого видеоконтента

После получения видео, как понять его содержание, на самом деле является многоуровневой и многомерной проблемой. Во-первых, самое простое, после просмотра видео первая реакция – каковы его тон, текстура, стиль, качество картинки. Идя дальше, нам нужно знать, какие объекты включены в это видео, где находится сцена, какие там персонажи, включая пол, возраст, характеристики и одежду, а также является ли контент незаконным. Кроме того, существует более глубокий уровень идентификации и обнаружения видеоконтента, например, наиболее передовым научным исследованием является распознавание поведения. Это также несколько параметров, которые Meitu будет использовать при анализе видеоконтента.

Основываясь на вышеуказанных бизнес-требованиях, мы обрабатываем видео, аудио, изображения и текст и передаем их на платформу анализа мультимедийного контента, а затем анализируем следующие четыре типа информации:

  • Основные характеристики: тон, фактура, стиль, качество изображения;

  • Анализ характера: пол, возраст, внешность, прическа, стиль одежды;

  • Анализ продукта: идентификация продукта, идентификация бренда;

  • Общий анализ контента: классификация видео, выделение признаков, классификация сцен, обнаружение угла, обнаружение объектов, обнаружение водяных знаков, выбор обложки.


Исходя из этого, платформа анализа мультимедийного контента будет предоставлять теги, функции и индексы для поддержки потребностей бизнеса.

Короткие видеоданные имеют несколько характеристик:

  • Источник видео: съемка мобильного телефона;

  • Форма видео: вертикальный экран, центр персонажа, спецэффект и фильтр;

  • Структура видео: фиксированная сцена в том же видео;

  • Информационное измерение: противоречивая мультимодальная информация, изображение и фоновый звук;

  • Большой объем данных;

  • Содержание неизвестно;

  • своевременность;

В процессе создания этой платформы мы столкнулись с рядом проблем. Подводя итог, можно выделить два основных вопроса:

Во-первых, как эффективно определить систему маркировки. Как упоминалось ранее, теги — это форма вывода этой платформы. Нам нужно сначала определить, какие теги для вывода помогут бизнесу, поэтому определение тегов очень важно. Обучение алгоритма, основанное на глубоком обучении, требует некоторых обучающих данных, и то, как формулируется метка в обучающих данных, также очень важно.

Другой аспект заключается в том, как повысить эффективность итерации модели. Короткие видеоданные имеют сильную своевременность. Например, модель, обученная два месяца назад, может быть не так хороша через два месяца, поэтому нам нужен механизм для быстрой маркировки данных, замены их в Интернете и стабилизации бизнеса поддержки.

Как эффективно определить систему маркировки

У нас есть пул популярных видео, а операции и продукты вручную помечают некоторые видео. Вы можете сказать, что мы можем использовать эту часть меток для обучения модели. Какие проблемы возникают, если мы применяем бизнес-метки к алгоритмам?

Во-первых, ярлыки бизнеса относительно абстрактны, например, могут быть сформулированы такие ярлыки, как «смешной» и «юмористический». Но нельзя точно определить, является ли видео смешным и юмористическим, по визуальной или звуковой, голосовой и другой информации.

Например, если плачет трехлетний ребенок, родитель может загрузить смешное видео, а если плачет кто-то в возрасте от 20 до 50 лет, то это грустное видео.

Во-вторых, обучающие данные несбалансированы. На приведенном выше рисунке показано количество данных, соответствующих некоторым бизнес-меткам, которые мы получили. Поскольку бизнес-персонал не учитывает, как выглядит каждая категория при установке меток, будут несбалансированные обучающие данные. Проблема, это также повлияет на обучение модели алгоритма.

Еще одна проблема — дискриминация низшего класса. В качестве примера возьмем приведенную выше картинку.С визуальной точки зрения нет разницы между пальчиковым танцем и селфи.Если его принудительно разделить на две категории во время обучения, это также повлияет на обучение сетевой модели в процессе обучения , что вызовет некоторый шум.

Другая проблема заключается в том, что размер этикетки относительно одинаков. Обычно видео маркируется максимум четырьмя или пятью измерениями, если их больше, будет очень сложно полностью измерить видео.

Наше решение состоит в том, чтобы взять наши видеоданные и текстовые данные (в сопровождении названия видео, информации, связанной с комментариями) для извлечения функций видео и аудио для кластеризации, используя бизнес-теги в качестве руководства, а затем абстрактно определить кластеры, чтобы получить соответствующие элементы визуальной метки. Этот элемент метки является меткой, которую мы используем для обучения. Наконец, выходные результаты меток обучения будут в свою очередь сопоставляться с бизнес-метками Метки, определенные этим методом, являются многоуровневыми и многомерными.

Как показано на картинке ниже, в видео есть девушка, поза в видео показывает все тело, движение раскачивающееся, а обнаруженный стиль музыки - рок, то можно судить, что в этом видео красивая женщина делать селфи и танцевать, что относится к шоу талантов , поэтому сгенерированные теги: «красивое селфи», «танец» и «талант». На этом сопоставление метки алгоритма с меткой бизнеса завершено.

Как повысить эффективность итеративного обновления модели онлайн-алгоритма

Здесь есть три основных вопроса: быстрая аннотация данных, эффективный и стабильный механизм оценки модели и должна быть гарантирована производительность работы алгоритма.

Для быстрой маркировки мы также используем автоматический алгоритм маркировки, который упоминался в статьях о неконтролируемом и полуконтролируемом глубоком обучении. Мы заранее возьмем общую модель обучения данных, пометим небольшой объем бизнес-данных и обучим классификатор на основе небольшого количества помеченных данных. Этот классификатор будет помечать другие немаркированные. При выводе метки будет некоторая уверенность, и данные с высокой достоверностью будут использоваться для обучения, а данные с низкой достоверностью продолжат обновляться в следующей итерации, и этот процесс будет повторяться много раз. Этот процесс также добавит ручную проверку и аннотацию в зависимости от сложности задачи.

У Meitu есть набор интеллектуальной модели обслуживания маркировки.Эта модель обслуживания разделена на две части, как показано на рисунке ниже, выше — автономный процесс, а внизу — онлайн-процесс. Получите видео онлайн и введите соответствующие теги или функции. Автоматическая маркировка в автономном процессе — это маркировка алгоритма, упомянутая выше, и данные и метки, выдаваемые автоматической маркировкой, будут использоваться для обучения модели. Мы получим эти данные для обучения модели и оценки модели, Данные, используемые при оценке, также являются частью данных проверки, которые мы отметили. Когда предполагаемая точность достигает нашего порога, мы считаем модель доступной и обновляем ее онлайн.

Текущая производительность алгоритма, интеллектуальная платформа визуального анализа на самом деле включает в себя многие, помимо видео, существует множество других алгоритмов изображения, но по сравнению с ними сложность видеоалгоритмов высока. Здесь мы берем технологию классификации видео в качестве примера, чтобы представить, как мы это делаем.

Классификация видео в основном делится на эти формы. Во-первых, мы просто извлекаем кадры из видео, используем сеть CNN для извлечения некоторых функций, объединяем их, а затем классифицируем окончательные результаты. Этот метод не учитывает временную информацию видео. Существуют также некоторые другие алгоритмы, такие как два алгоритма слева внизу и справа, показанные на рисунке выше. Все они учитывают временную информацию видео, но недостатком является слишком высокая сложность, и ее трудно применять в практических сценариях.

После оценки сценариев применения коротких видеороликов первый метод может обеспечить хорошую точность, а его временная сложность также очень низка по сравнению с другими решениями.

Что касается классификации видео, у Meitu также есть некоторые передовые результаты исследований.Мы сотрудничали с Китайской академией наук, чтобы предложить неконтролируемый метод обучения функциям видео и распознавания поведения, основанный на интеллекте, подобном мозгу.

В промышленности и научных кругах существует множество моделей, но в реальных бизнес-сценариях эффект кажущейся огромной сети может быть не таким идеальным. Что еще более важно для нас, как мы можем извлечь наиболее важные и важные данные из массивных бизнес-данных, чтобы обучить модель, подходящую для бизнес-сценариев. Мы также обобщили несколько моментов в построении платформы анализа мультимедийного контента, и мы считаем, что три части информации очень важны:

  1. Сервис логического вывода: с одной стороны, выполняется анализ логического вывода по полученным данным, а с другой — обновляется и запускается обученная модель;

  2. Служба данных: предоставление помеченных данных для обучения модели, а ее основным модулем является автоматическая маркировка алгоритма;

  3. Служба обучения: содержит модуль триггера обучения, который регулярно обновляет обучение модели.

Как упоминалось выше, мы проводим контент-анализ, большинство из которых основано на выводе этикетки. На самом деле, есть некоторые проблемы с использованием меток для описания вещей. Одна из них - своевременность. На приведенном выше рисунке показаны изменения меток в части системы меток, которые мы суммировали в марте и августе соответственно. На самом деле разница довольно большая. Вторая проблема — незавершенность. Если вы хотите использовать теги для описания видео или изображения, вам нужно много измерений. Что, если мы извлекаем видео и хотим сравнить сходство двух видео при поиске? Очень сложно использовать ярлыки.

На приведенном выше рисунке показан процесс поиска видео, представляющий собой схему поиска, которая применяет к видео процесс поиска текста, предложенный Google в 2003 году. Он состоит из двух частей: одна предназначена для создания целевой библиотеки поиска, а другая — для извлечения. После получения нескольких видео извлеките кадры из видео, извлеките функции из этих изображений кадров, выполните кластеризацию, а затем создайте визуальный словарь.

Сравнение функций включает классовые, двоичные функции и функции с плавающей запятой, каждая из которых имеет свои преимущества и недостатки. Одним из больших преимуществ бинарных функций является то, что они эффективны при хранении и вычислении расстояний, но недостатком является то, что диапазон, который может быть представлен, относительно мал. Функция с плавающей запятой Евклидово расстояние, антиэкстремальная интерференция, значение характеристики расстояния относительно велико, теоретически от нуля до бесконечности.

Выше у нас есть простая идея. Мы будем использовать многоуровневые метки, чтобы направлять сеть к обучению на основе многоуровневой системы изменения направления, созданной ранее. Кроме того, будет использоваться тройная потеря.Для одного и того же видео мы извлечем 5 кадров, а затем извлечем 5 кадров в разные периоды времени, чтобы сформировать положительную пару выборок. Составляя пары отрицательных образцов из одного видео и других видео, пусть он узнает, какая информация является уникальной особенностью видео.

На приведенном выше рисунке показана архитектура службы поиска сходства коротких видео с автономным модулем слева и онлайн-модулем справа. Offline — это пакетное обучение, генерирующее хэш-значения.

Суммировать

В процессе создания этой платформы мы также столкнулись с некоторыми проблемами и были некоторые мысли. В основном это пункты:

  • ИИ позволяет мультимедийным технологиям иметь больше места для приложений, и в области видео все еще существует множество бизнес-сценариев, которым требуется помощь ИИ;

  • Данные по-прежнему являются ключевым элементом для эффективной реализации алгоритмов ИИ на текущем этапе.Чем ближе к бизнес-сценарию, тем очевиднее важность данных предметной области;

  • Роль технологии общих алгоритмов ослабевает, и ее необходимо дополнительно оптимизировать в сочетании с конкретными бизнес-сценариями;

  • Техническая область требует постоянного исследования, проблем с производительностью алгоритмов, детального семантического понимания, интеллектуального взаимодействия с мультимедийным интернет-контентом и т. д.


Отсканируйте код, чтобы посмотреть видеообзор выступления

Если вы хотите получить больше речевых материалов и узнать больше о технологии RTC, обратите внимание на публичный аккаунт WeChat «Sound Network Agora».