Во второй половине дня 30 июня Чжао Чжицзянь провел практический обмен под названием «Практика многомерного слияния, расширяющего возможности видео AI» в двадцать девятом выпуске Qiniu Architect Practice Day.
Об авторе:
Чжао Чжицзянь, старший инженер-алгоритм Лаборатории искусственного интеллекта Qiniu, руководитель отдела видеоалгоритмов Qiniu и разработки алгоритмов. Он имеет почти десятилетний опыт исследования алгоритмов, связанных с компьютерным зрением и искусственным интеллектом, а также имеет богатый опыт исследований и разработок в областях, связанных с изображениями, таких как распознавание лиц, классификация изображений, промышленная автоматизация, анализ видео и т. д. Мобильный Интернет, Индустрия 4.0 и других областях, когда-то привел команду к тому, чтобы выиграть второе место в конкурсе крупномасштабной классификации видео ACM Muliti-media.
В этой статье в основном рассказывается о некоторых работах Лаборатории искусственного интеллекта Qiniu в области искусственного интеллекта видео.Есть два ключевых слова: одно — многомерное слияние, а другое — видео. AI.
Прежде всего, я представлю Qiniu ATLAB, чтобы помочь вам понять лабораторию искусственного интеллекта.
Эта лаборатория существует всего два года, и ее основная задача — предоставлять некоторые услуги искусственного интеллекта для клиентов на всей облачной платформе Qiniu. До ATLAB весь мультимедийный сервис Qiniu был представлен всем через продукт DORA. Любой, кто понял всю систему Qiniuyun, должен знать, что DORA — всеобъемлющая вещь. Причина, по которой он называется DORA, заключается в том, что я надеюсь, что он может быть как Doraemon, со всеми видами вещей в универсальном кармане, предоставляя бесконечные возможности каждому. Вся платформа проделала большую работу, и ежедневный объем запросов, вероятно, находится на уровне десятков миллиардов.
Его инфраструктура состоит из трех уровней: во-первых, он будет опираться на основные сервисы всего Qiniu, включая облачное хранилище, контейнерные вычисления и сервисы ведения журналов; также есть представленные выше API-интерфейсы для изображений и видео, включая обрезку, масштабирование и уменьшение изображений. API-интерфейсы, такие как API-интерфейс синхронизации и передача видео, предоставляют вам некоторые аудио- и видеоуслуги, что является первоначальным замыслом всего дизайна DORA.
Быть
Вся лаборатория искусственного интеллекта ATLAB основана на всей DORA и продолжает публиковать на ней набор движков ИИ, который будет включать в себя некоторые движки ИИ и платформы глубокого обучения ИИ, связанные с обнаружением желтого цвета, обнаружением объектов и изображениями, поэтому он называется это для ДОРА++. На веб-сайте atlab.ai вы можете увидеть DEMO всего движка ИИ, и там будет несколько таких дисплеев.
Включая сервис идентификации изображений, сервис обнаружения и распознавания сцен объектов, сервис распознавания лиц и, наконец, сервис сегментации изображений, который мы делаем уже давно. Теперь весь ИИ изображений ATLAB поддерживает 11 000 типов классификации изображений, 3 000 типов обнаружения, 20 типов более тонкой желтой идентификации, 400 типов сцен и сервисы, связанные с лицами.Предпочитаемый уровень распознавания приближается к 99%.
Первое ключевое слово представлено ниже: видео
Почему мы делаем видео?
С развитием коммуникационных технологий объекты некоторых вещей, которые мы изучаем, изменятся вместе с развитием коммуникационных технологий. Вспоминая времена, когда Nokia была моноблоком, когда использовалась сеть 2G GPRS, QQ было достаточно иметь возможность общаться в чате и отправлять текстовые сообщения, потому что коммуникационных технологий того времени было недостаточно, чтобы помочь вам отправить больше информации. . В эпоху 3G и 4G люди больше использовали WeChat, а общение было больше с помощью картинок и коротких видеороликов, поэтому объект нашего исследования ИИ начал развиваться в сторону изображений. Будущее может наступить в эпоху 5G, и скорость передачи данных изменится с исходных 10M на уровень 10G.Например, некоторые видеозвонки в реальном времени и некоторые приложения для прямых трансляций определенно станут очень важными объектами для наших будущих исследований.Поэтому с развитием коммуникационных технологий видео однажды станет более важным объектом всех исследований искусственного интеллекта.
Искусственный интеллект изображения обусловлен развитием технологии глубокого обучения и очень большим объемом данных. По сравнению с изображениями само видео имеет много характеристик, и копирование изображений может оказаться нецелесообразным.
Во-первых, разнообразие видеоконтента,Видео имеют такое же разнообразие контента, как и изображения. А некоторые категории анализа могут быть доступны только в видео. Включается во все аспекты жизни. Весь контент в жизни может стать объектом нашей видеообработки.
Во-вторых, сложность сцены, созданной существующим видео,Сегодняшние сцены, генерируемые видео, условно можно разделить на: видеонаблюдение, прямую трансляцию и медиа некоторых телеканалов.Эти три сцены представляют собой ситуации, когда видео много. Как раз в этих трех сценариях также наблюдается большое разнообразие. Например, в случае видеонаблюдения из-за разных объектов, развернутых на этих видео, все развернутые камеры будут отличаться по положению и высоте, а также по интересующим их объектам, что приведет к сложности обработки. С таким же разнообразием можно столкнуться и в сцене прямой трансляции, например, есть различные сцены, такие как якоря, концерты, игры с мячом, включая пресс-конференцию Джобса. Это могут быть некоторые из наиболее сложных аспектов обработки видео. Конечно, в медиа-индустрии также будут разные типы сцен, такие как новости, развлекательные шоу, сериалы и фильмы.
Разница между видео и картинкой, и самый главный момент в том, что только когда вы увидите последнюю секунду видео, вы узнаете, что произошло на видео. Как показано на этой картинке игры, большинство людей подумали бы, что гол был забит, но он просто попал в перекладину.Информация о времени уникальна для видео,Это полностью отличается от изображения.
Последнее, о чем стоит поговорить, это объем видеоданных.Если видео просто для понимания, его можно рассматривать как набор серий изображений. Затем мы сравнили, и теперь на рынке есть общие общедоступные уровни данных, первые два — это уровень данных обнаружения, а другой — уровень данных классификации. Видно, что его размер в случае миллионного объема составляет около 100 Гб, а видео может достичь уровня Т всего лишь с несколькими сотнями тысяч данных, то есть объем данных видео относится к картина Взрывоопасно и сложно в обращении.
Выше приведено содержание первого ключевого слова.
Второе ключевое слово представлено ниже: многомерное слияние.
Как мы делаем видео в стиле фьюжн?
Прежде всего, давайте поговорим о том, как использовать уровень слияния многомерных признаков для завершения анализа видео при выполнении классификации. В июне прошлого года, когда мы впервые начали работать над видео, мы планировали начать работу над некоторыми алгоритмами для видео, начиная с видеоконкурсов.
В то время ACM (LSVC2017) проводил конкурс по классификации видео, включавший 500 различных категорий и сотни тысяч видеороликов. Видеоаннотация — это аннотация всего видео, а конкретный сегмент события не отмечается, что относительно сложно. В то время наша идея заключалась в том, что мы участвовали в соревновании с отношением тестирования воды и понимания того, насколько мы далеки от самого продвинутого уровня в мире.Основной используемый метод заключался в том, чтобы завершить соревнование с помощью метода слияния функций.
Во-первых, мы использовали некоторые сети изображений глубокого обучения, чтобы извлечь ряд признаков.
Затем используется кодирование временных рядов и используется модель NETVLAD, полученная из модели мешка слов Основная идея состоит в том, чтобы превратить сегменты признаков разной длины в признаки одинаковой длины, что эквивалентно превращению признаков различной длины в одинаковую длину для такой работы по кодированию. В то же время также были проведены некоторые простые расширения, что эквивалентно добавлению некоторых структур, разработанных нами при настройке кодировки ранее.
Затем мы разработали несколько методов слияния.Одним из наиболее характерных из них является раннее слияние Net-VLAD, что означает, что мы объединяем результаты наших признаков не на окончательной классификации, а на уровне признаков.Слияние, преимущество такого fusion заключается в том, что он может значительно уменьшить количество параметров на последнем уровне FC, что ускоряет вывод всей модели.
Это результат финального конкурса. Вы можете видеть, что карта варьировалась от 0,68 в начале до окончательного 0,87, который мы представили. Благодаря объединению функций точность всей классификации видео может быть значительно улучшена. Это наш окончательный результат, немного отстали от Али и заняли 2 место.
Хотя окончательный результат был удовлетворительным, мы столкнулись с множеством проблем на протяжении всей игры. Когда объем данных особенно велик, на загрузку данных уходит неделя, а на предварительную обработку — еще неделя, все это занимает очень много времени. Все видеообучение, чтобы сделать его быстрее, мы должны интегрировать набор потоковой обучающей платформы, что эквивалентно вводу с конца видео, и все начинают обучение, а затем за счет интеграции многомерных цепочек инструментов весь тренинг скорость увеличивается, так что можно обучить лучшую модель.
Ниже представлена вся платформа глубокого обучения Qiniuyun.
Приведенный выше набор процессов публикации традиционных моделей в начале включает в себя всю сортировку, загрузку и маркировку на уровне данных, а затем некоторую предварительную обработку, создание платформы вручную и обучение для окончательной доставки. Наша платформа глубокого обучения предназначена для автоматизации всего, что можно автоматизировать в вышеуказанном процессе, чтобы весь процесс обучения можно было сократить примерно на 80% рабочей силы и на 50% времени. Это то, что мы хотим сделать во время конкурса. Входом во всю интегрированную цепочку инструментов является разработанная нами платформа маркировки VOTT. На этой платформе мы можем легко маркировать информацию различных видеоклипов и некоторые метки категорий видео, а затем передавать Этот индикатор выполнения перетаскивается, перетаскивается и т. Д., Вы можете легко найти контент, который хотите пометить.
Кроме того, есть целая масштабная обучающая платформа для потокового вещания. Вся платформа разделена на четыре части: первая часть — декодирование видео, декодирование хранилища и т. д.; вторая часть — некоторые функции извлечения признаков; третья часть — обучение модели; четвертая часть — слияние моделей. Он разделен на четыре полностью независимые части, которые не зависят друг от друга.После поступления данных может выполняться непрерывное потоковое обучение.
Для всего хранения, кодирования и декодирования используются инструменты NVVL, предоставляемые ALLUXIO и NVIDIA. Преимущество этого инструмента в том, что он может вызывать декодер на графическом процессоре и хранить информацию о декодировании видео непосредственно на графическом процессоре, что устраняет необходимость копирования с процессора на графический процессор, тем самым ускоряя весь процесс обучения.
Кластер извлечения признаков предназначен для преобразования исходного видео в нужные нам учебные материалы, такие как однокадровое изображение, многокадровое изображение и оптический поток, а затем использовать его для обучения. В то же время мы обнаружили, что представление изображений в видео относительно ограничено. Иногда также требуется такая информация, как голос и текст Добавление этой дополнительной информации также может улучшить эффект нашего обучения, поэтому объедините их в кластер.
Быть
В этом последнем конкурсе CVPR мы потратили всего семь дней и семь моделей, чтобы завершить весь конкурс, и результат был не очень хорошим, поэтому мы заняли третье место. Модель «семь дней семь» в основном включает в себя модели для видео, такие как нелокальная TSN I3D, которая больше не является сетью, связанной с предыдущим изображением.Наш технический отчет связан с изображением, и вы можете узнать больше о модели и технический отчет через это.
С такой способностью быстро обучать модели, где мы можем использовать видеоаналитику. Поэтому я обсужу со многими клиентами, какие у вас потребности и требования к видео, они упомянули, что есть общие и структурированные требования к видео. Это требование означает, что иногда необходимо искать контент в видео, искать некоторых деликатных людей, деликатные вещи или какие-то определенные объекты. Но вы точно не сможете тянуть все видео назад и запускать его каждый раз при поиске, ведь это непосильная цена. Затем вам нужно преобразовать видео в общую структурированную вещь с возможностью поиска, чтобы сделать это.
Разные клиенты по-разному понимают требования к структурированию видео.Например, некоторым медиа-клиентам контент очень подходит под их жесткие требования, он более чувствителен к какому-то контенту, который в нем фигурирует, например к порнографии, ему такое нужно, есть некоторые чувствительные люди, которые не могут появляться, что является особенно жестким требованием; есть еще одно требование, то есть есть надежда, что видео можно будет классифицировать по заранее установленным категориям.
Раньше этим занимались люди, например, «Бегущие братья» надеются попасть в категорию варьете, что является требованием пользователей. Если на сцене наблюдения за безопасностью, спрос может заключаться в том, чтобы надеяться найти красную машину во всех камерах в Ханчжоу. Это требует быстрого поиска и в то же время сжимает всю ненужную информацию. Нет необходимости хранить так много видео, пока сохраняется деконструированная информация. Можете ли вы сделать какие-то прогнозы на основе этой деконструированной информации? Это требование пользователя. . Таким образом, весь спрос будет разделен на множество типов.
Как описать видео?Например, фильм «Ип Ман» можно найти в нескольких аспектах.
Прежде всего, если вы ищете фильмы о кунг-фу или Донни Йена, вы можете найти его. Также есть очень известная фраза «Я собираюсь ударить в десять», которую также можно найти в поиске. Когда вы ищете видео, вы можете искать его по всему видео или по ключевым людям, которые могут его описать, или найти его по каким-то действиям или событиям. Эти три уровня — то, что необходимо для структурирования видео, поэтому предлагается такая многоуровневая архитектура структурирования видео. Будет структурирование всего видео, а также структурирование некоторых ключевых фигур и структурирование поведения событий.
Только интеграция многомерных технологий может завершить многомерное структурирование видео. Прежде всего, общая структуризация видео требует умения организовывать и классифицировать видео; структурирование персонажей видео требует, чтобы кто-то имел возможность обнаруживать и отслеживать; обнаружение событий требует умения обнаруживать происходящие в нем события и сегментировать кадры, чтобы завершить всю многомерную структурированную вещь.
Продукты здесь не перечислены, и мы сразу же перейдем к некоторым видеодемонстрациям, которые мы сделали.
Первая — это демонстрация структурированного лица на видео. Это делается для телестанций, требуется структурировать всех людей внутри, чтобы облегчить последующие поиски. После сортировки функций, во-первых, реализовать обнаружение и загрузку лиц, а также сохранить информацию о лицах; во-вторых, идентифицировать некоторых чувствительных людей, в том числе некоторых политических деятелей; в-третьих, сделать обычных людей, которые то есть бесчувственные люди группируются вместе, пока они выполняют эти три функции.
Конечный результат таков, это человек, найденный в этом видео; эти зеленые области появляются, когда этот человек появляется в видео. Если вам нужно легко увидеть клипы, в которых этот человек появляется в видео, просто щелкните мышью по содержимому, связанному с ним, и события и работа, связанные с этим человеком, будут воспроизводиться автоматически. Это и есть весь видеопроект по структурированию лица.
Во-вторых, мы сделали DEMO для распознавания пенальти. Вы можете видеть, что эта кривая представляет это событие, и какова вероятность пенальти на этом видео. Когда выполняется пенальти, это событие будет превышать красную линию, которая является прогнозируемым значением.При превышении красной линии будет известно событие пенальти. После того, как наша тренировочная модель была протестирована, пенальти можно найти во всей игре, с небольшим количеством ложных срабатываний, и общий эффект в порядке.
Но когда все увидят этот DEMO пенальти, они почувствуют, что DEMO пенальти немного занижено, потому что он может только сказать вам пенальти, которые произошли в это время.Единственное, что вы можете сделать, это запустить весь сезон видео и сделать коллекцию пенальти Тогда продолжайте смотреть. Почему эта штука кажется бесполезной?
Проведя анализ, мы обнаружили, что хорошая игра включает в себя не только какие-то события на площадке, но и включает в себя формирование целых тренеров, в том числе супер-магическую игру некоторых звездных игроков и некоторых команд и сборных, историю и обиды и т.д. Все событие вместе, будет более захватывающей игрой. Только футбольные события могут быть получены структурированными видео методами, а все остальное требует некоторых графов знаний и обработки естественного языка, Мы должны интегрировать многомерную информацию, чтобы получить полную вещь.
Поэтому мы переработали структуру пенальти и построили базу данных звездных лиц и карту знаний после очистки данных и объединения знаний о футболе, просканированных краулером. При обработке видео он не только обнаруживает события на корте, но и распознает людей на корте.Благодаря взаимным обращениям с базой данных звездных лиц и графом знаний будут получены некоторые исторические данные. После этого будет выполнено всестороннее отображение исторических данных и событий стадиона. Это эквивалентно многомерной информации. Эффект, которого может достичь наша вторая версия, заключается в следующем: когда Месси пробивает пенальти, он может показать, кто он, из какой он страны, сколько голов он забил до этого, а содержание всего демо можно отобразить в верхней части экрана. левый угол.Выглядит пухлым.
Благодаря нашей практике за последний год мы пришли к выводу, что отдельный контент может не удовлетворять фактические потребности видео, нам необходимо комбинировать разнообразный многомерный контент, включая знания, технологии, возможности, продукты и т. д., Go и упакуйте его, чтобы решить некоторые проблемы с видео в целом. Поэтому в нашей будущей архитектуре продукта мы добавим механизм обучения, а также наши различные механизмы распознавания, а также некоторые механизмы для нашего собственного видео. Только совместными усилиями он может стать лучшим видеопродуктом.
Мы всегда считали, что видео должно быть общей тенденцией в будущем. Однажды весь интеллектуальный анализ пойдет по пути видео. Мы надеемся, что продукты, созданные Qiniuyun в этой области, могут дать каждому лучший опыт работы с видео AI.