Выпуск обновления PaddleVideo: алгоритм Dinghui полностью открыт!

открытый источник алгоритм
Выпуск обновления PaddleVideo: алгоритм Dinghui полностью открыт!

图片

Полный текст 5352 слова, расчетное время чтения 14 минут.

С быстрым развитием коротких видеороликов и растущим спросом на управление безопасностью соответствующие технологические приложения в области видео включают интеллектуальную маркировку видео, интеллектуальный коучинг, интеллектуальное редактирование, интеллектуальное управление безопасностью, поиск текстового видео, извлечение основных моментов видео и интеллектуальную обложку видео. стать важной частью жизни людей.

Взяв в качестве примера бизнес, связанный с видео, веб-сайты с короткими видео надеются быстро пометить каждую новую работу и донести ее до соответствующих пользователей, редакторы надеются легко извлечь лучшие моменты из видео игр, а тренеры надеются систематически анализировать движения спортсменов и вести техническую статистику. и анализ.Отдел управления безопасностью также надеется точно просматривать видеоконтент, например, выявлять нарушения в режиме реального времени.Редакторы надеются извлекать соответствующие видеоклипы через текст в качестве новостных материалов, а рекламные или рекомендательные веб-сайты надеются создавать более красивые видео для видео. Обложки повышают конверсию. Эти предприятия представляют собой серьезную проблему для традиционных методов ручной обработки.

Понимание видео позволяет машинам понимать видеоконтент с помощью технологии ИИ.Теперь он имеет широкий спектр приложений и исследовательскую ценность в коротких видео, рекомендациях, поиске, рекламе, управлении безопасностью и других областях, таких как позиционирование и распознавание действий, тегирование видео, поиск текста и видео, видео. Такие задачи, как анализ контента, могут решаться с помощью методов понимания видео.

PaddleVideo — это разработанная Baidu платформа для глубокого обучения с открытым исходным кодом и открытой платформой промышленного уровня Paddle Video. Он включает в себя множество модельных алгоритмов и промышленных примеров в области видео. Основные точки обновления этого открытого исходного кода:

  • Опубликовано 10 примеров применения на промышленном уровне в области видео, охватывающих спорт, Интернет, медицину, средства массовой информации и безопасность.

  • Алгоритмы 5 чемпионов / лучших встреч / промышленного уровня с открытым исходным кодом впервые, включая изучение видеотекста, сегментацию видео, оценку глубины, поиск видеотекста, распознавание действий / классификацию видео и другие технические направления.

  • Существует множество документов и учебных пособий, а также живые курсы и группы общения пользователей, где вы можете обсуждать и общаться со старшими инженерами отдела исследований и разработок Baidu.

1. 10 лучших приложений для видеосценариев — описание инструмента

Paddle Paddlevideo основан на таких сценах, как футбол / баскетбол / настольный теннис / фигурное катание, универсальная структура распознавания спортивных действий с открытым исходным кодом; открытый исходный код, основанный на многорежимных классификационных тегах с расширенными знаниями для интернет-сцен и медиа-сцен, интеллектуальное редактирование и разделение видео. и т. д., которые открывают множество случаев распознавания обнаружения для сцен безопасности, образования, медицины и других. Baidu Smart Cloud в сочетании со средней технологией обучения также сформировала серию многосценовой динамической идентификации с глубинным шлифованием промышленного уровня, анализа видеоданных, а также производственного и медицинского анализа.

1. Футбольная сцена:

FootballAction с открытым исходным кодом представляет интеллектуальное решение для редактирования

FootballAction получается на основе комбинации модели распознавания поведения PP-TSM, модели локализации видеодействия BMN и модели последовательности AttentionLSTM, которые могут не только точно идентифицировать тип действия, но также точно определять время начала и окончания действия. В настоящее время можно распознать 8 категорий действий, в том числе: фон, гол, угловой удар, штрафной удар, желтая карточка, красная карточка, замена и вбрасывание. Точность составляет более 90%.

图片

2. Баскетбольная сцена:

BasketballAction с открытым исходным кодом представляет интеллектуальное решение для редактирования

Общая структура баскетбольного кейса BasketballAction аналогична FootballAction, который включает в себя 7 категорий действий: фон, гол-трехочковый, гол-двухочковый, гол-данк, штрафной бросок, спорный мяч. Точность составляет более 90%.

图片

3. Сцена настольного тенниса:

Модель классификации действий, обученная на крупномасштабных данных с открытым исходным кодом

На Baidu Create 2021 (Конференция разработчиков искусственного интеллекта Baidu) PaddleVideo и Пекинский университет совместно представили модель распознавания действий в настольном теннисе и создали стандартный набор обучающих данных на основе более 500 G игровых видеороликов с метками, охватывающими подачу, подтягивание, замах и т. д. , 8 категорий действий. Среди них уровень точности начального и конечного раундов достиг более 97%, а распознавание действий также достигло более 80%.

图片

4. Распознавание действий в фигурном катании

Алгоритм оценки позы используется для извлечения данных точек соединения, и, наконец, данные точек соединения вводятся в модель ST-GCN сверточной сети пространственно-временного графа для классификации действий, которая может реализовать классификацию 30 видов действий. Flying Paddle и CCF (Китайская компьютерная федерация) провели соревнование по признанию фигурного катания, в котором приняли участие более 3800 участников из университетов 300 и компаний 200. Схема чемпиона улучшила точность базовой схемы на 12 пунктов, а схема топ-3 конкурс был открытым исходным кодом.

图片 图片

5. Маркировка видео с расширенными знаниями для крупномасштабной/мультимодальной классификации

В направлении анализа видеоконтента Feipao открыто поставили основную видеозапись и мультимодальный мультимодальвидеотаг. Videotag поддерживает 3000 практичных тегов, полученных из промышленной практики, имеет хорошую способность обобщения, и очень подходит для применения крупномасштабных коротких сценариев классификации видео в Китае, а курс точности тегов достигает 89%.

Модель MultimodalVideoTag, основанная на данных реальных коротких видеосервисов, объединяет три модальности текста, видеоизображений и аудио для классификации мультимодальных тегов видео. По сравнению с чистыми функциями видеоизображения она может значительно улучшить эффект высокоуровневой семантической маркировки. Модель обеспечивает 25 первичных меток, более 200 вторичных меток, а уровень точности меток превышает 85%.

图片 图片

6. Интеллектуальное производство видеоконтента

В направлении интеллектуального видеопроизводства основной целью является помощь создателям контента во вторичном редактировании видео. Flying Paddle открыла модель анализа качества видео, основанную на PP-TSM, которая может реализовать два производственных прикладных решения: разделку новостного видео и смарт-обложку видео.Разделка новостей является важным источником материалов для редакторов в индустрии радио- и телемедиа. Умные обложки играют важную роль в рейтинге кликов и рекомендательном эффекте в пан-интернет-отраслях, таких как прямые трансляции и взаимные развлечения.

图片

7. Инструмент для создания интерактивных видеоаннотаций с открытым исходным кодом

Flying Paddle имеет открытый инструмент интерактивной сегментации видео (интерактивный VOS), основанный на MA-Net, который обеспечивает небольшое количество сигналов ручного контроля для достижения лучших результатов сегментации.Он может завершить полную аннотацию видео, пометив только несколько кадров, а затем его можно использовать несколько раз.Взаимодействуйте с видео, чтобы постоянно улучшать качество сегментации видео, пока вы не будете удовлетворены качеством сегментации.

图片

8. Реализовать 87 типов распознавания общего поведения на основе единой модели обнаружения пространственно-временных действий.

Основываясь на пространственно-временной модели обнаружения движения, Flying Paddle реализует схему распознавания различных видов человеческого поведения.Он использует многокадровую видеоинформацию о времени для решения проблемы низкой производительности традиционного однокадрового обнаружения.От обработки данных, обучения модели, тестирования модели. чтобы смоделировать вывод, данные AVA могут быть реализованы.Сосредоточьтесь на выявлении 80 действий и 7 самостоятельно разработанных аномальных поведений (раскачивание, борьба, пинки, погоня, спор, быстрый бег и падение). Эффект модели намного превосходит схему обнаружения целей.

图片‍‍‍‍ 图片

9. Обнаружение дронов

Обнаружение БПЛА в бесполетных зонах имеет следующие проблемы:

(1) Цели БПЛА малы и их трудно наблюдать.

(2) Скорость движения дрона можно изменить.

(3) Среда полета дронов сложна и может быть заблокирована зданиями и деревьями.

В ответ на вышеуказанные проблемы Feipao открыл исходный код модели обнаружения БПЛА, чтобы реализовать обнаружение БПЛА во многих сложных условиях.

图片 图片

10. Классификация и идентификация медицинских изображений

Основываясь на общедоступной базе данных 3D-МРТ-изображений мозга, Вторая дочерняя больница Медицинской школы Чжэцзянского университета и Исследовательский институт Baidu открыли исходный код проекта классификации и идентификации 3D-МРТ-изображений Паркинсона.Наборы данных включают neurocon, taowu, PPMI и OASIS. -1, Набор данных включает в себя в общей сложности 378 случаев пациентов с болезнью Паркинсона (PD) и нормальных (Con). Предоставляет базовые 2D- и 3D-модели и 4 модели классификации, а также предварительно обученные модели для 3D-МРТ-изображений мозга. Среди них PP-TSN и PP-TSM достигли точности более 91% и AUC более 97,5%, в то время как TimeSformer достиг наивысшей точности более 92,3%.

图片

2. Пятерка чемпионов и алгоритм встреч лучших — открытый исходный код

Baidu Research Institute — первый чемпион по самоисследованию с открытым исходным кодом и лучший алгоритм

1. Лучшие доклады конференции CVPR 2020:

Мультимодальная модель предварительной подготовки ActBERT впервые находится в открытом доступе

ActBERT — это мультимодальная предварительно обученная модель, которая объединяет видео, изображения и текст, в которой используется новый модуль кодирования запутанности для мультимодального обучения признаков из трех источников для улучшения интерактивной функции между двумя визуальными входами и языком. Модуль кодирования запутывания, руководствуясь глобальной информацией о действии, вводит визуальную информацию в языковую модель и интегрирует языковую информацию в визуальную модель. Запутанный кодировщик динамически выбирает соответствующий контекст, чтобы облегчить предсказание объекта. В двух словах, кодировщики запутывания используют информацию о действиях, чтобы катализировать корреляцию локальных областей со словами. ActBERT значительно превосходит другие методы по 5 нижестоящим задачам, включая поиск текстового видео, описание видео и видеоответы на вопросы. В таблице ниже показана производительность модели ActBERT в наборе данных извлечения текстового видео MSR-VTT.

图片

2. Лучшие доклады конференции CVPR 2021:

Первая модель поиска текстового видео с открытым исходным кодом T2VLAD

В связи с популярностью различных видеороликов в Интернете, особенно коротких видеороликов, в последнее время поиск текстового видео привлек широкое внимание академических кругов и промышленности. Особенно после введения мультимодальной видеоинформации стало серьезной проблемой то, как точно регистрировать локальные функции видео и функции естественного языка. T2VLAD использует эффективный метод глобального и локального выравнивания для автоматического определения семантического центра, общего для текстовой и видеоинформации, и сопоставляет локальные функции после кластеризации, что позволяет избежать сложных вычислений и дает модели более точное понимание языка и возможностей локальной информации видео.

Кроме того, T2VLAD напрямую отображает мультимодальную видеоинформацию (звук, действие, сцена, речь, OCR, лицо и т. д.) в одно и то же пространство, использует тот же набор семантических центров для кластеризации слияния и вычисляет характеристики видео и текста. одного и того же центра. В определенной степени это решает проблему сложности комплексного использования мультимодальной информации. T2VLAD обеспечивает превосходную производительность на всех трех стандартных наборах данных для поиска текста и видео.

图片

3. Модель сегментации видео CVPR2020 MA-Net впервые имеет открытый исходный код.

Сегментация видеообъектов (VOS) является фундаментальной задачей в области компьютерного зрения и имеет множество важных сценариев применения, таких как редактирование видео, понимание сцены и автономное вождение. При сегментации цели интерактивного видео пользователь просто помечает целевой объект в определенном кадре видео (например, рисует несколько простых линий на целевом объекте), а результат сегментации целевого объекта во всем видео можно получить с помощью алгоритм.Качество сегментации видео можно постоянно улучшать, взаимодействуя с видео несколько раз, пока пользователь не будет удовлетворен качеством сегментации.

Поскольку сегментация интерактивного видео требует, чтобы пользователи взаимодействовали с видео несколько раз, необходимо учитывать своевременность и точность алгоритма. MA-Net использует единую структуру взаимодействия и распространения для генерации результатов сегментации, что обеспечивает своевременность алгоритма. Кроме того, MA-Net хранит и обновляет информацию о нескольких раундах взаимодействия с пользователем в памяти, что повышает точность сегментации видео. В таблице ниже показана производительность модели в наборе данных DAVIS2017.

图片

4. В первом международном соревновании по сегментации видео с открытым исходным кодом ECCV 2020 Spotlight CFBI, международном соревновании по сегментации видеоцелей CVPR2021 решение, основанное на дизайне CFBI, выиграло чемпионат в двух задачах.

В области сегментации видеообъектов в этом году большое внимание уделялось полуконтролируемой области. Учитывая калибровку объекта в первом кадре или несколько эталонных кадров в видео, полууправляемые методы должны точно отслеживать и сегментировать маску целевого объекта на протяжении всего видео. Предыдущие методы сегментации видеообъектов фокусировались на извлечении надежных признаков для данного объекта переднего плана, но это очень сложно в сложных сценах, таких как окклюзия, изменение масштаба и наличие подобных объектов на заднем плане. Исходя из этого, мы пересматриваем важность особенностей фона и предлагаем метод сегментации видеообъектов с интегрированным передним планом и фоном (CFBI).

CFBI одновременно извлекает черты переднего и заднего планов цели в двойной форме и улучшает контраст между передними и задними чертами с помощью метода неявного обучения для повышения точности сегментации. На основе CFBI мы дополнительно внедряем стратегии многомасштабного сопоставления и сопоставления отверстий в видеообъектах и ​​разрабатываем более надежную и эффективную структуру CFBI+.

Серия методов CFBI является рекордсменом по высочайшей точности одной модели в области сегментации видеообъектов. В частности, производительность одной модели Baidu Research превосходит результаты команды Megvii-Tsinghua, объединившей три мощные модели в международном соревновании по сегментации видеообъектов CVPR2020. В только что завершившемся в этом году международном соревновании по сегментации видеообъектов CVPR2021 решение, основанное на дизайне CFBI, выиграло первенство в двух задачах. В таблице ниже показана производительность модели CFBI в наборе данных DAVIS-2017.

图片

5. ICCV 2021 Неконтролируемая монокулярная модель оценки глубины впервые добавляет открытый исходный код

ADDS — это монокулярная модель оценки глубины с самоконтролем, основанная на дневных и ночных изображениях, в которой используется взаимодополняющий характер данных дневных и ночных изображений для смягчения значительного сдвига области дневных и ночных изображений и влияния изменений освещения на точность. оценки глубины. , достигает самых современных результатов оценки глубины для изображений в течение всего дня на сложном наборе данных Oxford RobotCar. В таблице ниже показаны тестовые характеристики модели ADDS для дневных и ночных наборов данных.

图片

Если вы полны галантереи, лучше принять меры.Вы можете перейти прямо на адрес Github, чтобы получить полный код проекта с открытым исходным кодом.Не забудьте поддержать коллекцию Star:

GitHub.com/paddle pad DL…

---------- END ----------

Байду Гик говорит

Официальный технический общедоступный аккаунт Baidu доступен онлайн!

Технические галантереи · Отраслевая информация · Интернет-салон · Отраслевая конференция

Информация о найме · Внутренняя информация · Технические книги · Периферийные устройства Baidu