iQIYI Mask AI: Шквал проходит сквозь людей, а айдолы сидят в их сердцах

Google искусственный интеллект алгоритм продукт

Сердце машины Оригинал, автор: Цю Лулу.

Как специалисты в индустрии (псевдо) ИИ, друзья из редакции Zhixin считают, что они могут вручную идентифицировать «искусственный интеллект и искусственную умственную отсталость» с хорошей степенью уверенности. Однако, когда я выложил скриншот приложения iQiyi ниже перед всеми, «инструменты распознавания» в редакции заявили, что на этот раз уровень достоверности невысок.

«Голос Китая» с включенным заградительным щитом в портретной области.

В популярных видеороликах «шквал, закрывающий ваше лицо» — это почти неизбежное событие, однако в этом видео плотный шквал, похоже, создается аурой г-на Ли Цзяня и очень точно «обходит» его красивое лицо. Иногда случаются небольшие ошибки, но такие ошибки кажутся скорее алгоритмическими, чем человеческими.

немного промазал портретный щит

В академическом мире хорошо известен тот факт, что, хотя несколько гигантских исследовательских групп сообщили о «сверхчеловеческих» результатах в задаче обнаружения целей, задача сегментации изображения все еще, кажется, оставила исследователям много возможностей для улучшения. Опубликовано Google в феврале этого годаDeepLabv3+, На основе использования 300 миллионов фрагментов внутренних данных для предварительной подготовки были получены текущие лучшие результаты (по последнему слову техники) в наборе данных сегментации данных PASCAL VOC 2012 с IOU 89%. В наборе данных Cityscapes этот показатель составляет всего 82,1%.

Учитывая этот уровень исследований, доступны ли уже в отрасли методы сегментации изображений? «Сегментация лица и фона», которая выглядит очень впечатляюще в приложении iQiyi, основана на искусственном интеллекте или искусственном интеллекте? С кучей вопросов от всей редакции мы прошли весь путь, связались с Центром технологических продуктов iQIYI и поймали лидера алгоритмов проекта под названием «AI Barrage Mask», исследователя Центра технологических продуктов iQIYI Фэн Вэй. . Он дал нам очень подробные ответы.


Вопрос 1: Он разделен? Что такое разделение?

Прежде всего, нас больше всего волнует вопрос, является ли эта «маска заграждения» искусственным интеллектом или искусственным:

Это сегментация изображения? Да! Что это за сегментация изображения? Семантическая сегментация!

Точнее, это семантическая сегментация с двумя категориями: каждый пиксель изображения будет отнесен к категории «передний план» или категории «фон», а затем система сформирует соответствующий файл маски на основе результата сегментации.

Исходное изображение, результат сегментации (визуализация файла маски) и эффект маски

Алгоритм основан на модели Google DeePlabv3, и Техническая команда также пробовала другие модели сегментации, такие как FCN, но модель эффекта DeePlab действительно сделала прорывов.

Фэн Вэй также показал нам некоторые результаты классификации в развлекательных шоу и сценах фильмов и телевизионных драм.

V.QQ.com/small/afraid/в 135…(Новый китайский эффект рэп-маски)

V.QQ.com/small/afraid/my135…(Эффект маски залпового огня Yanxi Raiders)

Почему вы хотите использовать сегментацию изображения в качестве «маски заграждения»?

Технология сегментации изображений команды iQiyi долгое время была зарезервирована в качестве технического резерва, и первоначальное намерение состояло в том, чтобы заменить фон коротких видеороликов.

Так называемая замена фона заключается в вырезании портрета из короткого видео, записанного пользователем, и замене его другим фоном. Однако с технической точки зрения квалифицированный эффект сегментации одиночного изображения не означает, что эффект сегментации видео является квалифицированным: результат сегментации немного прерывистый в нескольких кадрах изображений до и после видео, что приведет к появлению края сегментация между кадрами постоянно дрожит, и такая сегментация несогласованна, что очень вредит пользовательскому опыту.

Итак, есть ли сценарии, требующие замены фона немного ниже? Да, например, исходный фон сохраняется, а динамический фон вставляется между исходным фоном и сегментированным портретным слоем. Таким образом, край сегментации и исходный фон остаются вместе, и ошибка становится менее заметной. Это также источник маски заграждения.

«После того, как технология готова, мы продемонстрировали наши различные возможности в различных бизнес-отделах, чтобы студенты, изучающие продукт, могли предложить много хороших идей», — сказал Фэн Вэй.

На самом деле модель глубокого обучения, используемая в маске экрана пули, — это не только сегментация, но и распознавание. Прежде чем сегментировать видео, «Модель распознавания сцены» сначала идентифицирует каждый кадр изображения, чтобы определить, является ли текущий кадр крупным планом или удаленным.

Цель этой задачи распознавания сцены состоит в том, чтобы определить, является ли изображение крупным планом или крупным планом.Такое изображение войдет в модель сегментации для создания маски, в то время как изображение дальнего действия не будет генерировать маску, и шквал покроет всю сцену, как и раньше. Таким образом, хорошо решается проблема дрожания маски между кадрами.

Дальний вид, который не нужно маскировать, и крупный план, который нужно маскировать

Стоит отметить, что этот классификатор распознавания сцен также является примером существующей технологии, которая была накоплена и повторно использована для другой сцены: раньше этот классификатор в основном использовался для таких функций, как интеллектуальная вспомогательная пост-обработка iQIYI.

После сегментации система будет дополнительно использовать алгоритмы морфологической обработки изображения, такие как «эрозия» и «расширение», для точной обрезки области переднего плана, выводимой модулем сегментации, и удаления области переднего плана с небольшой долей экрана в соответствии с потребностями. сценария приложения.

После этой серии обработки он вступает в производственный процесс создания и сжатия файла маски.

Блок-схема системы пуленепробиваемой маски iQIYI

Вопрос 2. Нужно ли вам самим маркировать данные? Сколько данных помечено?

Ответ нужен! Были отмечены тысячи.

Общие модели сегментации обучаются с помощью общих наборов данных, таких как MS COCO, и эффект очень общий при использовании непосредственно в сценах варьете.

"Переключение сцен и сценическое освещение — две распространенные модели сегментации, с которыми трудно работать. Поэтому мы выбрали десятки тысяч изображений типичных сцен, и команда по маркировке провела три недели до и после", — сказал Фэн Вэй.

Согласованность распределения обучающего набора и тестового набора также гарантирована: «Наша первая программа, которая запустила функцию маски заграждения, была «China New Rap Season 2», поэтому мы использовали «China New Rap No. 1» Season» и « Танцевальная труппа «Кровавая улица», созданная той же съемочной группой, что и тренировочные декорации.

Стоит отметить, что, поскольку система не нуждается в сегментации маски «тонко для волос», работа по маркировке также проще, чем маркировка общей семантической сегментации. Фэн Вэй показал некоторые дополнительные обучающие наборы. Например, «это не мне не нужно быть точным в пикселях, просто обведите часть символа прямой линией».

По сравнению с сегментацией в режиме просмотра улиц, тонкость требует гораздо меньшей сегментации людей.

После того, как общая модель семантической сегментации была полностью настроена с использованием специального набора данных, доля долговых обязательств увеличилась с 87,6% до 93,6%.

Вопрос 3: Как эффективность? быстрый? Это дорого?

На этапе вывода графический процессор разделяет 1-минутное видео, что занимает около нескольких минут, по-прежнему за время O(1).

В реальном производстве система часто сталкивается с более жесткими временными требованиями. «Производственная группа «China New Rap» предъявляет определенные требования к конфиденциальности. Например, программа будет запущена в 8 часов в субботу, и мы можем не получить фильм до 4 часов. Поэтому мы контролируем параллелизм производственных услуг через количество фрагментов видео, а в После того, как все сегменты завершены, бизнес-уровень уведомляется через очередь сообщений. Производство каждого сегмента имеет отдельный механизм мониторинга состояния и повторных попыток. В конце концов, система использует несколько GPU одновременно, и обработка 90-минутного видео занимает около 40 минут».

Команда также тестирует использование масок заграждения в сценариях в реальном времени, таких как прямые трансляции вечеринок.

Вопрос 4: Есть ли план «обновления»? Что еще вы можете сделать, кроме предотвращения «шквала, закрывающего ваше лицо»?

Прежде всего, есть также обновленная версия для предотвращения «шквала, закрывающего ваше лицо», например, переход от семантической сегментации к сегментации экземпляров, превращение «пуленепробиваемого экрана каждого» в «эксклюзивный антиблокирующий ореол вашего кумира».

Существует также несколько типов задач сегментации изображений.Семантическая сегментация требует, чтобы система классифицировала «людей» на всех изображениях в «категорию людей». Кроме того, существует «сегментация экземпляра» (instance segmentation), которая должна классифицировать разных людей по разным категориям, и «паноптическая сегментация» (panoptic segmentation), которая не упускает из виду фон.

Исходное изображение, семантическая сегментация, сегментация экземпляров и панорамная сегментация

Техническая команда iQIYI также работает над сегментацией экземпляров на основе MaskRCNN, дополненной долгосрочной функцией iQIYI: распознавание лиц знаменитостей, и пытается создать «эксклюзивную маску для фанатов».

"Например, если вам нравится У Ифань, то когда выйдут другие звезды, шквал по-прежнему будет блокировать их. Только когда выйдет У Ифань, шквал пройдет мимо него". . . .

Другой заключается в расширении границ категорий в семантической сегментации. Например, можно ли отделить пиксели в пределах фокусного расстояния линзы от пикселей за пределами фокусного расстояния линзы?

Эта идея также исходит из реальных потребностей: «В «Истории дворца Яньси» модель сегментации будет идентифицировать не только главного героя, занимающего основную позицию объектива, но и маленькую не в фокусе, полностью размытую маленькую, появляющуюся с главный герой в углу. Задняя часть евнуха также будет сегментирована. На самом деле, последняя часть не нужна, и это повлияет на пользовательский опыт». -фокус» и «не в фокусе» объектива, но поскольку в настоящее время нет модели для этого типа конкретной задачи сегментации, поэтому «часть с символами» используется как ссылка на «фокус». Те ситуации, которые не так хорошо представлены, все еще являются проблемой, которую необходимо решить.Разработка некоторых новых категорий сегментации может быть решением, но это не проблема, которую можно решить с помощью десятков тысяч точно настроенных данных.

Даже семантическая сегментация сама по себе может расширить множество различных сценариев применения, таких как распознавание товаров, что также очень полезно.

«Например, производитель мобильных телефонов спонсирует определенную программу, но не является спонсором нашей платформы. Нам нужно закодировать товарный знак или извлечь продукт и заменить его. Эта работа по-прежнему выполняется редактором вручную».

Кроме того, есть комбинация алгоритма отслеживания и алгоритма сегментации, ускорение модели и сжатие модели для мобильных терминалов и т. д. Похоже, график работы исследователей в Центре технологических продуктов был запланирован на 8102!

Когда я вернулся в редакцию и к своим друзьям, чтобы поговорить о практике iQIYI, у меня было одно общее: конечный продукт маски с экраном пули имеет очень хороший эффект: «Делай, что можешь».

Несмотря на то, что модель сегментации является лишь «малышом» с уровнем точности около 80%, если вы намеренно не «усложняете задачу», вам следует выбрать несколько простых сцен, которые не будут точно сегментированы до волос и не повлияют на качество изображения. Использование, дополненное серией инженерных разработок (например, использование модели распознавания для устранения сложных ситуаций в сцене и дальнейшая оптимизация эффекта сегментации с помощью графических методов), конечная система все еще может иметь хороший готовый продукт.

Хотя идея глубокого обучения является сквозной, проблема, с которой необходимо столкнуться, заключается в том, что реальность всегда сложнее, чем обучающая выборка.До того, как появилась модель «идти в небо за один шаг», процесс "ухода в небо" был похож на "засунуть слона в холодильник". Разбить его на три шага, получить годную версию и потом использовать итерационные методы для решения новых задач, хороший ли это выбор?