[ИИ в Meituan] Как реализовать интеллектуальный просмотр изображений на основе глубокого обучения?

задний план

Meituan создает миллионы изображений каждый день, и операторы несут ответственность за просмотр содержания соответствующих изображений и удаление изображений, которые связаны с юридическими рисками и не соответствуют правилам платформы. Из-за огромного количества изображений просмотр вручную занимает много времени и сил, а возможности просмотра ограничены. Кроме того, для разных аудиторов сложно унифицировать и изменять стандарты аудита в режиме реального времени. Поэтому необходимо осуществлять интеллектуальный аудит с помощью машин.

Интеллектуальный просмотр изображений обычно относится к использованию технологий, связанных с обработкой изображений и машинным обучением, для идентификации содержимого изображения, а затем для определения того, нарушает ли изображение правила. Интеллектуальный просмотр изображений направлен на создание службы автоматического просмотра изображений.Машина автоматически запрещает типы изображений, которые не соответствуют правилам (негативные примеры), автоматически пропускает типы изображений, которые соответствуют правилам (положительные примеры), и изображения, которые машина, в которой нет уверенности, передается на ручное рассмотрение. Следовательно, показателями для измерения эффективности интеллектуальной системы аудита в основном являются уровень точности и уровень автоматизации.

Обычная идея автоматической проверки состоит в том, чтобы исчерпывающе перечислить типы изображений, которые не соответствуют правилам (такие как изображения с водяными знаками, порнографические изображения, изображения жестокого террора, лица звезд, рекламные изображения и т. д.), а оставшиеся изображения автоматически пропускаются как положительные примеры. Проблема, вызванная этим, заключается в отсутствии масштабируемости для недавно добавленного незаконного контента, и автоматическая фильтрация должна ждать, пока будут построены все модели. Если мы сможем активно добывать изображения, соответствующие правилам (такие как обычные изображения персонажей, изображения, соответствующие сценам) для автоматического перехода, и комбинировать фильтрацию положительных примеров и фильтрацию отрицательных примеров, мы сможем быстрее сохранять ручное рассмотрение. Поэтому наша интеллектуальная система просмотра изображений разделена на модуль фильтрации негативных изображений и модуль фильтрации позитивных изображений.Изображение, которое необходимо просмотреть, сначала входит в модуль негативной фильтрации, чтобы определить, запрещено ли оно, а затем входит в модуль позитивной фильтрации, чтобы автоматически пройти . Остальные машины не определены. Изображения подлежат проверке человеком. Вся техническая схема представлена на рисунке 1.

Рисунок 1 Техническая схема интеллектуального аудита изображений

Обнаружение, классификация и распознавание задействованы как в модулях отрицательной, так и в положительной фильтрации, и предпочтительной технологией в этой области является глубокое обучение. Далее будет представлено применение глубокого обучения для интеллектуального просмотра изображений с помощью фильтрации водяных знаков, распознавания звездных лиц, обнаружения порнографических изображений и классификации сцен.

Обнаружение водяных знаков на основе глубокого обучения

В целях защиты авторских прав и поддержки оригинального контента необходимо автоматически определять наличие запрещенных водяных знаков (конкурентных водяных знаков, логотипов других продуктов) в изображениях, загружаемых продавцами или пользователями. В отличие от других целей, подобных твердому телу, водяные знаки обладают следующими характеристиками.

Есть много стилей. Существует более 20 типов основных запрещенных водяных знаков, используемых в автономном сборе, и каждый тип водяного знака имеет несколько стилей. В дополнение к этому, в Интернете существует большое количество неизвестных типов водяных знаков.
Тема переменчива. Положение водяного знака на изображении не является фиксированным и маленьким, основная часть имеет деформацию обрезки, и будет несколько перекрывающихся тел (несколько водяных знаков), как показано на рисунке 2.

Рисунок 2. Основной корпус сменный.

Фон сложный. Поскольку большинство популярных водяных знаков являются прозрачными или полупрозрачными, текстовый логотип в водяном знаке легко искажается сложным фоном, как показано на рис. 3.

Рисунок 3 Сложный фон

Традиционное обнаружение водяных знаков использует метод скользящего окна для извлечения блока изображения фиксированного размера и ввода его в предварительно обученную модель различения для получения категории блока. Таким образом, все позиции-кандидаты в изображении просматриваются, и может быть получена плотная карта оценок классов изображения. Блоки с оценками выше определенного порога рассматриваются как кандидаты на водяной знак, и окончательный результат может быть получен путем подавления без максимизации. Функции дискриминантной модели могут использовать статистические функции направления края, обычно используемые в области распознавания текста, или функции обучения с помощью CNN для повышения устойчивости к обрезке, деформации и сложному фону. Для дальнейшего повышения достоверности оценки может быть добавлена информация о прототипе типа, а сходство (косинус прилежащего угла) между признаком блока входного изображения и признаком центра кластера используется в качестве уверенность в признании. Однако эффективность обнаружения описанным выше методом чрезвычайно низка.Поскольку положение и размер водяного знака не фиксированы, изображения разного масштаба необходимо различать во всех положениях, что приводит к большому количеству избыточных окон.

Одной из идей является метод, направленный на уменьшение количества подокон в скользящем окне. Сначала создается ряд областей-кандидатов с помощью обучения без учителя / с учителем, а затем используется классификатор CNN, чтобы определить, содержит ли область цели и какой тип целей. Этот тип метода более типичен для серии R-CNN. Поскольку кадр-кандидат, полученный этим методом, может быть сопоставлен с разрешением исходного изображения, точность кадра позиционирования достаточно высока.

Другое решение — использовать метод регрессии непосредственно на карте признаков. Мы знаем, что для сверточного слоя сети CNN размер входного изображения может быть не фиксированным, но требуется, чтобы входной размер был согласованным с полносвязным слоем. Следовательно, когда изображение любого размера вводится в CNN до первого полносвязного слоя, карты признаков всех слоев могут быть получены только с одной прямой операцией. Тогда объектом регрессии является информация о положении и информация о категории цели, которую нужно обнаружить.Их можно регрессировать на картах объектов на разных уровнях в зависимости от размера цели.Этот тип метода представлен Yolo и SSD. Этот тип метода характеризуется лучшей производительностью в реальном времени при условии обеспечения высокой точности обнаружения.

На рис. 4 представлено сравнение производительности двух вышеупомянутых типов каркасов с лучшим традиционным методом DPM (модель деформируемой части):

Рис. 4. Оценка эффективности основных методов обнаружения целей на основе глубокого обучения.

Учитывая, что задача обнаружения водяных знаков не предъявляет высоких требований к точности кадра позиционирования и должна соответствовать пропускной способности в миллионы изображений в день, мы опираемся на фреймворк SSD и структуру сети Resnet. Что касается обучающих данных, мы вручную собрали в общей сложности 15 000 изображений с водяными знаками в 25 категориях и дополнили данные путем случайного кадрирования основного тела и синтеза переднего плана и фона.

Онлайн-данные тестируются на основе обученной модели. В качестве тестовой выборки случайным образом выбирают 3197 онлайн-картинок, из которых 2795 картинок не содержат водяных знаков, среди 402 картинок, содержащих водяные знаки, 302 картинки содержат водяные знаки, появившиеся в обучающей выборке, а остальные 100 картинок содержат ниши, не встречающиеся в обучающей выборке. тренировочный набор водяной знак. На основе этого набора тестов мы оцениваем традиционные методы (искусственно разработанные функции + распознавание скользящего окна) и методы, основанные на платформе SSD.

Как видно из рисунка 5, по сравнению с традиционными методами платформа SSD имеет очевидные преимущества как в полноте, так и в точности. Дальнейший анализ показал, что метод глубокого обучения напомнил 38 нишевых изображений водяных знаков, что показывает, что способность к обобщению признаков, изученная CNN, сильнее.

Рис. 5. Оценка эффективности обнаружения водяных знаков

Распознавание лиц знаменитостей

Чтобы избежать нарушения прав на портреты знаменитостей, сцена обзора должна определить, содержат ли изображения, загруженные пользователями/продавцами, портреты знаменитостей. Это типичное приложение для распознавания лиц, в частности сравнение лиц 1:(N+1). Весь процесс распознавания лиц включает в себя обнаружение лиц, обнаружение ключевых точек лица, коррекцию и нормализацию лица, извлечение черт лица и сравнение черт, как показано на рис. 6. Модель глубокой свертки — это модель распознавания, которую необходимо обучить извлечению признаков. Ниже мы представим технические решения для обнаружения и распознавания лиц соответственно.

Рис. 6. Процесс распознавания лиц знаменитостей

Распознавание лиц

Методы обнаружения лиц можно разделить на две категории: традиционные детекторы и детекторы на основе глубокого обучения. Традиционный детектор в основном основан на структуре VJ, а обнаружение реализуется путем разработки усиленной каскадной структуры и искусственных функций. Функции включают функции Harr, функции HOG и функции на основе сравнения пикселей (Pico, NPD) и т. д. Этот тип детектора имеет хороший эффект обнаружения и скорость работы в ограниченной среде, но для сложных сцен (освещение, экспрессия, окклюзия) искусственно созданные функции значительно уменьшат способность обнаружения. Чтобы повысить производительность, связанные исследования объединяют две задачи обнаружения лиц и определения местоположения ключевых точек лица для совместной оптимизации (JDA).Обнаружение ключевых точек используется в качестве важного критерия оценки для обнаружения лиц, но его точность нуждается в дальнейшем повышении. .

Существует три подхода к детекторам глубокого обучения. Первая категория — следовать структуре VJ, но заменить традиционные функции каскадной сетью CNN (Cascaded CNN). Вторая категория — это фреймворки, основанные на предложении региона и регрессии ограничивающей рамки (например, Faster R-CNN). Третья категория — это фреймворки, основанные на прямой регрессии полностью сверточных сетей (например, DenseBox).

Мы приняли фреймворк Faster R-CNN и улучшили его по следующим аспектам: трудно отделяемый негативный анализ (подавление негативных примеров, таких как человеческие статуи, портреты и аватары животных), многоуровневое слияние признаков, многомасштабное обучение и тестирование, слияние контекстной информации. Таким образом, он может лучше противостоять помехам, таким как сложный фон, человеческое лицо и окклюзия, и эффективно улучшать скорость обнаружения маленьких лиц и боковых лиц.

распознавание лица

Существует два основных подхода к распознаванию лиц. Один из них — напрямую преобразовать его в задачу классификации изображений.Каждая категория соответствует нескольким фотографиям человека.Более репрезентативными методами являются DeepFace, DeepID и т. д. Другой заключается в том, чтобы преобразовать распознавание в метрическую задачу обучения.Посредством изучения признаков разные фотографии одного и того же человека относительно близки, а фотографии разных людей относительно далеко друг от друга.Репрезентативные методы включают DeepID2, FaceNet и т. д.

Поскольку идентификатор, который должен быть идентифицирован в задаче, представляет собой полузакрытый набор, мы можем интегрировать идеи классификации изображений и метрического обучения для обучения модели. Учитывая, что потери триплетов (Triplet Loss) предъявляют высокие требования к алгоритму анализа отрицательных примеров, сходимость в реальном обучении очень медленная, поэтому мы используем Center Loss, чтобы минимизировать внутриклассовую дисперсию, и комбинируем Softmax Loss, чтобы максимизировать межклассовую дисперсию. дисперсия класса дисперсия. Чтобы сбалансировать эти две функции потерь, гиперпараметры необходимо выбирать экспериментальным путем. Мы используем сетевую структуру Inception-v3, которая в реальном обучении разделена на два этапа: первый этап использует Softmax Loss+C×CenterLoss и использует общедоступный набор данных CASIA-WebFace (включая 10 575 идентификаторов и 490 000 человек всего). изображение лица) для инициализации параметров сети и оптимизации гиперпараметра C. Согласно тесту, C = 0,01, на втором этапе принимается Softmax Loss + 0,01 × Center Loss, а в бизнес-данных (5200 идентификаторов звездных лиц и 1 миллион человек изображение) для точной настройки параметров сети.

Для дальнейшего повышения производительности была заимствована стратегия мультимодельной интеграции, принятая Baidu, как показано на рисунке 7. В частности, область лица делится на несколько областей в соответствии с положением ключевых точек лица, и модель признаков обучается отдельно для каждой области. В настоящее время область лица разделена на 9 областей плюс вся область лица, всего необходимо обучить 10 моделей.

Рис. 7. Распознавание лиц на основе ансамблевого обучения

На этапе тестирования для области лица, подлежащей проверке, и области лица-кандидата функции извлекаются на основе 10 областей, показанных на рисунке 7 соответственно. Затем для каждого региона вычислите сходство (косинусное расстояние) между двумя векторами признаков. Наконец, метод взвешивания подобия используется для определения того, принадлежат ли два лица одному и тому же человеку. В таблице 1 представлены результаты оценки основных методов набора данных LFW. Можно видеть, что модель Meituan достигла высокой степени точности при относительно ограниченных данных.

Таблица 1. Результаты оценки общедоступных наборов данных

Обнаружение порно изображений

Обнаружение порно изображений является важной частью интеллектуального просмотра изображений. Традиционные методы обнаружения определяют соответствие изображений по таким параметрам, как цвет кожи и поза. С развитием глубокого обучения существующая технология [модель Yahoo NSFW (не подходит для работы)] прямо определяет обнаружение порнографических изображений как проблему с двумя категориями (порно, нормальная) и выполняет сквозное обучение на массивных данных посредством сверточные нейронные сети.

Для обученной модели разные уровни изучают разные функции: некоторые уровни изучают особенности цвета кожи, другие изучают особенности контура деталей, а некоторые уровни изучают особенности позы. Однако из-за широкого диапазона человеческих определений порнографии, точки росы, сексуального намека, искусства и т. д. все они могут быть классифицированы как порнография, и в разных сценах или перед разными группами людей стандарты определения порнографии не могут быть унифицированы. Следовательно, изначально изученная модель имеет ограниченную способность к обобщению. Чтобы повысить точность прогнозирования машины, необходимо постоянно добавлять неправильно классифицированные образцы, чтобы машина могла изучать больше функций посредством постепенного обучения для исправления ошибок. В дополнение к этому, мы оптимизировали в следующих областях.

Уточнение модели. Наша классификационная модель уточняет степень эротичности изображений: порнографические, сексуальные, изображения обычных людей, другие классы. Среди них порнографические, сексуальные и нормальные изображения являются неразличимыми категориями, а остальные категории являются нормальными изображениями не-людей. Отделение категории «сексуальный» и категории «нормальный человек» от категории «порно» помогает улучшить способность модели различать порно. Как видно из таблицы 2, наша модель имеет явное преимущество в запоминаемости по сравнению с моделью Yahoo NSFW.

Таблица 2 Точность обнаружения порнографических изображений

Машинный обзор в сочетании с ручным обзором. В реальном бизнесе, из-за использования механизма раннего предупреждения для обнаружения порнографии, процесс машинного просмотра должен вызывать как можно больше всех подозрительных изображений, а затем сочетаться с соответствующим объемом ручного просмотра для повышения точности. Следовательно, бизнес-логика верхнего уровня разделит изображение на три части: «определенное желтое изображение», «определенное нежелтое изображение» и «предполагаемое» в соответствии с категорией предсказания модели и достоверностью. «Подозреваемая» часть сортируется в соответствии с уровнем достоверности сверху вниз и отправляется на проверку вручную. В онлайн-бизнесе точность «Определения желтого изображения» и «Определения нежелтого изображения» может достигать более 99%, в то время как «подозреваемая» часть составляет всего около 3% от общего объема изображения, так что под условие обеспечения высокоточной фильтрации Может сэкономить много рабочей силы.
Поддержка обзора видеоконтента. Для обзора короткого видеоконтента мы преобразуем его в обзор одного изображения путем извлечения ключевых кадров, а затем объединяем результаты распознавания нескольких кадров, чтобы сделать вывод.

классификация сцен

Как интернет-платформа, которая охватывает все аспекты еды, питья и игр, бизнес Meituan включает в себя множество вертикальных областей, как показано в таблице 3. Необходимо определить категорию операций или загруженных пользователем изображений, чтобы они соответствовали сфере деятельности продавца. Кроме того, чтобы дополнительно улучшить эффект отображения, необходимо классифицировать и организовать изображения в деловом альбоме, как показано на фиг.8.

Таблица 3. Категории первого уровня Meituan и доля изображений

Рис. 8. Классификация изображений в бизнес-альбоме

Глубокие сверточные нейронные сети превзошли скорость распознавания человеческого глаза в задачах, связанных с классификацией изображений (таких как ILSVRC), но, как типичный метод обучения с учителем, его требования к количеству и качеству помеченных образцов в конкретной области являются выдающимися. из. Для нашей задачи классификации сцен, если мы полностью полагаемся на рецензентов для просмотра и очистки изображений, это будет дорого. Поэтому необходимо доработать модель на основе трансферного обучения.

Трансферное обучение направлено на быстрое и эффективное улучшение выполнения целевой задачи за счет сохранения и использования знаний, полученных из одной или нескольких аналогичных задач, областей или распределений вероятностей. Перенос модели - это распространенный метод переноса в области обучения переносу, который реализует перенос путем изучения общих параметров модели исходного домена (исходного домена) и модели целевого домена (целевого домена). Поскольку глубокие нейронные сети имеют иерархическую структуру и их скрытые слои могут представлять абстрактные и инвариантные признаки, они хорошо подходят для переноса моделей.

Что касается глубоких сверточных нейронных сетей, обученных в исходной области, то нужно обратить внимание на то, какие слои параметров могут передаваться и как. Переносимость разных уровней различна, и уровень с более высоким сходством между целевым доменом и исходным доменом с большей вероятностью будет перенесен. В частности, признаки, изученные более мелкими сверточными слоями, являются более общими (такими как цвет изображения, края, основная текстура) и, следовательно, более подходят для передачи, а признаки, изученные более глубокими сверточными слоями, в большей степени зависят от задачи (например, детали изображения). ) и поэтому не подходит для миграции, как показано на рис. 9.

Рисунок 9. Иерархическая структура и описание функций глубокой сверточной нейронной сети.

Передача модели обучает другие уровни с данными из целевого домена, фиксируя параметры определенных слоев сети. Для нашей задачи классификации сцен мы сначала модифицируем выходной сетевой слой в соответствии с количеством категорий, которые необходимо классифицировать, а затем исправим более мелкие сверточные слои и обучим параметры сети для последних нескольких слоев на основе данных бизнес-аннотаций. Если доступно больше обучающих данных, параметры всей сети можно дополнительно настроить для дополнительного повышения производительности, как показано на рисунке 10. По сравнению с прямым извлечением высокоуровневых семантических характеристик изображений для обучения с учителем, поэтапная передача параметров более устойчива к различиям между исходной и целевой областями.

Рис. 10. Перенос модели на основе глубокой сверточной нейронной сети

Основываясь на приведенной выше стратегии трансферного обучения, мы провели связанные эксперименты по классификации графиков сцен с едой и графиков гостиничных номеров и достигли высокой точности распознавания на основе ограниченных (10 000 изображений) помеченных образцов. Таблица 4. Шоу.

Таблица 4 Классификация пищевых сцен

Как упоминалось выше, методы классификации и обнаружения изображений, основанные на глубоком обучении, заменяют традиционные методы машинного обучения в интеллектуальном просмотре изображений.На основе общедоступных моделей и трансфертного обучения реализуются бизнес-сценарии посредством непрерывного обучения массивных данных.

использованная литература

[1] Х. Чен, С. С. Цай, Г. Шрот, Д. М. Чен, Р. Гжещук и Б. Гирод, «Надежное обнаружение текста в естественных изображениях с максимально стабильными экстремальными областями с усиленными краями», ICIP 2011. [2] Z Zhong, LJin, SZhang, ZFeng «DeepText: унифицированная структура для генерации текстовых предложений и обнаружения текста в естественных изображениях», Архитектурная наука, 2015. [3] Minghui Liao, Baoguang Shi, Xiang Bai, Xinggang Wang, Wenyu Liu «TextBoxes: быстрый текстовый детектор с единой глубокой нейронной сетью», AAAI 2017. [4] Рен С., Хе К., Гиршик Р., Сан Дж. Фастер р-кнн, «На пути к обнаружению объектов в реальном времени с помощью сетей региональных предложений», NIPS 2015. [5] Грейвс А., Фернандес С., Гомес Ф. и Шмидхубер Дж. «Коннекционистская временная классификация: маркировка несегментированных данных последовательности с помощью рекуррентных нейронных сетей», ICML 2006. [6] Р. Гиршик, Дж. Донахью, Т. Даррелл, Дж. Малик, «Иерархии с широкими возможностями для точного обнаружения объектов и семантической сегментации», CVPR 2014. [7] Редмон Дж., Диввала С., Гиршик Р., Фархади А. «Вы смотрите только один раз: унифицированное обнаружение объектов в реальном времени», CVPR 2016. [8] В. Лю, Д. Ангелов, Д. Эрхан, К. Сегеди и С. Рид, «SSD: мультибоксовый однократный детектор», ECCV 2016. [9] «Обнаружение объектов с помощью дискриминационно обученных моделей на основе частей», TPAMI 2010. [10] Надежное обнаружение объектов в реальном времени, Пол Виола, Майкл Джонс, IJCV, 2004 г. [11] Н. Маркус, М. Фрляк, И. С. Панджич, Дж. Альберг и Р. Форххаймер, «Обнаружение объектов с помощью сравнения интенсивности пикселей, организованных в деревьях решений», CoRR 2014. [12] Шэнцай Ляо, Анил К. Джейн и Стэн З. Ли, «Быстрый и точный детектор лиц без ограничений», TPAMI 2015. [13] Донг Чен, Шаоцинжэнь, Цзянь Сунь, «Совместное каскадное обнаружение и выравнивание лиц», ECCV 2014. [14] Haoxiang Li, Zhe Lin, XiaohuiShen, Jonathan Brandt, Gang Hua, «Каскад сверточных нейронных сетей для распознавания лиц», CVPR.2015. [15] Личао Хуанг, Йи Ян, Яфэн Дэн, Йинань Ю. «DenseBox: объединение локализации ориентиров с обнаружением сквозных объектов», CVPR 2015. [16] Тайгман Ю., Ян М., Ранзато М. А. и др. Deepface: преодоление разрыва с производительностью на уровне человека при проверке лица, CVPR 2014. [17] Sun Y, Wang X, Tang X. Репрезентация лица для глубокого обучения на основе прогнозирования 10 000 классов, CVPR 2014. [18] Sun Y, Chen Y, Wang X и др. Глубокое обучение представлению лиц путем совместной идентификации и проверки, NIPS, 2014. [19] FaceNet: унифицированное встраивание для распознавания лиц и кластеризации, CVPR 2015. [20] Подход к обучению по отличительным признакам для глубокого распознавания лиц, ECCV 2016. [21] Переосмысление исходной архитектуры для компьютерного зрения, CVPR 2016. [22] Алекс Крижевский, Илья Суцкевер, Джеффри Э. Хинтон, «Классификация ImageNet с помощью глубоких сверточных нейронных сетей», 2014 г. [23] Мюррей Н., Марчесотти Л., Перроннин Ф. «Ava: крупномасштабная база данных для эстетического визуального анализа», CVPR 2012.

об авторе

Сяомин, руководитель отдела визуальных технологий в Центре интеллектуальных технологий Meituan Platform, работал в Исследовательском институте Canon и Научно-исследовательском институте Samsung. Он присоединился к Meituan в 2015 году и в основном занимается накоплением технологий, связанных с изображениями и видео, а также реализацией бизнеса.В качестве технического руководителя он руководил запуском таких проектов, как анализ изображений, выбор первого изображения, распознавание лиц. аутентификация и запись фотографий, что значительно увеличило количество пользователей и умный бизнес-опыт.

Предложения о работе

Центр интеллектуальных технологий Meituan Platform в полной мере использует преимущества искусственного интеллекта для поддержки нескольких направлений бизнеса Meituan Dianping и добился хороших результатов во многих областях, таких как интеллектуальные рекомендации, интеллектуальный маркетинг, интеллектуальная работа и интеллектуальный аудит. Долгосрочный набор студентов с опытом работы в области обработки естественного языка, компьютерного зрения, крупномасштабного машинного обучения, алгоритмов интеллектуального анализа данных или инженерии. Заинтересованные студенты могут отправить свои резюме по адресу: zhanghejia@meituan.com.