Применение глубокого обучения в OC

машинное обучение искусственный интеллект глубокое обучение Нейронные сети

задний план

Компьютерное зрение — это использование камер и компьютеров для замены человеческих глаз, чтобы у компьютеров были функции обнаружения, идентификации, понимания, отслеживания и распознавания решений, аналогичные человеческим. Взяв в качестве примера бизнес Meituan, применение компьютерного зрения будет задействовано в нескольких звеньях, таких как заказ у продавца, отображение группового заказа и оценка потребителя, включая распознавание текста, классификацию изображений, обнаружение объектов и оценку качества изображения. В этой статье будет представлено применение глубокого обучения в компьютерном зрении на примере OCR (оптического распознавания символов).

OCR на основе глубокого обучения

Текст является незаменимым источником визуальной информации. По сравнению с другим содержимым в изображениях/видео, текст часто содержит более сильную семантическую информацию, поэтому он имеет большое значение для извлечения и распознавания текста в изображениях. OCR в основном играет две роли в бизнесе Meituan. С одной стороны, это вспомогательный ввод, например, в ссылке мобильного платежа номер банковской карты фотографируется для осуществления автоматической привязки карты, а вспомогательная операция используется для ввода информации меню. квитанция может быть идентифицирована для реализации планирования и проверки, как показано на рисунке 1. С другой стороны, это проверка и проверка. Например, в процессе проверки квалификации продавца выполняется извлечение информации и проверка фотографий, удостоверяющих личность, бизнес-лицензий и лицензий на питание, загруженных продавцами, чтобы обеспечить законность продавца, и машина фильтрует заказы, размещаемые продавцами и пользователями Изображения, содержащие запрещенные слова, генерируются в процессе оценки.

Рис. 1. Процесс извлечения и распознавания текста в изображениях

История развития технологии OCR

Традиционное распознавание символов основано на обработке изображений (бинаризация, анализ связанных доменов, анализ проекций и т. д.) и статистическом машинном обучении (Adaboost, SVM) и за последние 20 лет показало хорошие результаты на печатных и отсканированных документах. Общий процесс традиционного решения OCR для печати показан на рисунке 2.

Рис. 2. Традиционное решение для оптического распознавания текста при печати

От входного изображения до результата распознавания он прошел три этапа: предварительная обработка изображения, извлечение строки текста и распознавание строки текста. Среди них соответствующие этапы извлечения строк текста (анализ макета, сегментация строк) будут включать большое количество предварительных правил, а распознавание строк текста в основном основано на традиционных методах машинного обучения. С популяризацией мобильных устройств извлечение и распознавание текста в захваченных изображениях стало основным требованием, а спрос на распознавание текста в сценах становится все более и более заметным. Поэтому, по сравнению с печатной сценой, распознавание сфотографированного текста столкнется со следующими тремя проблемами:

  • Образ сложный. Шум, размытие, световые изменения, деформация.
  • Текст сложный. Шрифт, размер шрифта, цвет, износ, ширина штриха и направление являются произвольными.
  • Сцена сложная. Отсутствует макет, фоновый шум.

Для решения вышеуказанных задач традиционные решения OCR имеют следующие недостатки:

  • Для создания текстовых строк с помощью анализа макета (анализ связанной области) и сегментации строк (анализ проекции) структура макета должна иметь четкую регулярность и четкое разделение лицевой и фоновой частей (например, черно-белые изображения документов, номерные знаки). и передний и задний план не могут быть обработаны Сложный произвольный текст (например, текст сцены, меню, текст объявления и т. д.). Кроме того, сама операция бинаризации предъявляет строгие требования к условиям формирования изображения и фону.
  • Модели распознавания символов обучаются с помощью искусственного проектирования характеристик направления краев (таких как гистограммы направленного градиента), и способность к обобщению такой отдельной функции быстро падает при изменении шрифта, размытии или нарушении фона.
  • Чрезмерная зависимость от результатов сегментации символов, распространение ошибок сегментации особенно заметно в случае искажения символов, залипания, шумовых помех.
  • Хотя модуль предварительной обработки изображения может эффективно улучшить качество входного изображения, объединение нескольких независимых модулей коррекции неизбежно приводит к распространению ошибок. Кроме того, поскольку цели оптимизации каждого модуля независимы, их нельзя интегрировать в единую структуру.

Для решения вышеупомянутых проблем известный уровень техники был улучшен в следующих трех аспектах.

1. Извлечение текстовой строки

В традиционном OCR (как показано на рис. 3) используется метод сегментации сверху вниз, но он подходит только для ситуации, когда фон правил компоновки прост. В этой области есть еще два типа мышления.

  • Восходящий генеративный подход. Этот тип метода извлекает области-кандидаты с помощью таких методов, как анализ связанной области или область максимального стабильного экстремального значения (MSER), а затем выполняет скрининг области с помощью текстовых/нетекстовых классификаторов, объединяет отфильтрованные области для создания текстовых строк, а затем выполняет текст. линии, уровень фильтрации, как показано на рисунке 3. Недостатком этого типа метода является то, что, с одной стороны, длительный процесс приводит к слишком большому количеству гиперпараметров, а с другой стороны, нельзя использовать глобальную информацию.

Рис. 3. Обнаружение текста по принципу «снизу вверх»
  • метод, основанный на скользящем окне. Этот тип метода использует идею общего обнаружения цели для извлечения информации о текстовой строке и использует обученный классификатор уровня текстовой строки/слова/символа для выполнения поиска по всему изображению. Первоначальный подход, основанный на скользящем окне, непосредственно выполняет многомасштабное сканирование окна на входных изображениях путем обучения бинарного детектора текста/фона. Детекторами могут быть традиционные модели машинного обучения (Adaboost, Random Ferns) или глубокие сверточные нейронные сети.

Чтобы повысить эффективность, такие методы, как DeepText и TextBoxes, сначала извлекают области-кандидаты, а затем выполняют регрессию и классификацию областей.В то же время эти методы могут выполнять сквозное обучение, но имеют низкий отзыв для текстовых областей с несколькими углами. и экстремальные соотношения сторон.

2. Традиционный механизм распознавания слов → механизм распознавания отдельных слов, основанный на глубоком обучении.

Поскольку обучение механизма распознавания отдельных слов представляет собой типичную задачу классификации изображений, а сверточная нейронная сеть имеет очевидные преимущества при описании высокоуровневой семантики изображения, основным методом является модель классификации изображений, основанная на сверточной нейронной сети. . Ключевым моментом на практике является то, как спроектировать структуру сети и синтезировать обучающие данные. Что касается сетевой структуры, мы можем изучить связанную сетевую структуру в области распознавания рукописного ввода или использовать сетевую структуру Maxout, которая добилась отличных результатов в области OCR, как показано на рисунке 4. При синтезе данных необходимо учитывать такие факторы, как шрифт, деформация, размытие, шум и изменения фона.

Рис. 4. Модель распознавания слов на основе структуры сверточной нейронной сети Maxout.

Таблица 1 показывает сравнение производительности между изучением признаков сверточной нейронной сети и традиционными признаками.Можно видеть, что способность распознавания признаков, полученная при обучении сверточной нейронной сети, сильнее.

Таблица 1. Сравнение производительности механизмов распознавания отдельных символов

3. Процесс распознавания строки текста

Традиционное OCR делит распознавание строк текста на два независимых шага: сегментация символов и распознавание отдельных символов.Хотя скорость распознавания символов может быть эффективно улучшена путем обучения механизма распознавания отдельных символов на основе сверточных нейронных сетей, сегментация не эффективна для залипания символов. размытие и деформированный корпус менее отказоустойчив, а ошибки сегментации неисправимы для распознавания. Следовательно, в этой структуре точность распознавания строк текста в основном ограничивается сегментацией символов. Если предположить, что уровень точности обученного механизма распознавания отдельных символов составляет p = 99%, а уровень точности сегментации символов равен q = 95%, то для текстовой строки длиной L средняя точность распознавания составляет L из P = (pq ) мощности, где L=10, P=54,1%.

Из-за ограниченного пространства для улучшения независимой оптимизации сегментации символов существуют связанные методы, которые пытаются совместно оптимизировать две задачи сегментации и распознавания. Существующие технологии можно в основном разделить на методы, основанные на сегментации (Segmentation-Based) и независимые от сегментации методы (Segmentation-Based). Бесплатно) два типа методов.

  • Подход на основе сегментации

Этот тип метода по-прежнему сохраняет этап активной сегментации, но вводит механизм динамического слияния для направления сегментации путем определения такой информации, как достоверность, как показано на рисунке 5.

Рисунок 5. Процесс динамической сегментации и распознавания на основе CNN

Модуль сверхсегментации делит строку текста на части, перпендикулярные базовой линии, так что каждая часть содержит не более одного символа. Как правило, модуль сверхсегментации разбивает символ на несколько последовательных штрихов. Для сверхсегментации может использоваться подход, основанный на правилах или машинном обучении. Метод правила в основном заключается в непосредственном выполнении анализа связанной области и проекционного анализа результата бинаризации изображения для определения положения потенциальной точки отсечения. Путем настройки параметров можно контролировать степень детализации, чтобы сделать символы как можно более обрезанными. Методы, основанные на правилах, просты в реализации, но плохо работают в сложных условиях визуализации/фона. Метод машинного обучения обучает двоичный классификатор, который определяет точки отсечки в автономном режиме, а затем выполняет обнаружение скользящего окна на изображениях строк текста на основе классификатора.

Модуль динамического слияния объединяет соседние штрихи в возможные области символов по результатам распознавания, а оптимальный метод объединения соответствует наилучшему пути сегментации и результату распознавания. Интуитивно поиск оптимальной комбинации можно преобразовать в задачу поиска пути, соответствующую двум стратегиям поиска: сначала в глубину и в ширину. Стратегия поиска в глубину выбирает расширение текущего оптимального состояния на каждом шаге, поэтому глобально она неоптимальна и не подходит для слишком длинных текстовых строк. Стратегия «сначала в ширину» одновременно расширяет несколько текущих состояний на каждом этапе, таких как декодирование Витерби и поиск луча, которые широко используются в распознавании речи. Но, учитывая производительность, Beam Search обычно вводит операции сокращения для управления длиной пути.Стратегия сокращения включает ограничение количества расширяемых состояний (например, расширение только состояния TopN на каждом шаге) и добавление ограничений состояния (например, , форма символов после слияния) Подождите.

Поскольку динамическое слияние будет генерировать несколько путей-кандидатов, для выбора пути необходимо разработать соответствующую функцию оценки. Разработка функции оценки в основном начинается с двух аспектов: потери структуры пути и оценки распознавания пути. Потеря структуры пути в основном измеряет рациональность пути сегментации с точки зрения особенностей формы символов, а показатель распознавания пути соответствует средней достоверности распознавания и оценке языковой модели одного слова в рамках определенного пути сегментации.

Эта схема пытается объединить сегментацию символов и распознавание отдельных символов в одной структуре, но, поскольку чрезмерная сегментация является независимым шагом, сквозное обучение по существу не достигается.

  • Метод, не зависящий от сегментации

Этот класс методов полностью охватывает сегментацию символов и напрямую распознает текстовые строки с помощью скользящего окна или моделирования последовательности.

Распознавание скользящего окна основано на идее обнаружения скользящего окна.На основе автономно обученного односимвольного механизма распознавания выполняется многомасштабное сканирование изображений строк текста слева направо, а распознавание выполняется по центру определенного окна. . При выборе пути для получения окончательного идентификационного пути можно использовать жадную стратегию или стратегию немаксимального подавления (NMS). На рис. 6 показана схема распознавания скользящего окна. Можно видеть, что при распознавании скользящего окна возникают две проблемы: если степень детализации размера скользящего шага слишком мала, вычислительные затраты высоки, а если степень детализации слишком груба, контекстная информация легко теряется. принята схема выбора пути, их уверенность в распознавании слов высока.

Рисунок 6: Обнаружение текста на основе скользящего окна

Последовательное обучение возникло в области распознавания рукописного ввода и распознавания речи, потому что общей чертой этих типов задач является необходимость моделирования данных временных рядов. Хотя изображение текстовой строки является двухмерным, если действие сканирования слева направо аналогично временному ряду, распознавание текстовой строки также может быть классифицировано как проблема такого рода по существу. Благодаря сквозному обучению промежуточные этапы, такие как исправление/сегментация/распознавание символов, отбрасываются, чтобы улучшить эффект последовательного обучения, которое стало основным направлением текущих исследований.

Основываясь на существующей технологии и сценариях OCR, задействованных в бизнесе Meituan, мы используем структуру глубокого обучения, показанную на рис. 7, для обнаружения текста и распознавания строк текста.

Рис. 7. Решение OCR на основе глубокого обучения

Конкретные решения двух частей обнаружения текста и распознавания строк текста будут представлены позже.

Обнаружение текста на основе глубокого обучения

Для сцены OCR Meituan изображения можно разделить на контролируемые сцены (например, удостоверения личности, бизнес-лицензии, банковские карты) и неконтролируемые сценарии (например, меню, изображения дверей), как показано на рисунке 8.

Рисунок 8: Контролируемые и неконтролируемые сценарии

Учитывая разные характеристики этих двух типов сценариев, мы используем разные схемы обнаружения. Поскольку многие ограничения текста контролируемой сцены могут упростить задачу, для обнаружения используется фреймворк Faster R-CNN, который широко используется в области общего обнаружения объектов. Для неконтролируемого текста сцены из-за несоответствия деформации и ширины штриха целевой контур не имеет хорошей замкнутой границы, поэтому нам необходимо использовать семантическую сегментацию изображения, чтобы отметить область текста и область фона.

1. Обнаружение текста в контролируемых сценах

Для контролируемых сценариев (например, удостоверений личности) мы превращаем обнаружение текста в проблемы обнаружения ключевых слов (например, имени, идентификационного номера, адреса) или ключевых элементов (например, номера банковской карты). Процесс обнаружения ключевых слов на основе Faster R-CNN показан на рисунке 9. Чтобы обеспечить точность позиционирования блока регрессии и повысить скорость работы, мы доработали исходную структуру и метод обучения.

  • Учитывая ограниченное разнообразие ключевых слов или ключевых записей внутри класса, структура сети использует только 3 сверточных слоя.
  • Поднимите порог перекрытия для положительных образцов во время обучения.
  • Соотношение сторон привязки слоя RPN адаптируется в соответствии с диапазоном соотношения сторон ключевого слова или ключевой записи.

Рис. 9. Решение OCR на основе Faster R-CNN

Структура Faster R-CNN состоит из двух подсетей: RPN (региональная сеть генерации предложений) и RCN (региональная сеть классификации). RPN извлекает области-кандидаты с помощью обучения с учителем и дает немаркированные области и грубые результаты локализации. RCN вводит понятие категории и одновременно выполняет классификацию и регрессию позиций регионов-кандидатов, обеспечивая точные результаты позиционирования. Две подсети совместно оптимизируются сквозным образом во время обучения. На рис. 10 в качестве примера взято распознавание номера банковской карты и показаны выходные данные уровня RPN и уровня RCN.

Рисунок 10. Определение номера банковской карты на основе Faster R-CNN

Для сцены, где человек держит сертификат, поскольку доля цели сертификата в изображении слишком мала, прямое извлечение небольших целей-кандидатов приведет к определенной потере точности позиционирования. Чтобы обеспечить высокий отзыв и высокую точность локализации, для обнаружения можно использовать стратегию от грубого к точному. Сначала найдите область, в которой находится карта, а затем выполните обнаружение ключевых слов в области карты, а также для определения регионального местоположения можно использовать структуру Faster R-CNN, как показано на рис. 11.

Рисунок 11. Стратегия обнаружения от грубого к точному
  1. Обнаружение текста для неконтролируемых сцен

Для неконтролируемых сцен, таких как меню и заголовки дверей, из-за разнонаправленности самой текстовой строки и большой вариации ширины штриха символов задача позиционирования текстовой строки в этой сцене очень сложна. Поскольку степень детализации локализации общего метода обнаружения объектов находится на уровне блока регрессии, этот метод подходит для объектов с хорошо закрытыми границами, таких как твердые тела. Тем не менее, текст часто состоит из серии свободных штрихов, особенно для текста с любым направлением или шириной штриха, только результат окна регрессии как результат позиционирования будет иметь большое отклонение. Кроме того, требования к обнаружению твердого тела относительно невелики: даже если будет обнаружена только часть объекта (например, степень перекрытия между результатом позиционирования и истинным значением составляет 50%), это не окажет существенного влияния на распознавание твердого тела, и такая ошибка позиционирования очень важна для распознавания текста, возможно фатальная.

Чтобы добиться достаточно точной локализации, мы используем полностью сверточную сеть (FCN), обычно используемую в семантической сегментации, для выполнения текстовых/фоновых аннотаций на уровне пикселей.Общий процесс показан на рисунке 12.

Рис. 12. Обнаружение текста на основе полностью сверточной сети

Многомасштабная полностью сверточная сеть реализует комбинацию глобальных и локальных признаков путем объединения результатов деконволюции нескольких этапов, а затем обеспечивает аннотацию на уровне пикселей от грубой до точной, что подходит для любой неконтролируемой сцены (шлюза). , изображение меню).

На основе аннотаций на уровне пикселей, полученных с помощью многомасштабной полностью сверточной сети, можно получить ряд связанных областей (информацию об штрихах) с помощью метода анализа связанных областей. Однако, поскольку невозможно определить, какие связанные домены принадлежат одной и той же текстовой строке, для извлечения текстовых строк необходима технология одноцепочечной кластеризации. Что касается метрик расстояния, участвующих в кластеризации, признаки в основном извлекаются из сходства расстояния, формы и цвета между связанными доменами, а веса признаков и пороговые значения получаются адаптивно посредством обучения метрик, как показано на рисунке 13.

Рис. 13 Семантическая сегментация изображения на основе полностью сверточной сети

На рис. 14 показан эффект локализации полностью сверточной сети в сценах меню и заголовка двери соответственно. Второй столбец — это результаты аннотации на уровне пикселей полностью сверточной сети, а третий столбец — окончательный результат обнаружения текста. Видно, что полностью сверточная сеть лучше справляется со сложной компоновкой или позиционированием текста под разными углами.

Рис. 14. Результаты определения местоположения текста на основе FCN

Распознавание текста на основе последовательного обучения

Мы сводим задачу распознавания текста целиком к задаче обучения последовательности. Рекуррентная нейронная сеть, основанная на двунаправленной долговременной кратковременной памяти (BLSTM), используется в качестве обучающего модуля для эффективного моделирования внутренних взаимосвязей последовательности. Чтобы ввести более эффективные входные функции, мы используем модель сверточной нейронной сети для извлечения функций для описания высокоуровневой семантики изображений. Кроме того, при разработке функции потерь, учитывая, что выходная последовательность не может быть выровнена с последовательностью входных признаковых кадров, мы напрямую используем структурированную потерю (потеря от последовательности к последовательности) и вводим категорию фона (пусто) для поглотить путаницу смежных секс символов.

Общая структура сети разделена на три уровня: сверточный уровень, рекуррентный уровень и уровень трансляции, как показано на рисунке 15. Среди них сверточный слой извлекает признаки; рекурсивный слой изучает не только взаимосвязь последовательностей признаков в последовательности признаков, но и взаимосвязь последовательностей знаков; слой перевода реализует декодирование результатов классификации временных рядов.

Рис. 15 Сквозная структура распознавания, основанная на последовательном обучении

Для входного изображения фиксированной высоты h0 = 36 (с произвольной шириной, такой как W0 = 248) мы извлекаем признаки через структуру сети CNN, чтобы получить карту признаков 9 × 62 × 128, которую можно рассматривать как временной ряд длиной 62 входа в слой RNN. Слой RNN имеет 400 скрытых узлов, и вход каждого скрытого узла — это функция размером 9×128, которая является описанием локальной области изображения. Учитывая, что область изображения, соответствующая признаку в определенный момент, имеет сильную корреляцию с его содержимым до и после, мы обычно используем двунаправленную сеть RNN, как показано на рисунке 16.

Рис. 16 Двунаправленная последовательность RNN

За двунаправленной RNN следует полносвязный слой, вход — это карта объектов, выводимая слоем RNN (в определенный момент), а выход — вероятность того, что позиция — это фон и текст в алфавите. За полносвязным слоем следует CTC (Connectionist Temporal Classifier) ​​в качестве функции потерь. В процессе обучения по распределению вероятностей текста и фона, соответствующих каждому моменту, получается вероятность P(наземная правда) появления строки истинного значения на изображении, а -log(P(наземная правда)) используется как функция потерь. При тестировании CTC можно рассматривать как декодер, который объединяет результаты предсказания каждого момента (символы, соответствующие максимальной апостериорной вероятности текущего момента), а затем удаляет пустые и повторяющиеся шаблоны для формирования окончательного результата предсказания последовательности. показано на рисунке 17.

Рисунок 17 Процесс декодирования CTC

Из рисунка 17 также видно, что для каждого символа во входной последовательности выходной слой LSTM создает отчетливый пик, хотя пик не обязательно соответствует центру символа. Другими словами, после внедрения механизма CTC нам не нужно учитывать конкретное расположение каждого символа, а только сосредоточиться на текстовом содержании, соответствующем всей последовательности изображений, и, наконец, добиться сквозного обучения и прогнозирования. глубокого обучения.

Поскольку структура обучения последовательности предъявляет высокие требования к количеству и распределению обучающих выборок, мы принимаем метод реальных выборок + синтетические выборки. Реальные образцы в основном основаны на бизнес-источниках Meituan (например, меню, удостоверения личности, бизнес-лицензии), в то время как синтетические образцы учитывают такие факторы, как шрифты, деформация, размытие, шум, фон и т. д.

Основываясь на приведенной выше структуре обучения последовательности, мы представляем результаты распознавания строк текста в различных сценариях, как показано на рисунке 18. Картинки в первых двух строках — сцена кода подтверждения, третья строка — банковская карта, четвертая строка — квалификационный сертификат, пятая строка — изображение двери, шестая строка — меню. Видно, что модель распознавания имеет хорошую устойчивость к деформации текста, налипанию, размытию изображения, изменениям освещения и сложному фону.

Рис. 18. Результаты распознавания строки текста

На основе приведенных выше экспериментов по сравнению с традиционным оптическим распознаванием мы значительно улучшили производительность распознавания текста в различных сценариях, как показано на рисунке 19.

Рис. 19. Сравнение эффективности традиционного оптического распознавания символов и оптического распознавания символов с глубоким обучением

По сравнению с традиционным OCR, OCR, основанный на глубоком обучении, значительно улучшил скорость распознавания. Однако для конкретных сценариев приложений (бизнес-лицензии, меню, банковские карты и т. д.) точность ввода все же нуждается в повышении. С одной стороны, необходимо интегрировать обнаружение текста на основе глубокого обучения и традиционную технологию анализа макета, чтобы еще больше повысить эффективность обнаружения в ограниченных сценариях. С другой стороны, необходимо обогащать реальные обучающие выборки и языковые модели для повышения точности распознавания текста.

использованная литература

[1] Х. Чен, С. С. Цай, Г. Шрот, Д. М. Чен, Р. Гжещук и Б. Гирод, «Надежное обнаружение текста в естественных изображениях с максимально стабильными экстремальными областями с усиленными краями», ICIP 2011.

[2] Z Zhong, LJin, SZhang, ZFeng «DeepText: унифицированная структура для генерации текстовых предложений и обнаружения текста в естественных изображениях», Архитектурная наука, 2015.

[3] Minghui Liao, B Aoguangshi, ξpress GB love, xing Gang Wang, wen и L IU, «TextBox ES: быстрый детектор текста с одной глубокой нейронной сетью», AA AI 2017.

[4] Рен С., Хе К., Гиршик Р., Сан Дж. Фастер р-кнн, «На пути к обнаружению объектов в реальном времени с помощью сетей региональных предложений», NIPS 2015. [5] Грейвс А., Фернандес С., Гомес Ф. и Шмидхубер Дж. «Коннекционистская временная классификация: маркировка несегментированных данных последовательности с помощью рекуррентных нейронных сетей», ICML 2006.

[6] Р. Гиршик, Дж. Донахью, Т. Даррелл, Дж. Малик, «Иерархии с широкими возможностями для точного обнаружения объектов и семантической сегментации», CVPR 2014.

[7] Редмон Дж., Диввала С., Гиршик Р., Фархади А. «Вы смотрите только один раз: унифицированное обнаружение объектов в реальном времени», CVPR 2016.

[8] В. Лю, Д. Ангелов, Д. Эрхан, К. Сегеди и С. Рид, «SSD: мультибоксовый однократный детектор», ECCV 2016.

[9] «Обнаружение объектов с помощью дискриминационно обученных моделей на основе частей», TPAMI 2010.

[10] Robust Real-time Object Detection. Paul Viola, Michael Jones. IJCV 2004.

[11] Н. Маркус, М. Фрляк, И. С. Панджич, Дж. Альберг и Р. Форххаймер, «Обнаружение объектов с помощью сравнения интенсивности пикселей, организованных в деревьях решений», CoRR 2014.

[12] Шэнцай Ляо, Анил К. Джейн и Стэн З. Ли, «Быстрый и точный детектор лиц без ограничений», TPAMI 2015.

[13] Донг Чен, Шаоцинжэнь, Цзянь Сунь, «Совместное каскадное обнаружение и выравнивание лиц», ECCV 2014.

[14] Х. Сянгли, З. и Лин, ξ сожаление, С., Джонатан Брандт, банда Ху А. «Каскад сверточных нейронных сетей для распознавания лиц», CV PR.2015.

[15] Ли Ичао Хуан, Йи Ян, Я Фэн Денг, Инь Ани У. «Плотная коробка: объединение локализации ориентиров с обнаружением сквозных объектов» CV PR 2015.

[16] Taigman Y, Yang M, Ranzato M A, et al. Deepface: Closing the gap to human-level performance in face verification.CVPR 2014.

[17] Sun Y, Wang X, Tang X. Deep learning face representation from predicting 10,000 classes.CVPR 2014.

[18] Sun Y, Chen Y, Wang X, et al. Deep learning face representation by joint identification-verification.NIPS. 2014.

[19] FaceNet: A Unified Embedding for Face Recognition and Clustering. CVPR 2015.

[20] A Discriminative Feature Learning Approach for Deep Face Recognition. ECCV 2016.

[21] Rethinking the Inception Architecture for Computer Vision. CVPR 2016.

[22] Алекс Крижевский, Илья Суцкевер, Джеффри Э. Хинтон, «Классификация ImageNet с помощью глубоких сверточных нейронных сетей», 2014 г.

[23] Мюррей Н., Марчесотти Л., Перроннин Ф. «Ava: крупномасштабная база данных для эстетического визуального анализа», CVPR 2012.

Профиль команды

Команда алгоритмов Meituan Dianping является «мозгом» всей технической группы Meituan Dianping, занимающейся поиском, рекомендацией, рекламой, интеллектуальным планированием, обработкой естественного языка, компьютерным зрением, робототехникой и технологиями без водителя. Помогая сотням миллионов активных пользователей Meituan Dianping улучшить пользовательский опыт, а также помогая миллионам продавцов в более чем 200 категориях, таких как рестораны, отели, брак, красота, родитель-ребенок и т. д., повысить эффективность работы. В настоящее время команда алгоритмов Meituan Dianping активно изучает и исследует области искусственного интеллекта, постоянно внедряет инновации и практикует, а также стремится применять самые передовые технологии, чтобы повысить качество обслуживания потребителей рекламы.