1. Предпосылки
Технология распознавания лиц заключается в автоматическом возврате координат положения и размера лица на снимке с помощью анализа искусственного интеллекта, анализа атрибутов лица (оценка возраста, распознавание пола, оценка лица и распознавание выражения), аватара лица, интеллектуальное видеонаблюдение, распознавание лица фильтрация изображений, интеллектуальная обрезка изображений, игры с дополненной реальностью для лица и т. д. Из-за различных сцен съемки естественная среда сцены сложна и изменчива, факторы освещения не поддаются контролю, многопозовое положение самого лица и взаимная окклюзия между группами создают большие проблемы для задачи обнаружения (как показано на рисунке 1). За последние 20 лет эта задача была горячей темой для всеобщего беспокойства как в научных кругах, так и в промышленности.
Обнаружение лиц в естественных условиях также имеет широкий спектр требований к приложениям в бизнесе Meituan.Чтобы решить технические проблемы приложений с естественными сценами и удовлетворить требования к производительности бизнеса, Meituan Vision Intelligence Center (VIC) из базовой модели алгоритма Два были улучшены аспекты системной архитектуры и системной архитектуры, а также была разработана высокоточная модель распознавания лиц VICFace. Более того, VICFace достиг основного уровня в отрасли благодаря всемирно известному общественному рейтингу WIDER FACE.
Рис. 1. Пример распознавания лиц в естественной сцене.
2. Статус-кво развития технологий
В отличие от глубокого обучения, традиционные методы обнаружения лиц в естественных сценах разработаны с учетом двух аспектов: представление признаков и обучение классификатору. Наиболее репрезентативной работой является алгоритм Виолы-Джонса [2], который использует разработанные вручную функции, подобные Хаару, и алгоритм Adaboost для завершения обучения модели. Традиционный метод имеет высокую скорость обнаружения на ЦП, а результаты легко интерпретируются и могут обеспечить более высокую производительность в относительно контролируемой среде. Однако, когда масштаб обучающих данных увеличивается в геометрической прогрессии, повышение производительности традиционных методов относительно ограничено, а в некоторых сложных сценариях оно даже не может удовлетворить требования приложения.
С улучшением вычислительной мощности компьютеров и ростом обучающих данных методы, основанные на глубоком обучении, совершили прорыв в задачах обнаружения лиц и имеют подавляющее преимущество перед традиционными методами в производительности обнаружения. Алгоритмы обнаружения лиц, основанные на глубоком обучении, можно условно разделить на три категории по структуре алгоритма:
1) Каскадный алгоритм распознавания лиц.
2) Двухэтапный алгоритм распознавания лиц.
3) Одноэтапный алгоритм распознавания лиц.
Среди них первый тип каскадных методов обнаружения лиц (таких как Cascade CNN[3], MTCNN[4]) работает быстрее и имеет умеренную производительность обнаружения и подходит для приложений с ограниченной вычислительной мощностью, простым фоном и небольшим количество лиц Сцены. Второй тип двухэтапного метода обнаружения лиц обычно основан на структуре Faster-RCNN [6], генерирующей области-кандидаты на первом этапе, а затем классифицируя и регрессируя области-кандидаты на втором этапе.Точность обнаружения высока, но недостатком является то, что скорость обнаружения низкая, и репрезентативными методами являются Face R-CNN [9], ScaleFace [10], FDNet [11]. Последний тип одноэтапных методов обнаружения лиц в основном основан на классификации Anchor и регрессии, которые обычно оптимизируются на основе классических фреймворков (таких как SSD[12], RetinaNet[13]), и скорость их обнаружения выше, чем у двухэтапный метод.Производительность обнаружения лучше, чем у каскадного метода.Это алгоритм, который уравновешивает производительность и скорость обнаружения, а также является основным направлением оптимизации текущего алгоритма обнаружения лиц.
3. Идеи по оптимизации и бизнес-приложения
При использовании естественных сцен, чтобы соответствовать требованиям к точности и одновременно достигать практических целей, Meituan Vision Intelligence Center (VIC) использует основную схему одноэтапного обнаружения лица на основе привязки. функции были оптимизированы соответственно, и была разработана высокоточная модель распознавания лиц VICFace.Ниже приводится введение в соответствующие технические детали.
1. Увеличение данных и стратегии выборки
Одноэтапный общий алгоритм обнаружения целей более чувствителен к методу улучшения данных, например, классический алгоритм SSD улучшает mAP на 6,7 на наборе данных VOC2007 [50]. Классический одноэтапный алгоритм обнаружения лиц S3FD [17] также разрабатывает стратегию улучшения выборки, используя случайную обрезку изображения, масштабирование изображения с фиксированным соотношением сторон, возмущение цвета изображения и горизонтальное отражение и т. д.
PyramidBox[18], опубликованный Baidu в ECCV2018, предложил метод выборки Data-Anchor, который масштабирует случайно выбранное лицо на изображении в лицо меньшего размера рядом с Anchor, при этом также синхронно преобразуется размер обучающего изображения. Преимущество этого заключается в том, что за счет создания меньших лиц из более крупных лиц улучшается разнообразие выборок в небольшом масштабе, а наборы данных WIDER FACE[1] Easy, Medium и Hard увеличиваются на 0,4 (94,3-> 94,7). , 0,4 (93,3->93,7), 0,6 (86,1->86,7). ISRN [19] сочетает в себе метод улучшения выборки SSD с методом выборки Data-Anchor, а производительность обнаружения модели дополнительно улучшается.
А VICFace фильтрует семантически неоднозначные сверхмалые лица на основе метода улучшения выборки ISRN. Хотя смешивание [22] доказало свою эффективность в классификации изображений и обнаружении объектов, теперь оно используется для обнаружения лиц, эффективно предотвращая проблему переобучения модели. Учитывая, что в бизнес-данных есть образцы с несколькими позами, окклюзиями и размытыми лицами, и эти образцы составляют небольшую долю в обучающей выборке и их трудно обнаружить, можно динамически присваивать более высокие веса этим сложным образцам во время моделирования. Улучшите запоминание этих образцов.
2. Дизайн структуры модели
Структура модели обнаружения лиц в основном состоит из четырех частей: структура обнаружения, магистральная сеть, модуль прогнозирования, настройка привязки и разделение положительной и отрицательной выборки, что является ядром оптимизации одноэтапного обнаружения лица. метод.
- Система обнаружения
В последние годы одноэтапная структура обнаружения лиц получила важное развитие.Репрезентативными структурами являются SSD, используемые в S3FD [17], RetinaNet, используемые в SFDet [25], и двухэтапные структуры, используемые в SRN [23] (далее именуемые как SRN) и двойная структура, используемая в DSFD [24] (далее именуемая DSFD), как показано на рисунке 2 ниже. Среди них SRN — одноэтапный двухэтапный метод обнаружения лиц, который использует результаты обнаружения первого этапа для фильтрации легко классифицируемых негативных образцов на мелкомасштабных лицах для улучшения баланса количества положительных и отрицательных Позиционирование лиц выполняется путем итеративного уточнения, что повышает точность позиционирования крупномасштабных лиц и повышает точность обнаружения лиц. Оценка SRN на WIDER FACE обеспечивает наилучшие характеристики обнаружения (измеряемые по средней точности точки доступа в соответствии со стандартным протоколом), как показано в таблице 1.
S3FD:
SFDet:
SRN:
DSFD:
Рис. 2. Четыре структуры обнаружения
Таблица 1. Результаты оценки четырех структур обнаружения на WIDER FACE, когда магистралью является ResNet50.
VICFace наследует текущую наиболее эффективную структуру обнаружения SRN. В то же время, чтобы лучше интегрировать восходящие и нисходящие функции, разным каналам разных функций назначаются разные веса.В качестве примера P4 формула расчета является:
Количество элементов вектора WC4 равно количеству каналов функции Conv (C4), количество каналов WP4 и Upsample (P5) равно, WC4 и WP4 являются обучаемыми, а значения их элементов равны больше 0, а WC4 и WP4 соответствуют элементам Сумма равна 1, а структура показана на рисунке 3.
Рис. 3. Общая структурная схема сети центра визуального интеллекта VICFace.
- магистральная сеть
Магистральные сети одноэтапных моделей обнаружения лиц обычно используют в задачах классификации классические структуры (такие как VGG [26], ResNet [27] и т. д.). Среди них, чем лучше магистральная сеть выполняет задачу классификации в наборе данных ImageNet, тем выше производительность обнаружения лиц в WIDER FACE, как показано в таблице 2. Чтобы гарантировать, что сеть обнаружения получит более высокий отзыв, магистральная сеть VICFace использует сеть ResNet152 с более высокой производительностью в ImageNet (точность классификации Top1 в ImageNet составляет 80,26) при оценке производительности, а ядро — 7x7 во время реализации. модуль с шагом 2 настраивается на три модуля свертки 3x3, из которых шаг первого модуля равен 2, а остальных - 1; модуль понижающей дискретизации с ядром 1x1 и шагом 2 заменяется на модуль Stride 2 Avgpool.
Таблица 2. Сравнение производительности различных магистральных сетей в ImageNet и точности их обнаружения в среде RetinaNet.
- модуль предсказания
Использование контекстной информации может дополнительно повысить эффективность обнаружения модели. SSH [36] — это ранняя схема использования контекстной информации для одноэтапных моделей обнаружения лиц. PyramidBox, SRN, DSFD и т. д. также разработали различные контекстные модули. Как показано на рисунке 4, контекстный модуль SRN использует сверточные слои 1xk, kx1 для обеспечения множества прямоугольных рецептивных полей, а множество рецептивных полей разной формы помогают обнаруживать лица в экстремальных позах; DSFD использует множественные свертки с отверстиями, значительно увеличенными радиус рецептивного поля.
Рис. 4. Контекстные модули в различных сетевых структурах
В VICFace модуль свертки с отверстиями и модули свертки 1xk и kx1 объединены в качестве модуля контекста, что не только улучшает диапазон рецептивного поля, но и помогает обнаруживать лица с экстремальными позами. Модуль используется для повышения скорости отзыва и снижения частоты ложных срабатываний. Он также использует положение лица, предсказанное функцией слоя Cn, для калибровки области, соответствующей функции слоя Pn, как показано на рисунке 5. Смещение положения лица, предсказанное слоем Cn относительно положения объекта, используется в качестве ввода смещения переменной свертки, а функция слоя Pn используется в качестве ввода данных переменной свертки, Ну, это относительно более выразительно и может улучшить производительность модели обнаружения лиц.
Рис. 5 Модуль прогнозирования в составе собственной модели обнаружения
- Установка привязки и разделение положительной и отрицательной выборки
Одноэтапный метод обнаружения лиц, основанный на якоре, может эффективно контролировать пропорцию положительных и отрицательных образцов и смягчить проблему больших различий в потерях локализации лица в разных масштабах за счет разумной настройки якоря. В существующих основных методах обнаружения лиц существует три основных типа настроек размера привязки (S означает шаг):
В соответствии с характеристиками лиц в наборе данных ширина и высота привязки также могут быть расширены, например {1}, {0,8}, {1, 0,67}.
В самостоятельно разработанном решении в слоях C3 и P3 размер привязки составляет 2S и 4S, а размер привязки других слоев равен 4S (S представляет шаг соответствующего слоя) Этот метод настройки привязки обеспечивает воспроизведение лица. скорость при уменьшении числа отрицательных выборок в определенной степени смягчает дисбаланс положительных и отрицательных выборок. Согласно статистической информации соотношения сторон образцов лица, соотношение сторон Якоря установлено равным 0,8, а образцы с IoU больше 0,7 в слое Cn классифицируются как положительные образцы, менее 0,3 классифицируются как отрицательные образцы, а образцы с IoU в слое Pn более 0,5 классифицируются как положительные образцы, которые делятся на положительные образцы, а менее 0,4 - на отрицательные образцы.
3. Функция потерь
Целью оптимизации обнаружения лиц является не только различение положительных и отрицательных образцов (независимо от того, лицо это или нет), но также необходимо определить положение и размер лица. В S3FD функция кросс-энтропийных потерь используется для различения положительных и отрицательных образцов, Smooth L1 Loss используется для определения положения и размера грани, а сложный анализ отрицательных образцов используется для решения проблемы несбалансированного количества положительных и отрицательных образцов. . Другой более прямой способ уменьшить потерю производительности, вызванную дисбалансом положительных и отрицательных образцов, — это Focal Loss [13], предложенный Lin et al. UnitBox [41] предположил, что IoU Loss может снизить потери производительности, вызванные большой разницей в потерях локализации лиц разного масштаба. AlnnoFace [40] использует как Focal Loss, так и IoU Loss для повышения производительности моделей обнаружения лиц. Введение других связанных вспомогательных задач также может улучшить производительность алгоритма распознавания лиц: RetinaFace [42] вводит задачу позиционирования ключевой точки для повышения точности позиционирования алгоритма распознавания лиц, DFS [43] вводит задачу сегментации лица, которая улучшает характеристика представление способность .
Сочетая в себе преимущества вышеупомянутых методов, VICFace в полной мере использует дополнительную информацию об обнаружении лиц и связанных задачах, а также использует многозадачный подход для обучения модели обнаружения лиц. Функция Focal Loss используется при классификации лиц, чтобы решить проблему несбалансированных выборок, а позиционирование ключевых точек лица и сегментация лица используются для обучения целей классификации, тем самым повышая общую точность классификации. Полная потеря IoU [47] используется при локализации лица, а коэффициент пересечения цели и кадра предсказания используется в качестве функции потерь, чтобы смягчить проблему больших различий в потерях лиц в разных масштабах, и в то же время , расстояние до центральной точки и разницу в соотношении сторон, чтобы можно было достичь более высокой общей производительности обнаружения.
4. Оптимизация результатов и бизнес-приложений
При поддержке кластерной платформы производительность базовой модели распознавания лиц в естественных условиях VICFace Центра визуального интеллекта Meituan сравнивалась с существующими основными решениями, а три набора проверки Easy, Medium, все они достигают ведущего уровня в Hard (AP — средняя точность, чем выше значение, тем лучше), как показано на рисунке 6 и в таблице 3.
Рисунок 6. Результаты оценки VICFace и текущих основных методов обнаружения лиц на WIDER FACE
表3 VICFace以及当前主流人脸检测方法在WIDER FACE上的测评结果
Примечание. SRN — это новый метод, предложенный Китайской академией наук в AAAI2019, DSFD — новый метод, предложенный Tencent Youtu в CVPR2019, PyramidBox++ — новый метод, предложенный Baidu в 2019 году, AInnoFace — новый метод, предложенный Chuangqizhi в 2019 году. , а RetinaFace — новый метод, предложенный занявшим второе место ICCV2019 Wider Challenge.
В бизнес-приложениях служба обнаружения лиц в естественных условиях была подключена к нескольким бизнес-направлениям Meituan, что отвечает требованиям к производительности бизнеса в таких приложениях, как интеллектуальная фильтрация изображений UGC и отображение рекламных изображений POI.Первый защищает конфиденциальность пользователей и предотвращает нарушение пользовательские портреты. Последнее может эффективно предотвратить явление частичного кадрирования лица на изображении, тем самым улучшая пользовательский опыт. Кроме того, VICFace также предоставляет основные базовые модели для других приложений интеллектуального анализа лица, таких как автоматическое определение соответствия одежды кухонного персонала (независимо от того, носят ли они шляпы и маски), добавляя гарантии безопасности пищевых продуктов.
В будущей работе, чтобы предоставить пользователям лучший опыт и удовлетворить требования высокой параллелизма, будут проведены дальнейшие исследования и оптимизация в структуре модели и эффективности вывода модели. Кроме того, с точки зрения построения алгоритма, одноэтапный метод обнаружения целей на основе Anchor-Free за последние годы показал высокий потенциал в области общего обнаружения целей, и это также важное направление, на котором будет сосредоточен Центр визуальной разведки. в будущем.
использованная литература
1. Ян С., Луо П., Лой С. С. и др. Более широкое лицо: тест для распознавания лиц[C]//Материалы конференции IEEE по компьютерному зрению и распознаванию образов, 2016: 5525-5533.
2. Виола П., Джонс М. Дж. Надежное распознавание лиц в реальном времени [Дж.] Международный журнал компьютерного зрения, 2004, 57(2): 137-154.
3. Li H, Lin Z, Shen X и др. Каскад сверточных нейронных сетей для обнаружения лиц[C]//Материалы конференции IEEE по компьютерному зрению и распознаванию образов, 2015: 5325-5334.
4. Чжан К., Чжан З., Ли З. и др. Совместное обнаружение и выравнивание лиц с использованием многозадачных каскадных сверточных сетей[J], Письма об обработке сигналов IEEE, 2016, 23(10): 1499-1503.
5. Хао З., Лю И., Цинь Х. и др. Обнаружение лиц с учетом масштаба[C]//Материалы конференции IEEE по компьютерному зрению и распознаванию образов, 2017: 6186-6195.
6. Рен С., Хе К., Гиршик Р. и др. Faster r-cnn: На пути к обнаружению объектов в реальном времени с помощью сетей предложений регионов[C]//Достижения в системах обработки нейронной информации, 2015: 91-99.
7. Лин Т. Ю., Доллар П., Гиршик Р. и др. Сети пирамидальных функций для обнаружения объектов[C].Материалы конференции IEEE по компьютерному зрению и распознаванию образов.2017: 2117-2125.
8. Jiang H, Learned-Miller E. Распознавание лиц с помощью более быстрого R-CNN[C]//2017 12-я Международная конференция IEEE по автоматическому распознаванию лиц и жестов (FG 2017) IEEE, 2017: 650-657.
9. Ван Х., Ли Чжиф и др. Face R-CNN, препринт arXiv arXiv: 1706.01061, 2017.
10. Yang S, Xiong Y, Loy C C и др. Обнаружение лиц с помощью удобных для масштабирования глубоких сверточных сетей[J], препринт arXiv arXiv:1706.02863, 2017.
11. Чжан С., Сюй С., Ту Д. Распознавание лиц с использованием улучшенного более быстрого rcnn[J], препринт arXiv arXiv:1802.02142, 2018.
12. Лю В., Ангелов Д., Эрхан Д. и др. Ssd: однократный многоблочный детектор[C]//Европейская конференция по компьютерному зрению, Springer, Cham, 2016: 21-37.
13. Лин Т.Ю., Гоял П., Гиршик Р. и др. Потеря фокуса при обнаружении плотных объектов[C]//Материалы международной конференции IEEE по компьютерному зрению, 2017: 2980-2988.
14. Huang L, Yang Y, Deng Y и др. Densebox: Объединение локализации ориентиров с сквозным обнаружением объектов[J], препринт arXiv arXiv:1509.04874, 2015.
15. Лю В., Ляо С., Рен В. и др. Обнаружение семантических признаков высокого уровня: новая перспектива обнаружения пешеходов[C]//Материалы конференции IEEE по компьютерному зрению и распознаванию образов, 2019: 5187-5196.
16. Чжан З., Хе Т., Чжан Х. и др. Набор халявы для обучения нейронных сетей по обнаружению объектов[J], препринт arXiv arXiv:1902.04103, 2019.
17. Чжан С., Чжу С., Лей З. и др. S3fd: Однократный масштабно-инвариантный детектор лица[C]//Материалы Международной конференции IEEE по компьютерному зрению, 2017: 192-201.
18. Tang X, Du D K, He Z и др. Pyramidbox: контекстно-зависимый однократный детектор лица[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 797-813.
19. Zhang S, Zhu R, Wang X и др. Улучшенная сеть выборочного уточнения для распознавания лиц[J], препринт arXiv arXiv:1901.06651, 2019.
20. Li Z, Tang X, Han J и др. PyramidBox++: высокопроизводительный детектор для поиска крошечных лиц[J], препринт arXiv arXiv:1904.00386, 2019.
21. Zhang S, Zhu X, Lei Z и др. Faceboxes: процессорный детектор лица в режиме реального времени с высокой точностью[C]//Международная объединенная конференция IEEE по биометрии (IJCB, 2017 г.), IEEE, 2017: 1-9.
22. Чжан Х., Сиссе М., Дофин Ю. Н. и др. Путаница: Помимо минимизации эмпирического риска[J], препринт arXiv arXiv:1710.09412, 2017.
23. Chi C, Zhang S, Xing J и др. Сеть выборочного уточнения для высокопроизводительного распознавания лиц[C]//Материалы конференции AAAI по искусственному интеллекту, 2019, 33: 8231-8238.
24. Li J, Wang Y, Wang C и др. Dsfd: двойной детектор лиц[C]//Материалы конференции IEEE по компьютерному зрению и распознаванию образов, 2019: 5060-5069.
25. Чжан С., Вэнь Л., Ши Х. и др. Однократная масштабируемая сеть для обнаружения лиц в реальном времени[J], Международный журнал компьютерного зрения, 2019, 127(6-7): 537-559.
26. Симонян К., Зиссерман А. Очень глубокие сверточные сети для крупномасштабного распознавания изображений[J], препринт arXiv arXiv:1409.1556, 2014.
27. He K, Zhang X, Ren S и др. Глубокое остаточное обучение для распознавания изображений[C]//Материалы конференции IEEE по компьютерному зрению и распознаванию образов, 2016: 770-778.
28. Се С., Гиршик Р., Доллар П. и др. Агрегированные остаточные преобразования для глубоких нейронных сетей[C]//Материалы конференции IEEE по компьютерному зрению и распознаванию образов, 2017: 1492-1500.
29. Яндола Ф., Москевич М., Караев С. и др. Денсенет: Реализация эффективных пирамид дескрипторов консетей[J], препринт arXiv arXiv:1404.1869, 2014.
30. Ховард А. Г., Чжу М., Чен Б. и др. Мобильные сети: эффективные сверточные нейронные сети для приложений мобильного зрения[J], препринт arXiv arXiv:1704.04861, 2017.
31. Сандлер М., Ховард А., Чжу М. и др. Mobilenetv2: инвертированные остатки и линейные узкие места[C]//Материалы конференции IEEE по компьютерному зрению и распознаванию образов, 2018: 4510-4520.
32. Базаревский В., Картынник Ю., Вакунов А. и др. BlazeFace: нейронное распознавание лиц с субмиллисекундным интервалом на мобильных графических процессорах[J], препринт arXiv arXiv:1907.05047, 2019.
33. He Y, Xu D, Wu L и др. LFFD: легкий и быстрый детектор лиц для периферийных устройств[J], препринт arXiv arXiv:1904.10633, 2019.
34. Zhu R, Zhang S, Wang X и др. Scratchdet: Изучение возможности обучения однократных детекторов объектов с нуля[J], Препринт arXiv arXiv:1810.08425, 2018, 2.
35. Лин Т.Ю., Майр М., Белонги С. и др. Microsoft coco: Общие объекты в контексте[C]//Европейская конференция по компьютерному зрению, Springer, Cham, 2014: 740-755.
36. Наджиби М., Самангуэи П., Челлаппа Р. и др. Ssh: Одноступенчатый безголовый детектор лиц[C]//Материалы Международной конференции IEEE по компьютерному зрению, 2017: 4875-4884.
37. С. Эрп, П. Нойнонгяо, Дж. Кэрнс, А. Гангули Распознавание лиц с помощью характерных пирамид и ориентиров, Препринт arXiv arXiv:1912.00596, 2019.
38. Гудфеллоу И. Дж., Уорд-Фарли Д., Мирза М. и др. Сети Maxout[J], препринт arXiv arXiv:1302.4389, 2013.
39. Чжу С., Тао Р., Луу К. и др. Видение маленьких лиц с точки зрения надежной привязки[C]//Материалы конференции IEEE по компьютерному зрению и распознаванию образов, 2018: 5127-5136.
40. Чжан Ф., Фан С., Ай Г., Сонг Дж., Цинь Ю., Ву Дж. Точное распознавание лиц для высокой производительности, Препринт arXiv arXiv:1905.01585, 2019.
41. Yu J, Jiang Y, Wang Z и др. Unitbox: усовершенствованная сеть обнаружения объектов[C]//Материалы 24-й международной конференции ACM по мультимедиа, ACM, 2016: 516-520.
42. Дэн Дж., Го Дж., Чжоу Ю и др. RetinaFace: одноэтапная локализация плотных лиц в дикой природе[J], препринт arXiv arXiv:1905.00641, 2019.
43. Тянь В., Ван З., Шен Х. и др. Изучение лучших признаков для распознавания лиц с помощью слияния признаков и наблюдения за сегментацией[J], препринт arXiv arXiv:1811.08557, 2018.
44. Y. Zhang, X. Xu, X. Liu Надежный и высокопроизводительный детектор лиц, Препринт arXiv arXiv: 1901.02350, 2019.
45. С. Чжан, К. Чи, З. Лей, Стэн З. Ли RefineFace: Уточняющая нейронная сеть для высокопроизводительного распознавания лиц, Препринт arXiv arXiv: 1909.04376, 2019.
46. Wang J, Yuan Y, Li B и др. Sface: эффективная сеть для распознавания лиц в крупномасштабных вариациях[J], препринт arXiv arXiv:1804.06559, 2018.
47. Чжэн З., Ван П., Лю В. и др. Потери на расстоянии: более быстрое и лучшее обучение для регрессии ограничивающей рамки [J], Препринт arXiv arXiv: 1911.08287, 2019.
48. Bay H, Tuytelaars T, Van Gool L. Surf: Ускоренные надежные функции[C]//Европейская конференция по компьютерному зрению, Springer, Berlin, Heidelberg, 2006: 404-417.
49. Ян Б., Ян Дж., Лей З. и др. Агрегированные характеристики канала для многоракурсного обнаружения лиц[C]//Международная совместная конференция IEEE по биометрии, IEEE, 2014: 1-8.
50. Эверингэм М., Ван Гул Л., Уильямс С.К.И., и др. Результаты конкурса классов визуальных объектов PASCAL 2007 (VOC2007) [J], 2007.
51. Редмон Дж., Фархади А. Йолов3: Постепенное улучшение[J], препринт arXiv arXiv:1804.02767, 2018.
об авторе
Чжэньхуа, Хуаньхуань и Сяолинь — инженеры Meituan Visual Intelligence Center.
Предложения о работе
Основная ответственность группы базового видения Meituan Visual Intelligence Center заключается в консолидации основных базовых технологий визуального интеллекта и предоставлении визуальных решений на уровне платформы для бизнеса группы. Основными направлениями являются оптимизация базовой модели, масштабное распределенное обучение, оптимизация эффективности серверов, оптимизация адаптации мобильных терминалов и инкубация инновационных продуктов.
Мы приглашаем к сотрудничеству небольших партнеров в областях, связанных с компьютерным зрением.