MindSpore: узнай, кто ты, не снимая маски

Идентификация изображения

​​​​[Рекомендуемая тема в этом выпуске] Начиная с трех основных интерфейсных технологий, взгляните на их соответствующие характеристики и на то, как выбрать подходящую платформу на основе бизнес-характеристик.

Аннотация: Мы разработали алгоритм распознавания лиц на основе MindSpore для решения проблемы распознавания лиц в сцене окклюзии маски. Открытый исходный код алгоритма был опубликован на MindSpore.

Эта статья опубликована в сообществе HUAWEI CLOUD.«Вам не нужно снимать маску, чтобы узнать, кто вы, MindSpore обучает модель распознавания лиц в маске», оригинальный автор: chengxiaoli.

Цель распознавания лиц состоит в том, чтобы определить личность изображения лица. С созданием умных городов сценарии применения распознавания лиц становятся все более и более разнообразными, например, отслеживание подозреваемых и поиск потерянных пожилых людей и детей. В связи с глобальной вспышкой нового коронавируса в целях безопасности общественного здравоохранения все больше и больше людей носят маски в общественных местах, чтобы снизить риск заражения инфекционными заболеваниями.

Традиционный метод анализа лица в основном извлекает общие черты всего лица для анализа.В сцене окклюзии маски некоторые важные части лица (например, челюсть и т. д.) все лицо внесет много шума. Поэтому срочно необходимы новые решения для задач анализа лица в сценариях окклюзии маски. Мы разработали алгоритм распознавания лиц на основе MindSpore, чтобыРешить проблему распознавания лиц в сцене окклюзии маски. алгоритмаОткрытый исходный код был запущен на MindSpore.

  • бумага:

Feifei Ding, Peixi Peng, Yangru Huang, Mengyue Geng andYonghong Tian. Masked Face Recognition with Latent Part Detection. ACMMultimedia 2020.

Login.ACM.org/do i/PDF/10. …

  • Адрес в открытом доступе:

git ee.com/minds pore/no…

Алгоритмическая структура

В настоящее время нет крупномасштабного набора обучающих данных для лиц в масках.Чтобы решить проблему нехватки данных для обучения, мы генерируем данные о лицах в масках в качестве обучающих данных на основе существующих общедоступных наборов данных о лицах. Процесс выглядит следующим образом:

(1) Используйте существующий алгоритм обнаружения ключевых точек лица (например, Dlib) для определения положения нескольких ключевых точек на свободном изображении лица;

(2) Отметьте ключевые точки области ношения маски (область ниже кончика носа);

(3) Вручную отметьте ключевые точки на образце изображения маски (например, маска N95) и сопоставьте ключевые точки области ношения лицевой маски один к одному;

(4) В соответствии с ключевыми точками примера изображения маски триангулируйте его и разделите изображение примера маски на несколько маленьких треугольников;

(5) В соответствии с соответствием ключевых точек между изображением образца маски и изображением лица аффинно преобразуйте каждую небольшую треугольную область на изображении образца маски в изображение лица и выполните операции сглаживания для создания изображения лица маски.

Мы сгенерировали 8 различных стилей лиц в масках в общедоступном наборе данных о лицах WebFace и смешали их с исходными изображениями лиц без масок в качестве обучающих данных.

Структура алгоритма показана на рисунке.Учитывая, что большая часть важной информации на лице маски закрыта маской, мы предлагаем модель сети с двумя ветвями, основанную на обнаружении скрытых областей, чтобы извлечь больше отличительных признаков. Среди них локальная ветвь извлекает локальные признаки из потенциальной области, а глобальная ветвь извлекает глобальные признаки из исходного изображения.

Мы определяем скрытую область как область лица, не закрытую маской, используя

сказал, из которых

является параметром, который необходимо изучить. Вдохновленные Сетью пространственного преобразования (STN), мы

Объекты в области подвергаются ограниченному аффинному преобразованию, чтобы преобразовать их в исходный размер изображения.Формула выглядит следующим образом:

где целевое поле определяется как

H и W — длина и ширина исходного изображения соответственно. По этой формуле мы можем получить

Может передавать параметры матрицы аффинного преобразования STN

Получено преобразование, из которого могут быть обнаружены потенциальные области. Согласно соответствующему соотношению между потенциальной площадью и координатами исходного изображения, билинейная интерполяция используется для его расширения до того же размера, что и исходное изображение.

Сетевая модель представляет собой сеть с двумя ветвями, одна ветвь извлекает локальные признаки из потенциальной области, другая ветвь извлекает глобальные признаки из исходного изображения, а две ветви имеют общие сетевые параметры. Каждая ветвь оптимизируется функцией потерь классификации, а для локальной ветви вводится дополнительная функция потерь LPD:

Из их,

— ордината ключевой точки кончика носа. Цель введения этой функции потерь состоит в том, чтобы нормализовать сетевую локализацию потенциальной области, чтобы сделать ее как можно ближе к области над кончиком носа лица, поскольку, согласно предшествующим знаниям, маски имеют тенденцию блокировать область лица ниже кончика носа. кончик носа. На этапе тестирования глобальные функции и локальные функции объединяются в окончательное представление функций.

Результаты экспериментов

Мы собрали фактический набор данных лиц с масками PKU-Masked-Face Dataset в качестве тестового набора, который содержит в общей сложности 10301 изображение лица, принадлежащее 1018 различным идентичностям. Большинство идентичностей имеют как минимум 5 изображений лиц с масками и 5 изображений без масок в общей сложности в 5 ракурсах: 5 ракурсов: спереди, слева, справа, взгляд вниз и взгляд вверх. Изображения лиц в масках используются в качестве библиотеки изображений запроса, а обычные изображения лиц используются в качестве библиотеки изображений для сопоставления.

  • Ссылка на набор тестов:

filmlibrary.org/resources/afraid…

Экспериментальные результаты модели алгоритма, основанной на MindSpore, показаны в следующей таблице, среди которых Baseline — эталонная модель ResNet50, обученная на исходных данных WebFace, MG — модель ResNet50, обученная на расширенных данных WebFace, а LPD — предлагаемое нами обнаружение потенциальной области. модель.

Реализация кода MindSpore

Код структуры двухветвевой сети:

​Где global_out и partial_out соответствуют глобальному признаку, извлеченному из исходного изображения, и локальному признаку, извлеченному из скрытой области, соответственно, и две части совместно используют магистральный слой извлечения признаков.

Конкретная реализация модуля обнаружения латентной области LPD:

Вход — исходное изображение, а выход — координаты границы свободной области лица.

  • Соответствующий код обучения и вывода:

git ee.com/minds pore/no…

Код реализован на основе фреймворка MindSpore, а рабочая аппаратная среда — Ascend910. Алгоритм решает проблему распознавания лиц в сцене перекрытия маски,Значительное улучшение производительности по сравнению с эталонной моделью, экспериментальные результаты выражаются, как указано вышеВедущий уровень отрасли.

Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~