Алгоритмы распознавания лиц являются фундаментальным компонентом любой системы или программного обеспечения для обнаружения и распознавания лиц. Эксперты делят эти алгоритмы на два основных метода: геометрические методы фокусируются на отличительных признаках, а фотометрические статистические методы используются для извлечения значений из изображений. Затем эти значения сравниваются с шаблоном для устранения различий. Эти алгоритмы также можно разделить на две более общие категории — модели на основе признаков и целостные модели. Первый фокусируется на ориентирах лица и анализирует их пространственные параметры и корреляции с другими чертами, в то время как целостный подход рассматривает лицо как единое целое.
Искусственные нейронные сети — самый популярный и успешный метод распознавания изображений. Алгоритмы распознавания лиц основаны на математических вычислениях, а нейронные сети одновременно выполняют большое количество математических операций.
Эти алгоритмы выполняют три основные задачи: обнаруживают лица на изображениях, видео или в прямых трансляциях, вычисляют математические модели лиц и сравнивают модели с обучающими наборами или базами данных для идентификации или проверки человека.
В этой статье рассматриваются самые известные алгоритмы распознавания лиц и их ключевые особенности. Поскольку каждый метод имеет свои преимущества для конкретной задачи, исследователи активно пытаются комбинировать методы и разрабатывать новые технологии.
Сверточная нейронная сеть (CNN)
Сверточные нейронные сети (CNN) являются одним из прорывов в разработке искусственных нейронных сетей (ANN) и искусственного интеллекта. Это один из самых популярных алгоритмов глубокого обучения, типа машинного обучения, при котором модель учится выполнять задачи классификации непосредственно на изображениях, видео, тексте или звуке. Модель показала впечатляющие результаты в нескольких областях: компьютерное зрение, обработка естественного языка (NLP) и самый большой набор данных для классификации изображений (Image Net). CNN — это обычная нейронная сеть с новыми слоями — сверточным и объединяющим слоями. CNN могут иметь десятки и сотни таких слоев, каждый из которых учится обнаруживать различные особенности изображения.
собственное лицо
Eigenfaces — это метод обнаружения и распознавания лиц для определения дисперсии лиц в наборах данных изображений. Он использует эти различия для кодирования и декодирования лиц с помощью машинного обучения. Набор собственных лиц представляет собой набор «нормализованных компонентов лица», определяемых путем статистического анализа большого количества изображений лиц. Чертам лица присваиваются математические значения, поскольку в этом методе используются не цифровые изображения, а статистическая база данных. Любое лицо представляет собой сочетание этих значений в различном процентном соотношении.
Fisherfaces
Fisherfaces — один из самых популярных алгоритмов распознавания лиц, считается, что он превосходит многие свои альтернативы. В качестве усовершенствования алгоритма Eeigenfaces его часто сравнивают с Eigenfaces, и он считается более успешным в различении классов во время обучения. Основная сила этого алгоритма заключается в его способности интерполировать и экстраполировать изменения освещения и выражения лица. Сообщается, что алгоритм Fisherfaces имеет точность 93% в сочетании с методом PCA на этапе предварительной обработки.
Методы ядра: PCA и SVM
Анализ главных компонентов (PCA) — это общий статистический метод, имеющий множество практических применений. При использовании в процессе распознавания лиц PCA предназначен для уменьшения размера исходных данных при сохранении наиболее важной информации. Он генерирует набор взвешенных векторов признаков, которые, в свою очередь, создают собственные лица — большое количество изображений разных лиц. Линейная комбинация собственных граней представляет каждое изображение в обучающем наборе. PCA используется для получения этих векторов признаков из ковариационной матрицы набора обучающих изображений. Для каждого изображения вычислите его главные компоненты (от 5 до 200). Другие компоненты кодируют тонкие различия между лицами и шумом. Процесс идентификации состоит в сравнении главных компонентов неизвестного изображения с компонентами всех других изображений.
Машина опорных векторов (SVM) — это алгоритм машинного обучения, который использует два набора принципов классификации, чтобы различать человеческие лица и «не лица». Для каждого класса модель SVM получает помеченный обучающий набор данных для классификации новых тестовых данных. Исследователи применили линейные и нелинейные обученные модели SVM для распознавания лиц. Недавние результаты показывают, что нелинейные обучающие машины имеют больший запас и лучшие результаты распознавания и классификации.
Haar Cascade
Каскад Хаара — это метод обнаружения объектов для поиска объектов на изображениях. Алгоритм учится на большом количестве положительных и отрицательных образцов — первые содержат интересующий объект, а вторые содержат что угодно, кроме объекта, который вы ищете. После обучения классификатор может находить интересующие объекты на новых изображениях. Метод сочетает в себе алгоритм локального бинарного шаблона для распознавания лиц и используется для идентификации преступников. Каскадный классификатор Хаара использует 200 (всего 6000) признаков и обеспечивает уровень распознавания 85-95% даже при изменении выражений.
3D распознавание
Основная идея технологии 3D-распознавания лиц заключается в уникальном строении человеческого черепа. Строение черепа каждого человека уникально и может быть описано десятками параметров. Этот метод распознавания лиц основан на сравнении 3D-сканов лица со схемами базы данных. У него есть важное преимущество — макияж, растительность на лице, очки и тому подобные факторы не влияют на процесс обнаружения и идентификации. В последних исследованиях используются методы, которые отображают трехмерную геометрическую информацию на обычную двухмерную сетку. Это позволяет сочетать описательность 3D-данных с вычислительной эффективностью 2D-данных и демонстрирует высочайшую производительность, о которой сообщает FRGC v2 (3D-база данных лиц Grand Challenge по распознаванию лиц).
анализ текстуры кожи
Технология распознавания кожи имеет множество применений — алгоритмы распознавания лиц, фильтрация плохих изображений, анализ жестов и т. д. Обычно используются изображения высокого разрешения. В особых случаях анализа текстуры кожи используются различные уникальные параметры, такие как родинки, оттенок кожи, оттенок кожи и т. д. Недавние исследования, основанные на сочетании особенностей текстуры и цвета кожи, показывают интересные результаты. Исследователи использовали нейронные сети для разработки и тестирования системы распознавания кожи. Нейронная сеть с прямой связью, используемая в проекте, классифицирует входные изображения текстур на «кожаные» и «не кожные» и показывает впечатляющую производительность.
Тепловизор
Тепловизор — это устройство, используемое для наблюдения за распределением температуры обследуемой поверхности. Распределение температуры отображается в виде цветного изображения с разными цветами, соответствующими температуре. У этой технологии уже есть несколько практических приложений, адаптирующихся к глобальным изменениям: учетные данные для иммунизации на основе смартфона, дистанционное обнаружение лихорадки и тепловое распознавание лиц. Модель распознавания лиц тепловизором основана на уникальном температурном режиме лица. Согласованные с человеком температурные «сигнатуры» измеряются с использованием мнимой части теплового инфракрасного (ИК) излучения. Есть неоспоримое преимущество использования тепловых методов в распознавании лиц — макияж, борода, шляпы и очки не влияют на его точность. Кроме того, он может различать братьев и сестер-близнецов.
ANFIS
Adaptive Neuro-Fuzzy Interference System (ANFIS) представляет собой искусственную нейронную сеть. Метод объединяет принципы нейронной сети с принципами нечеткой логики, объединяя их преимущества в единой структуре. ANFIS используется на этапе предварительной обработки для классификации характеристик изображения, извлеченных из набора данных. Специалисты по данным комбинируют этот подход с различными алгоритмами извлечения признаков. В результате некоторые исследования сообщают о невероятной точности классификации 97,1% для ANFIS после выделения признаков с использованием двухмерного анализа основных компонентов.
Гистограмма локального бинарного паттерна (LBPH)
В методе используются локальные бинарные шаблоны (LBP), простой и эффективный оператор текстуры в компьютерном зрении, который маркирует пиксели изображения, определяя пороговое значение окрестности каждого пикселя и обрабатывая результат как двоичное число. На этапе обучения алгоритм LBPH создает гистограмму для каждого помеченного и классифицированного изображения. Каждая гистограмма представляет каждое изображение в обучающем наборе. Таким образом, собственно процесс идентификации заключается в сравнении гистограмм любых двух изображений.
FaceNet
FaceNet, система распознавания лиц, разработанная исследователями Google в 2015 году, основана на наборе контрольных данных по распознаванию лиц. Доступные предварительно обученные модели и различные сторонние реализации с открытым исходным кодом делают эту систему очень широкой. По сравнению с другими алгоритмами, разработанными ранее, FaceNet показывает отличные результаты в исследовательских опросах, тестовой производительности и точности. FaceNet точно извлекает встраивания лиц, а высококачественные функции используются для последующего обучения систем распознавания лиц.
NEC
Решение, разработанное японской технологической компанией NEC, может с высокой степенью точности идентифицировать людей, распознавая возрастные изменения. Решение использует адаптивное сопоставление регионов, модель, которая фокусируется на очень похожих сегментах для сопоставления. Метод NEC делит входные и зарегистрированные изображения на небольшие сегменты и фокусируется только на сегментах с большим сходством. Это позволяет системе показывать более высокую точность распознавания, даже когда на лице есть маска или очки. В качестве базового алгоритма решение NEC использует обобщенное векторное квантование обучения (GLVQ).
Мегви (FACE++)
Алгоритм Megvii основан на обнаружении изображений и методах поиска нечетких изображений. Техническое решение использует MegEngine, собственную платформу глубокого обучения компании, основанную на больших данных. Технология компании успешно выполняет извлечение информации о лицах и включает в себя несколько ключевых функций: обнаружение и отслеживание лица и человеческого тела, распознавание и кластеризация лиц, обнаружение ключевых точек, оценка атрибутов лица и механизм поиска лиц.
Распознавание лиц: сочетание разных технологий
Каждая технология распознавания лиц имеет свои эффективные характеристики. Однако недавние исследования показали, что наилучшие результаты достигаются за счет комбинации различных алгоритмов и подходов. Эти комбинации предназначены для решения многих распространенных проблем в процессе распознавания лиц — различия в выражениях лица, позах, условиях освещения, шуме изображения и многом другом. В последних экспериментах алгоритм LBP сочетается с передовыми методами обработки изображений: двусторонней фильтрацией, выравниванием гистограммы, регулировкой контрастности и смешиванием изображений. Такой метод показывает значительное улучшение по сравнению с кодом LBP и выглядит многообещающим для дальнейших исследований.
Суммировать
Существуют различные алгоритмы и методы распознавания лиц. Хотя все они имеют основную цель, они могут быть связаны с конкретной задачей и проблемой. В зависимости от цели использования и реализации они варьируются от нейронных сетей и математических моделей до технических решений от частных компаний.
В этой статье рассматривается широчайший спектр алгоритмов и методов. Тем не менее, дополнительные исследования и научные эксперименты показали, что существуют неоспоримые преимущества комбинирования различных алгоритмов в процессе распознавания лиц для достижения лучших результатов. Это приводит к появлению новых технологий и методов специального назначения.
Часто задаваемые вопросы об алгоритмах распознавания лиц
Как работают алгоритмы распознавания лиц?
Как правило, специальные нейронные сети обучаются обнаруживать лицевые ориентиры и отличать лица от других объектов на изображении. Ориентиры — это общие черты человеческого лица, такие как глаза, нос, рот, брови и т. д. То, как это на самом деле реализовано, варьируется от алгоритма к алгоритму.
Что такое алгоритм распознавания лиц?
Алгоритм распознавания лиц — это метод построения биометрической модели лица для дальнейшего анализа и процесса распознавания лиц.
Как сделать распознавание лиц в OpenCV?
Библиотека компьютерного зрения с открытым исходным кодом (OpenCV) — это популярная библиотека общих алгоритмов с открытым исходным кодом для алгоритмов компьютерного зрения, обработки изображений и числовых значений. Используя OpenCV, процесс распознавания лиц можно выполнить в три этапа:
- Распознавание лиц
- Извлечение признаков с использованием встраивания лиц
- распознавание лица
Как обучить алгоритм распознавания лиц?
Прежде чем алгоритмы распознавания лиц будут готовы выполнять необходимые задачи, им необходимо обработать огромные объемы данных — точно размеченные наборы изображений. Эти коллекции используются для разработки моделей машинного обучения.
Расширенное чтение
Технология распознавания лиц представляет собой высокоточную, простую в использовании, высокостабильную биометрическую технологию, которую трудно подделать, и имеет чрезвычайно широкую перспективу рыночного применения. Существует широкий спектр потребностей в отраслях и секторах, таких как общественная безопасность, национальная оборона, таможня, транспорт, финансы, социальное обеспечение, медицинское обслуживание и другие средства контроля гражданской безопасности.
Наш персонал отдела исследований и разработок TSINGSEE Qingxi Video также активно разрабатывает технологии искусственного интеллекта, такие как распознавание лиц, распознавание лиц, статистику движения людей, обнаружение шлемов и т. д., и активно интегрирует их в существующие видеоплатформы. Типичным примером является облачный сервис видеообъединения EasyCVR, обладающий возможностями ИИ-распознавания лиц, распознавания номерных знаков, голосовой внутренней связи, управления PTZ, звуковой и световой сигнализации, анализа видео наблюдения и агрегации данных и широко используемый в интеллектуальном контроле доступа. в жилых районах и зданиях, в таких сценариях, как обнаружение слоняющихся подозрительных лиц в периметре, статистика движения в живописных местах и т. д.