Обзор технологии глубокого распознавания лиц, нет ничего более полного, чем этот

Куратор и редактор | Натали

Сборник | Ма Чжуоци

Руководство по передовой ИИ:Технология распознавания выражений лица (FER) постепенно переходит от тестирования лабораторных наборов данных к сложному распознаванию в реальном мире. Благодаря успеху методов глубокого обучения в различных областях, глубокие нейронные сети все чаще используются для изучения отличительных представлений признаков. Современные системы глубокого распознавания выражений лица обычно сталкиваются с двумя ключевыми проблемами: переобучением из-за отсутствия достаточных данных для обучения и независимыми от выражения изменениями, такими как освещение, поза головы и информация об искажении личности.

Эта статья представляет собой всесторонний обзор глубокого распознавания выражений лица и введение в 30-ю статью о передовых разработках ИИ. Во-первых, мы представляем стандартный процесс глубокой системы FER в сочетании с соответствующими базовыми знаниями. Затем мы представляем наборы данных, которые в настоящее время широко используются в литературе, и даем общепринятые рекомендации по выбору и оценке данных для этих наборов данных. Для текущих современных методов глубокого FER мы рассматриваем существующие конструкции глубоких нейронных сетей FER и соответствующие стратегии обучения, основанные на последовательностях неподвижных и движущихся изображений, и обсуждаем их преимущества и ограничения. Далее мы расширяем обзор других связанных проблем и сценариев применения. Наконец, мы анализируем будущие проблемы и соответствующие возможности в этой области, а также будущие направления разработки надежных систем глубокого FER.

Для получения дополнительных галантерейных товаров, пожалуйста, обратите внимание на публичный аккаунт WeChat «AI Frontline» (ID: ai-front)

Выражение лица — один из самых сильных, естественных и наиболее распространенных сигналов, которые люди используют для выражения своего эмоционального состояния и намерений. Автоматический анализ выражения лица имеет множество применений в социальной робототехнике, медицинском обслуживании, мониторинге усталости водителя и многих других системах взаимодействия человека с компьютером.

Системы FER можно разделить на две категории в соответствии с представлением признаков: FER статического изображения и FER динамической последовательности. В методах, основанных на статических изображениях, представления функций кодируются только пространственной информацией одного изображения, в то время как методы, основанные на динамике, должны учитывать временные отношения между последовательными кадрами входных выражений лица.

Большинство традиционных методов используют извлеченные вручную признаки или неглубокое обучение. Однако после 2013 года в ходе различных соревнований по распознаванию выражений, таких как FER2013 и «Распознавание эмоций в реальных сценах» (EmotiW), было собрано достаточно обучающих данных в сложных сценариях реального мира, что позволило перенести технологию FER из лаборатории в реальную сцену. Из-за растущего объема данных традиционных признаков уже недостаточно для представления разнообразия факторов, не связанных с выражением лица. С существенным улучшением вычислительной мощности чипа (блок GPU) и появлением различных отличных структур нейронных сетей многие области начали обращаться к методам глубокого обучения, которые значительно повысили точность распознавания. Точно так же методы глубокого обучения все чаще используются для решения проблем, связанных с распознаванием выражений лица в реальных условиях.

Рис. 1. Набор данных и метод распознавания выражений лица.

Несмотря на мощные возможности глубокого обучения, его применение в FER все еще имеет некоторые проблемы. Во-первых, глубокие нейронные сети требуют больших объемов обучающих данных, чтобы избежать переобучения. Однако существующих баз данных выражений лица недостаточно для обучения глубоких сетей, которые значительно справляются с задачами распознавания объектов. Кроме того, существует высокая вариабельность среди испытуемых из-за различных атрибутов характера, таких как возраст, пол, религиозное происхождение и экспрессивность. Поза, освещение и окклюзия распространены в сценах с неограниченным выражением лица. Между этими факторами и выражениями существует нелинейная связь, поэтому необходимо повысить устойчивость глубоких сетей к внутриклассовым вариациям и изучить эффективные представления признаков выражения.

Глубокое распознавание выражения лица

Рис. 2. Система глубокого распознавания выражений лица

1. Предварительная обработка

В естественных сценах есть много переменных особенностей, не связанных с выражением лица, таких как различный фон, освещение, позы головы и так далее. Поэтому перед обучением глубокой нейронной сети необходимо использовать предобработку для калибровки и выравнивания визуальной и семантической информации лица.

1.1 Выравнивание лица

Выравнивание лиц является необходимым этапом предварительной обработки во многих задачах распознавания лиц. Ниже мы опишем некоторые часто используемые методы и общедоступные реализации, доступные в системах глубокого распознавания выражений. (Для обзора выравнивания лица см. документ: Автоматический анализ действий лица: опрос, https://ieeexplore.ieee.org/abstract/document/7990582/)

После получения обучающих данных первым шагом является обнаружение лица, а затем удаление фона и ненужных областей. Детектор лиц Виолы-Джонса — это классический и широко используемый метод обнаружения лиц с реализациями во многих наборах инструментов (например, OpenCV и Matlab). После того, как рамка, ограничивающая лицо, получена, исходное изображение можно обрезать по области лица. После обнаружения лица можно использовать калибровку ключевых точек лица для дальнейшего улучшения эффекта FER. По координатам ключевых точек лицо можно отобразить на едином предустановленном шаблоне с помощью радиальной трансформации. Этот шаг уменьшает отклонение от вращения и деформации лица. В настоящее время наиболее часто используемым методом калибровки лица является IntraFace, который применялся во многих глубоких ТЭР. В методе используется каскадная локализация ключевых точек лица, или SDM, для точного прогнозирования 49 ключевых точек.

1.2 Увеличение данных

Глубокие нейронные сети требуют достаточного количества обучающих данных, чтобы гарантировать производительность обобщения в заданной задаче распознавания. Однако ни одна из общедоступных баз данных, используемых для FER, не может достичь такого объема обучающих данных, поэтому аугментация данных стала очень важным шагом в системе глубокого распознавания выражений. Методы увеличения данных можно разделить на две категории: увеличение данных в автономном режиме и увеличение данных в режиме онлайн.

Автономное улучшение данных глубокого FER в основном расширяет базу данных за счет некоторых операций обработки изображений. Наиболее часто используемые методы включают случайные возмущения и деформации, такие как вращение, горизонтальное переворачивание, масштабирование и т. д. Эти процессы могут генерировать больше обучающих выборок, делая сеть более устойчивой к смещениям и поворотам лиц. В дополнение к базовым манипуляциям с изображениями, CNN или GAN также можно использовать для создания дополнительных обучающих данных.

Онлайн-методы увеличения данных обычно интегрируются в наборы инструментов глубокого обучения, чтобы уменьшить влияние переобучения. Во время обучения входные образцы случайным образом центрируются и переворачиваются по горизонтали, в результате чего база данных в 10 раз больше, чем исходная обучающая база данных.

1.3 Нормализация лица

Изменения освещения и положения головы могут ухудшить производительность FER, поэтому мы вводим два типа методов нормализации лица, чтобы смягчить этот эффект: нормализация освещения и нормализация положения.

Нормализация света: набор инструментов INFace в настоящее время является наиболее часто используемым инструментом нормализации освещения. Исследования показали, что выравнивание гистограммы в сочетании с методами нормализации освещения может повысить точность распознавания лиц. Существует три основных метода нормализации освещенности: нормализация на основе изотропной диффузии, нормализация на основе дискретного косинусного преобразования (нормализация на основе DCT) и разность гауссова (DoG).

нормализация отношения: В некоторых исследованиях FER используется нормализация позы для создания фронтальной перспективы лица, наиболее часто используемый метод предложен Hassner et al.: После калибровки ключевых точек лица создается эталонная модель 3D-текстуры, а затем оцениваются части лица. , Впоследствии исходная фронтальная грань создается путем обратного проецирования входной грани на опорную систему координат. В последнее время также появилась серия глубоких моделей на основе GAN для генерации фронтальных поверхностей (FF-GAN, TP-GAN, DR-GAN).

Особенности изучения глубоких сетей

Глубокое обучение использует многоуровневую сетевую структуру для выполнения различных нелинейных преобразований и представлений для извлечения высокоуровневых абстрактных характеристик изображений. Ниже мы кратко представим некоторые методы глубокого обучения для FER.

2.1 Сверточная нейронная сеть (CNN)

CNN более устойчива к изменениям положения и масштаба лица и работает лучше, чем многослойные персептроны, для невидимых изменений позы лица.

Таблица 1. Параметры и функции модели CNN для FER.

Другие модели на основе CNN, используемые в FER:

CNN на основе региона (R-CNN) используется в FER для изучения функций:

Facial expression recognition in the wild based on multimodal texture features
Combining multimodal features within a fusion network for emotion recognition in the wild

Faster R-CNN идентифицирует выражения лица, создавая высококачественные области-кандидаты:

Facial expression recognition with faster r-cnn

2.2 Сеть глубокого убеждения (DBN)

DBN, предложенный Hinton et al., учится извлекать глубокие иерархические представления обучающих данных. Обучение DBN состоит из двух этапов: предварительное обучение и тонкая настройка. Глубокая сеть сначала инициализируется методом послойного жадного обучения, который может предотвратить локальные оптимумы, не требуя большого количества размеченных данных. Затем параметры и выходные данные сети настраиваются с помощью контролируемого градиентного спуска.

2.3 Глубокий автоэнкодер (DAE)

В отличие от представленных ранее сетей, глубинные автоэнкодеры реконструируют ввод, сводя к минимуму ошибку реконструкции. Существует много вариантов DAE: автокодировщики с шумоподавлением, которые восстанавливают исходные неповрежденные данные из частично поврежденных данных, разреженные сети автокодировщиков, которые увеличивают разреженность представлений изученных признаков, и автокодировщики сжатия, которые увеличивают срок регуляризации в зависимости от активности для извлечения локально инвариантных признаков. сверточный автоэнкодер, использующий сверточные слои вместо скрытых слоев в DAE.

2.4 Рекуррентная нейронная сеть (RNN)

RNN — это коннекционистские модели, которые фиксируют временную информацию и больше подходят для прогнозирования данных последовательности. Алгоритм обратного распространения во времени (BPTT) используется для обучения RNN. LSTM, предложенный Хохрайтером и Шмидхубером, представляет собой особую форму RNN, которая учитывает исчезающие и взрывающиеся градиенты, возникающие при обучении традиционных RNN.

Классификация выражений лица

После изучения глубоких признаков последним шагом FER является определение, к какому классу базовых выражений принадлежит выражение тестового лица. Глубокие нейронные сети могут выполнять сквозное распознавание выражений лиц. Один из методов заключается в добавлении уровня потерь в конце сети для исправления ошибки обратного распространения, а прогнозируемая вероятность каждой выборки может быть выведена непосредственно из сети. Другой подход заключается в использовании глубоких нейронных сетей в качестве инструмента для извлечения признаков, а затем использовании традиционных классификаторов, таких как SVM и случайный лес, для классификации извлеченных признаков.

База данных выражений лица

Таблица 2. Обзор общедоступной базы данных выражений лица

Elicit (метод генерации выражения): P = поставленный (постановочный), S = спонтанный (естественный)

Condit (условия сбора): Lab (лабораторный сбор), Web (веб-скрапинг), Movie (скриншоты фильмов)

Расширенные алгоритмы

Мы делим текущую основную работу на две категории по типу данных: глубокие сети FER для неподвижных изображений и глубокие сети FER для изображений динамической последовательности.

1. Сеть Deep FER неподвижного изображения

Таблица 3 Оценка алгоритма глубокой сети FER для неподвижных изображений

1.1 Предварительная подготовка и тонкая настройка

Непосредственное обучение глубоких сетей на относительно небольших наборах данных выражений лица может легко привести к переобучению. Чтобы решить эту проблему, многие исследования предварительно обучают пользовательские сети с нуля, используя дополнительные данные, ориентированные на задачи, или настраивают предварительно обученные модели сетей (AlexNet, VGG, VGG-face и GoogleNet).

Вспомогательные данные могут быть выбраны из больших баз данных распознавания лиц (CASIA WebFace, Celebrity Face in the Wild (CFW), набор данных FaceScrub) или относительно больших баз данных FER (FER2013 и база данных лиц Торонто). Князев и др. обнаружили, что модель FR, обученная на большой базе данных FR с низкой производительностью, может достичь лучших результатов в задаче распознавания выражений после тонкой настройки базы данных FER2013. Предварительное обучение на большой базе данных FR оказывает положительное влияние на точность распознавания выражений, а дальнейшая точная настройка базы данных выражений лица может эффективно повысить точность распознавания.

Нг и др. предложили многоэтапный метод тонкой настройки: на первом этапе используется FER2013 для тонкой настройки предварительно обученной модели, а на втором этапе используются обучающие данные целевой базы данных для тонкой настройки модели. больше подходит для целевой базы данных.

Рисунок 3 Комбинация различных методов тонкой настройки. где «FER28» и «FER32» — разные части базы данных FER2013. «EmotiW» — целевая база данных. Этот двухэтапный подход к тонкой настройке позволяет достичь наилучших результатов.

Дин и др. обнаружили, что из-за разрыва между базами данных FR и FER информация о лицах по-прежнему остается в точно настроенной сети FR, что ухудшает способность сети представлять различные выражения. Поэтому они предложили новый алгоритм обучения под названием «FaceNet2ExpNet», который дополнительно интегрировал знания об области лица, полученные сетью FR, для корректировки обучения целевой сети FER. Обучение разделено на два этапа:

Рисунок 4 (a) этап, фиксированная сеть глубоких поверхностей, которая обеспечивает регулярные члены на уровне признаков и использует функцию распределения, чтобы постепенно сближать признаки сети экспрессии и характеристики сети лиц. На этапе (b) дискриминантность изученных признаков дополнительно улучшается, добавляется полностью сверточный слой со случайной инициализацией, а затем информация о классе выражений используется для совместного обучения всей сети выражений.

Поскольку точно настроенная сеть лиц достигла конкурентоспособной производительности в наборе данных выражений, она может служить хорошей инициализацией для сети выражений. Кроме того, поскольку полносвязные слои обычно охватывают больше семантических признаков предметной области, только сеть лиц используется для обучения сверточных слоев, в то время как полносвязные слои обучаются с нуля с помощью информации о выражении.

1.2 Диверсифицированный вход в сеть

Традиционные методы обычно используют RGB-изображения всего лица в качестве входных данных сети для изучения функций, однако этим необработанным пикселям не хватает эффективной информации, такой как текстура и инвариантность к вращению, перемещению и масштабированию. Некоторые методы используют извлеченные вручную функции и их расширенную информацию в качестве сетевых входных данных для решения этой проблемы.

Рис. 5. Пиксели изображения (слева) и функции LBP (в центре). Леви и др. предлагают отображать эти два вида информации в трехмерном метрическом пространстве (справа) в качестве входных данных CNN.

Помимо функций LBP, функции SIFT, функции AGE (угол + градиент + край), функции NCDV (вектор разности центров окрестности) используются для диверсификации входных данных сети.

1.3 Вспомогательный сетевой блок, сетевой уровень

На основе структуры CNN в некоторых исследованиях было предложено добавить вспомогательные сетевые блоки и структуры сетевого уровня для расширения возможностей представления признаков, связанных с выражениями.

Рисунок 6. Репрезентативные сетевые слои и структуры сетевых блоков, разработанные для глубокого распознавания выражений лица

(a) Ху и др. встраивают 3 типа контролируемых сетевых блоков в структуру CNN для обеспечения мелкого, среднего и глубокого наблюдения. Эти блоки разработаны в соответствии с возможностями представления иерархических признаков исходной сети. Впоследствии межклассовые оценки для каждого блока накапливаются на уровне соединения для второго уровня контроля.

(b) Cai и др. предлагают слой островных потерь. Уровень островных потерь, вычисляемый слоем извлечения признаков, и потери softmax, вычисляемые уровнем принятия решений, объединяются для наблюдения за обучением CNN.

(c) Лю и др. предлагают (N+M) наборов слоев кластеризации потерь. В процессе обучения используются методы извлечения твердых образцов с учетом идентичности и методы извлечения положительных образцов, чтобы уменьшить влияние вариаций внутри идентичности в одной и той же категории выражения.

1.4 Сетевая интеграция

Исследования показали, что ансамбль из нескольких сетей превосходит одну сеть. Есть два фактора, которые следует учитывать при интеграции в сеть:

(1) Сеть должна иметь достаточно разнообразия для обеспечения взаимодополняемости.

(2) Подходящий ансамблевый метод может эффективно накапливать композиционную сеть.

Что касается первого фактора, необходимо учитывать различные обучающие базы данных и различные сетевые структуры и параметры для увеличения разнообразия.

Для второго фактора сеть может быть объединена на двух разных уровнях: уровне объектов и уровне принятия решений. Для векторного слоя наиболее распространенным методом является соединение признаков, изученных разными сетями, для формирования нового вектора признаков для представления изображения. На уровне принятия решений обычно используются три метода: голосование большинством, простое среднее и средневзвешенное.

Рис. 7 Система сетевой интеграции на уровне функций и уровне принятия решений

(a) Интеграция слоя признаков: Баргал и др. предлагают объединить три разных признака (выходные данные слоя VGG13 fc5, выходные данные слоя VGG16 fc7 и выходные данные слоя пула Resnet) после нормализации для создания единого вектора признаков (FV), а затем использовать его для описать входной кадр.

(b) Интеграция уровня принятия решений: Ким и др. предложили трехуровневую комбинированную структуру, которая интегрируется на уровне принятия решений для получения достаточного разнообразия решений.

1.5 Многозадачная сеть

Многие существующие сети FER сосредотачиваются на одной задаче и изучают чувствительные к выражению функции, не принимая во внимание взаимодействие между другими скрытыми факторами. Однако в реальном мире ЧОК переплетается с различными факторами, такими как поза головы, освещение и личность субъекта (морфология лица). Для решения этой проблемы вводится многозадачное обучение для переноса знаний из других смежных задач и устранения вредных факторов.

Рис. 8. Пример многозадачной сети FER. В MSCNN, предложенной Zhang et al., пара изображений загружается в сеть MSCNN во время обучения. В задаче распознавания выражений используется кросс-энтропийная потеря для изучения особенностей изменения выражения, а в задаче распознавания лиц используется потеря контраста, чтобы уменьшить различия между сходными чертами выражения.

1.6 Каскадные сети

В каскадной сети различные модули, решающие разные задачи, последовательно объединяются, образуя более глубокую сеть, в которой выход предыдущего модуля служит входом последнего модуля. Связанные исследования предлагают изучить иерархические признаки с новыми комбинациями различных структур, с помощью которых переменные, не связанные с выражением, могут быть отфильтрованы слой за слоем.

Рис. 9. Пример каскадной сети FER. Лю и др. предложили глубокую сеть с поддержкой AU (AUDN), которая состоит из 3 последовательных модулей: в первом модуле двухслойная CNN обучается генерировать сверхполное представление, которое кодирует поверхностные вариации всех выражений во всех местах. . Во втором модуле уровень рецептивного поля с учетом AU используется для поиска подмножества сверхполных представлений. В последнем модуле иерархические функции изучаются с помощью многоуровневой структуры RBM.

2. Глубокие сети FER с динамическим изображением последовательности

2.1 Агрегация кадров

Поскольку кадры в данном видеоклипе имеют разную интенсивность экспрессии, прямое измерение покадровой ошибки в целевом наборе данных не дает удовлетворительных результатов. Многие методы используются для агрегирования выходных кадров сети для каждой последовательности, чтобы существенно улучшить производительность FER. Мы делим эти методы на две категории: агрегация кадров на уровне решений и агрегация кадров на уровне функций.

Агрегация кадров уровня принятия решений:

Рисунок 10. Кахоу и др. предлагают агрегацию кадров на уровне принятия решений. (a) Для последовательностей с более чем 10 кадрами разделите общее количество кадров на 10 независимых групп кадров по времени и усредните их векторы вероятности. (b) Для последовательностей с менее чем 10 кадрами расширьте последовательность до 10 кадров, равномерно повторив кадры.

Агрегация кадров векторного слоя: Лю и др. извлекли признаки изображения для заданной последовательности, а затем применили три модели: вектор признаков (линейное подпространство), ковариационную матрицу и многомерное распределение Гаусса.

2.2 Сеть силы экспрессии

Большинство методов фокусируются на выявлении выражений пиковой интенсивности, игнорируя при этом малозаметные выражения низкой интенсивности. В этом разделе мы вводим несколько глубоких сетей, которые берут в качестве входных данных обучающие образцы определенной интенсивности, тем самым используя внутреннюю связь выражений одного и того же субъекта в последовательностях разной интенсивности.

Рисунок 11. Чжао и др. предложили глубокую сеть, управляемую пиками (PPDN), для распознавания выражений, инвариантных к интенсивности. PPDN принимает в качестве входных данных пару пиковых и непиковых однородных изображений экспрессии от одного и того же человека, а затем использует потерю нормы L2 для минимизации расстояния между двумя изображениями. Авторы используют подавление пикового градиента (PGS) в качестве механизма обратного распространения, чтобы аппроксимировать особенности пиковых выражений с характеристиками непиковых выражений. В то же время информация о градиенте пиковых выражений игнорируется при минимизации нормы L2, чтобы избежать инверсии.

2.3 Глубокие пространственно-временные FER-сети

В то время как описанная выше агрегация кадров может интегрировать изученные характеристики кадра для создания единого вектора признаков, представляющего всю видеопоследовательность, критические временные зависимости не используются. Напротив, пространственно-временные сети FER принимают серию кадров во временном окне в качестве входных данных с неизвестной интенсивностью выражения и используют информацию о текстуре и временные зависимости в последовательностях изображений для более тонкого распознавания выражения.

RNN и C3D:

Рисунок 12. Модель 3DCNN-DAP, предложенная Liu et al. Входная последовательность n кадров свертывается с помощью 3D-фильтра.Частичный фильтр 13*c*k соответствует 13 определяемым человеком областям лица, которые используются для свертки k карт признаков для создания карт обнаружения области активности лица, соответствующих c категориям выражений. .

трек ключевых точек лица:

Рисунок 13 Чжан и др. предлагают сеть космических событий. Временная сеть PHRNN используется для отслеживания ключевых точек, а пространственная сеть MSCNN используется для функций, не зависящих от идентичности, и две сети обучаются отдельно. Затем вероятности, предсказанные двумя сетями, объединяются для пространственно-временного FER.

сетевая интеграция:

Симонян и др. предложили двухпотоковую CNN для распознавания видеодействий, где одна сеть CNN использовалась для извлечения информации оптического потока видеокадров, а другая CNN использовалась для извлечения поверхностной информации неподвижных изображений, а затем выходные данные две сети были объединены. Эта сетевая структура также вдохновила область FER.

Рисунок 14. Юнг и др. предлагают совместный метод точной настройки для совместной тренировки DTAN (принадлежащий «RNN-C3D») и DTGA («принадлежащий траекториям лицевых ключевых точек»).

Таблица 4. Результаты оценки репрезентативных методов динамического распознавания глубоких выражений на общих наборах данных.

S = пространственная сеть, T = временная сеть, LOSO = исключение одного субъекта (перекрестная проверка)

Проблемы, связанные с доменом

Окклюзия и нефронтальные позы — две основные проблемы FER, которые могут изменить внешний вид исходного выражения лица, особенно в реальных сценах.
Хотя данные RGB в настоящее время являются стандартными данными для глубины FER, на эти данные легко влияют условия освещения, а в разных частях лица отсутствует определенная информация о глубине.
Синтез выражения лица в реальных сценах может синтезировать различные выражения лица через интерактивный интерфейс.
В дополнение к использованию CNN для FER, в нескольких исследованиях используются методы визуализации для качественного анализа того, как CNN способствуют поверхностному процессу обучения FER, и качественно определить, какие части лица дают наиболее различительную информацию.
На основе исходной задачи классификации выражений предлагаются новые задачи: задача на распознавание основной и дополнительной эмоции, задача на истинную и ложную эмоцию.

Возможности и вызовы

Поскольку исследования FER смещают свое основное внимание на сложные условия реальной сцены, многие исследователи используют методы глубокого обучения для решения этих трудностей, таких как изменение освещения, окклюзии, нефронтальные позы головы, предвзятость идентичности и распознавание выражений низкой интенсивности. Учитывая, что FER — это задача, управляемая данными, а для обучения достаточно глубокой сети требуется большой объем обучающих данных, основной проблемой для глубоких систем FER является отсутствие обучающих данных как с точки зрения качества, так и количества.

Поскольку люди разного возраста, культуры и пола выражают выражение лица по-разному, идеальный набор данных по выражению лица должен включать в себя множество примеров изображений с точными метками атрибутов лица, а не только выражений, но и других атрибутов, таких как возраст, пол, раса, которые будет способствовать углубленным исследованиям, связанным с FER, в зависимости от возраста, пола и культуры. С другой стороны, точная аннотация большого количества сложных изображений естественной сцены является очевидным препятствием для создания базы данных выражений. Разумными подходами являются надежный краудсорсинг под руководством экспертов или полностью автоматизированные инструменты аннотаций, которые были пересмотрены экспертами и могут обеспечить примерно точные аннотации.

Еще одна важная проблема, которую следует учитывать, заключается в том, что, хотя технология распознавания выражений была тщательно изучена, выражения, которые мы определяем, охватывают лишь небольшое подмножество конкретных категорий и не могут представлять все выражения, которые люди могут использовать в реальных взаимодействиях. В настоящее время существуют две новые модели, которые можно использовать для описания большего количества эмоций: модель FACS, которая описывает визуальные изменения в выражении лица путем объединения различных единиц активности мышц лица; модель измерений предлагает две переменные с непрерывными значениями, значение оценки и валентность. -возбуждение, которое непрерывно кодирует небольшие изменения эмоциональной напряженности.

Кроме того, смещение между разными базами данных и несбалансированное распределение категорий выражений — две другие проблемы, которые необходимо решить в области глубокого FER. Для решения проблемы предвзятости между базами данных можно использовать глубокую адаптацию предметной области и дистилляцию знаний. Одним из решений проблемы дисбаланса классов выражений является использование увеличения и синтеза данных для балансировки распределения классов на этапе предварительной обработки. Другой вариант — добавить в глубокую сеть чувствительные к затратам слои потерь во время обучения.

Наконец, человеческие выражения в реальных приложениях включают кодирование различных точек зрения, и выражение лица — лишь одна из них. Хотя распознавание выражений на основе видимых изображений лиц может дать удовлетворительные результаты, в будущем распознавание выражений должно быть объединено с другими моделями в высокоуровневые структуры, чтобы предоставить дополнительную информацию и еще больше повысить надежность. Например, участники EmotiW Challenge и Audio Video Emotion Challenge (AVEC) определили звуковую модель как второй по важности элемент и использовали несколько методов слияния для мультимодального распознавания выражений лица.

Ссылка на оригинальный текст статьи (нажмите, чтобы прочитать исходный текст):

https://arxiv.org/pdf/1804.08348.pdf

Для получения дополнительных галантерейных товаров, пожалуйста, обратите внимание на публичный аккаунт WeChat «AI Frontline» (ID: ai-front)