Обзор распознавания выражений лица

искусственный интеллект глубокое обучение алгоритм Нейронные сети

  Эта статья в основном относится к статье «Глубокое распознавание выражений лица: обзор».

  Ссылка на диссертацию:АР Вест V.org/ABS/1804.08…

  Эта статья[1] о профессоре Дэн Вэйхуне из Бэйю.Глубокое распознавание выражения лица (DFER) (распознавание эмоций), обзорная статьяСаммит компьютерного зрения CVPRзаписано. Для новичка вроде меня, который интересуется распознаванием эмоций, но не делал никаких конкретных приложений, эта статья идеально подходит для прочтения.


вводить

  Эмодзи можно назвать эсперанто, независимо от национальных границ, расы и пола, можно сказать, что у всех есть общее выражение. FEP широко используется в робототехнике, медицинском обслуживании, обнаружении усталости водителя и системах взаимодействия человека с компьютером.Еще в 20 веке Экман и Фризен определили шесть типовосновное выражение: Злой, испуганный, испытывающий отвращение, счастливый, грустный и удивленный, за которым следует выражение «презрение». Новаторская работа и интуитивно понятные определения делают эту модель все еще популярной в автоматическом анализе выражения лица (AFEA).

   По представлению признаков системы ФЕР можно разделить на две категории: ФЕР изображения и ФЕР видео. FER изображения извлекает только особенности текущего изображения, в то время как для видео необходимо учитывать взаимосвязь между соседними кадрами. По сути, объекты обработки всех задач компьютерного зрения можно разделить на две категории: картинки и видео.

Традиционный метод   FER использует извлекаемые вручную признаки и неглубокое обучение, недостатки этого метода далее обсуждаться не будут. Благодаря развитию глубокого обучения и появлению более сложного набора данных FER2013 все больше и больше исследователей применяют методы глубокого обучения к FER.

Глубокое распознавание выражения лица

   В этом разделе обсуждаются три этапа глубокого обучения для приложений распознавания лиц. Это предварительная обработка, извлечение признаков и классификация признаков соответственно.Конкретные методы каждого шага кратко описаны, и цитируются соответствующие статьи.

предварительная обработка

выравнивание лица

  Для набора данных первым шагом является удаление фона и областей, не относящихся к лицам, которые не имеют отношения к лицам. Детектор лица Viola Jones (V&J) [2] (реализован как в OpenCV, так и в Matlab), детектор может обрезать исходное изображение, чтобы получить область лица,    Второй шаг — выравнивание лица, которое имеет решающее значение, поскольку может уменьшить влияние изменений масштаба лица и поворотов. Наиболее часто используемая реализация выравнивания лица — IntraFace [3], IntraFace использует алгоритм SDM для определения 49 черт лица (глаза, две брови, нос и рот).

увеличение данных

  Улучшение данных включает два способа: онлайн и офлайн:

  • В автономном режиме: случайное возмущение, преобразование изображения (поворот, комментарий, отражение, масштабирование и выравнивание), добавление шума (соль, перец и крапинка), настройка яркости и насыщенности, а также добавление 2D-гауссова шума между глазами. Кроме того, состязательная нейронная сеть GAN [4] используется для генерации лиц, а 3DCNN помогает AU генерировать выражения. Не было проверено, улучшает ли производительность сети использование GAN для генерации лиц.
  • Онлайн: Включено в обучение, изображения обрезаны, перевернуты по горизонтали. Модель в основном обучается на случайных возмущениях.

нормализация лица

  Изменение освещения и позы головы лица ослабит производительность обучающей модели.Существуют две стратегии нормализации лица для уменьшения воздействия, а именно нормализация яркости и нормализация позы.

  • Нормализация яркости: Inface Toolbox [5] является наиболее часто используемым блоком обнаружения лиц, не зависящим от освещения. Помимо интуитивно понятной регулировки яркости, есть еще и регулировка контрастности. Общие методы регулировки контрастности включают нормализацию гистограммы, нормализацию DCT и нормализацию собаки.
  • Нормализация позы: это сложная проблема, и ни один из существующих методов не идеален. Существует выравнивание 2D-ориентира, выравнивание 3D-ориентира, оценка по параметрам изображения и камеры, а также измерение и расчет с помощью датчика глубины. Все новые модели основаны на GAN, включая FF-GAN, TP-GAN и DR-GAN.

Глубокое изучение функций

В этой части в основном рассказывается об использовании моделей глубокого обучения для извлечения функций, включая сверточную нейронную сеть (CNN), глубокую сеть убеждений (DBN), глубокий автоэнкодер (Deep autoencoder, DAN) и рекуррентную нейронную сеть (рекуррентную нейронную сеть, RNN). . Процесс глубокого распознавания выражений лица выглядит следующим образом: как видно из рисунка ниже, в части модели глубокой сети есть четыре широко используемые модели. Автор просто представил несколько сетевых моделей, и я не буду здесь вдаваться в подробности. Модель CNN в моих предыдущих сообщениях в блогеСтруктура и связанные с ней алгоритмы сверточной нейронной сетииРезюме интерпретации модели сверточной нейронной сети - LeNet5, AlexNet, ZFNet, VGG16, GoogLeNet и ResNetЕсть детали. Остальные сетевые модели будут разобраны по одной в будущем.

enter description here

Классификация выражений лица

   После того, как функция извлечена, последним шагом является ее классификация. В традиционных системах FER извлечение признаков и классификация признаков независимы. Глубокое обучение FER — это сквозная модель, которая может добавить уровень потерь в конце сети для корректировки ошибки обратного распространения, а прогнозируемая вероятность может быть напрямую выведена сетью. Также можно комбинировать их, то есть использовать глубокое обучение для извлечения признаков, а затем использовать классификаторы, такие как SVM, для классификации.

База данных выражений лица

   В этом разделе представлены общедоступные наборы данных для FER.

  • CK+: в том числе 123 субъекта, 593 последовательности изображений. База данных была записана 118 субъектами, и среди этих 593 последовательностей изображений 327 последовательностей имели эмоциональные метки. Содержит 7 выражений помимо нейтральных: гнев, презрение, отвращение, страх, счастье, печаль и удивление.
  • MMI: включает 32 предмета и 326 последовательностей изображений. 213 последовательностей имеют метки эмоций. Содержащий 6 выражений (по сравнению с CK+ без презрения), MMI сложнее, потому что многие люди носят аксессуары.
  • JAFFE: Содержит 213 (каждое разрешение 256*256) изображений лиц японских женщин, включая 7 выражений. В базе данных все фронтальные лица, а исходные изображения были скорректированы и обрезаны.Освещение - все фронтальные источники света, но интенсивность света разная.
  • TFD: Модифицированная база данных представляет собой набор нескольких наборов данных по выражениям лица, TFD содержит 112234 изображения (каждое изображение изменено до размера 48 * 48), а глаза всех субъектов находятся на одинаковом расстоянии. Среди них отмечено 4189, в том числе 7 видов выражений.
  • FER2013: База данных автоматически собирается через Google Image API, и всем изображениям в базе данных исправляются их теги, и изображения настраиваются на размер 48 * 48. Содержит 28709 обучающих изображений, 3589 тестовых изображений, включая 7 выражений.
  • AFEW: набор данных AFEW — это набор данных, используемый в серии испытаний по распознаванию эмоций Emotion Recognition In The Wild Challenge (EmotiW), которые проводятся ежегодно с 2013 года. Содержимое этого набора данных представляет собой видеоклип, содержащий выражения из фильмов, который содержит 7 типов выражений. Обучающий набор, проверочный набор и тестовый набор содержат 773, 383 и 653 выборки соответственно.
  • SFEW: этот набор данных представляет собой статический фрейм с выражениями, извлеченными из набора данных AFEW, который содержит 7 типов выражений. Обучающий набор, проверочный набор и тестовый набор содержат 958, 436 и 372 выборки соответственно.
  • Multi-PIE: содержит 4 сцены, 9 условий освещения, 337 объектов под 15 углами обзора и в общей сложности 755 370 изображений. Содержит 6 выражений (без презрения)
  • BU-3DFE: 606 последовательностей выражений лица, полученных от 100 человек, в том числе 6 выражений (без презрения), в основном используемых для трехмерного анализа выражений лица.
  • Oulu-CASIA: 80 немеченых субъектов собрали 2880 последовательностей изображений. Содержит 6 эмоций (без презрения). Существуют камеры инфракрасного (NIR) и видимого света (VIS) для съемки в 3 различных условиях освещения.
  • RaFD: содержит 1608 изображений 67 предметов с тремя разными направлениями взгляда, включая переднее, левое и правое. Содержит 7 выражений.
  • KDEF: Первоначально использовался для медицинских и психологических исследований. Набор данных состоит из 6 выражений 70 актеров с 5 ракурсов.
  • EmotioNet: Содержит почти 1 миллион изображений выражения лица, собранных из Интернета.
  • RAF-DB: Содержит 29 672 изображения лица, собранные из Интернета, в том числе 7 основных выражений и 11 сложных выражений.
  • AffectNet: Содержит более 1 миллиона изображений лиц, собранных из Интернета, из которых 450 000 изображений снабжены вручную аннотациями с 7 выражениями.

enter description here

Текущий уровень развития ТЭР

   обобщает ход FER на основе неподвижных изображений и последовательностей движущихся изображений (видео).

Неподвижное изображение FER Progress

  Для каждого набора данных в приведенной ниже таблице показана производительность современных современных методов для этого набора данных.

enter description here

Предварительная подготовка и тонкая настройка

   Прямое обучение глубоких сетей на относительно небольших наборах данных может легко привести к переобучению. Чтобы решить эту проблему, во многих исследованиях проводится предварительное обучение сетей на больших наборах данных или точная настройка уже обученных сетей.

enter description here

   Как показано на рисунке выше, он сначала обучается на наборе данных ImageNet, а затем настраивается на конкретном наборе данных выражения лица. Точная настройка дает хорошие результаты.Существуют различные методы точной настройки для распознавания выражений лица, такие как оценка, исправление определенных и точная настройка различных слоев сети с различными наборами данных.Подробности см. в документах, цитируемых в оригинале. текст.    Кроме того, в литературе [6] указано, что существует огромная разница между наборами данных FR и FER, и лицо, кажется, ослабляет разницу в выражениях лица, и для устранения этого эффекта предлагается сеть FaceNet2ExpNet. Модель разделена на два этапа: сначала модель распознавания лиц используется для извлечения признаков, а затем сеть распознавания выражений используется для устранения ослабления эмоциональных различий, вызванных моделью распознавания лиц. Как показано ниже.

enter description here

Разнообразный сетевой ввод

   Традиционный подход заключается в использовании исходного изображения RGB в качестве входных данных сети, однако в исходных данных отсутствует важная информация, такая как информация о текстуре, и инвариантность масштабирования изображения, поворота, окклюзии и освещения. Таким образом, некоторые функции, разработанные вручную, могут быть использованы. Такие как SIFT, LBP, MBP, AGEhe NCDV и т. д. PCA может обрезать черты лица для изучения функций вместо всего лица и т. д.

Улучшения вспомогательного блока и слоя

  Основываясь на классической архитектуре CNN, некоторые исследования разработали хорошие вспомогательные модули или улучшили сетевой уровень.В этой части статьи есть несколько примеров.Если вам интересно, вы можете найти соответствующие статьи и посмотреть их.    Стоит отметить, что Softmax не очень хорошо работает в области распознавания выражений. Это потому чтоВыражения менее различимы между классами. Автор организует несколько улучшений слоя классификации выражений.

  • Вдохновленный потерей центра, к расстоянию между функцией и соответствующим классом добавляется штрафной срок, который делится на два типа.
    • Одним из них является потеря островов[7], которая увеличивает расстояние между классами, как показано на следующем рисунке.
      enter description here
    • Другой заключается в уменьшении потери LP[8] расстояния внутри класса, так что локальные соседние объекты одного и того же класса объединяются вместе.
  • Основываясь на потере триплетов, идея потери триплетов может относиться к исходному тексту иэтот пост в блоге.
    • экспоненциальные потери на основе триплетов (увеличение веса сложных образцов)
    • Потеря кластера (N + M)-tupes (уменьшая сложность выбора привязки и пороговое значение триплетного неравенства), как показано на следующем рисунке.
      enter description here

сетевая интеграция

   Предыдущие исследования показали, что ансамбли из нескольких сетей могут работать лучше, чем одна сеть. При интеграции сети необходимо учитывать два момента:

  • Сетевые модели должны быть достаточно разнообразными, чтобы обеспечить взаимодополняемость сетей.
  • Иметь надежный ансамблевый алгоритм

   Что касается первого пункта, то существует множество способов создания разнообразия сети.Разные обучающие данные, разные методы предварительной обработки, разные модели сети и разные параметры могут генерировать разные сети.

   Относительно алгоритма ансамбля второй точки. Есть также два основных момента: один — интеграция функций, а другой — интеграция выходных решений. Наиболее распространенной практикой интеграции функций является прямое связывание функций различных моделей сети, а также следующие методы.

enter description here

   Что касается механизма голосования для интеграции решений, разные сети имеют разный вес. Несколько стратегий интеграции решений показаны в таблице ниже.

enter description here

enter description here

многозадачная сеть

   В настоящее время многие сети являются результатом выполнения одной задачи, но в действительности часто необходимо учитывать роль других факторов. Многозадачная модель может получать дополнительную информацию из других задач, чтобы улучшить способность сети к обобщению. О преимуществах многозадачной модели см.этот пост в блоге. Как показано ниже, две задачи проверки лица и распознавания выражений лица интегрированы в одну сеть в модели MSCNN [9].

enter description here

сетевой каскад

   В каскадной сети разные модули объединяются для решения разных задач для разработки более глубокой сети, а выходные данные предыдущего модуля используются последним модулем. Как показано на рисунке ниже, в сети AUDN сеть состоит из трех частей.

enter description here

Достижения в FER для динамических последовательностей изображений

   Динамическое распознавание выражения лица более полно, чем статические изображения.Последовательность динамических изображений здесь относится к видео.

агрегация кадров

   Учитывая, что выражения имеют разное изменение в разное время, а отдельно подсчитать результаты каждого кадра как выход нельзя, необходимо выдавать результат распознавания для последовательности кадров, что требует агрегирования кадров. То есть вектор признаков используется для представления этого временного ряда. Подобно ансамблевым алгоритмам, существует два типа агрегации кадров: агрегация кадров на уровне решений и агрегация кадров на уровне функций. Те, кому интересны эти две части, могут обратиться к статье.

Сеть экспрессии интенсивности

   В видео будут небольшие изменения в выражении лица, а интенсивность относится к степени, в которой все кадры в видео выражают определенное выражение. Как правило, определенное выражение может быть лучше всего выражено в средней позиции, которая является пиковой интенсивностью. Большинство методов сосредотачиваются на окрестности пика и игнорируют кадры впадины в начале и конце. Эта часть в основном знакомит с несколькими глубокими сетями.Вход представляет собой последовательность образцов с определенной информацией об интенсивности, а выход - результат корреляции между кадрами разной интенсивности в определенном типе выражения. Например, PPDN (пиковый пилот-сигнал), который используется для определения корреляции между кадрами во внутренней экспрессивной последовательности, и каскадная сеть PPDN DCPN, основанная на PPDN, которая обладает более глубокими и надежными возможностями идентификации. Хотя эти сети рассмотрели преобразование выражений в последовательности и даже разработали различные функции потерь, чтобы вычислить изменяющуюся тенденцию выражений, я действительно чувствую, что такие затраты на самом деле бессмысленны для инженеров. Если вам интересно, вы можете посмотреть соответствующий метод в статье, который не будет повторяться здесь.

Глубокие пространственно-временные сети FER

   Введенная ранее сеть агрегации кадров и выражения интенсивности представляет собой традиционные структурированные процессы, в то время как серия кадров вводится как отдельная последовательность изображений в видео, а выводится результат классификации определенного типа выражения. Сеть RNN может использовать «информацию о последовательности», поэтому модель FER видео использует сеть RNN, а C#D:

  • RNN: Теоретически он может использовать произвольные длинные последовательности информации, а RNN может моделировать изменения во временных рядах.
  • C3D: на основе двумерной пространственной свертки к обычному изображению по оси времени добавляется временное измерение для формирования трехмерной пространственной и временной свертки. Например, 3DCNN-DAP [10], модель сети показана на рисунке ниже.
    enter description here

   Существует также «насильственный» подход, который не учитывает измерение времени, склеивая последовательность кадров в большой вектор, а затем выполняя классификацию CNN, такую ​​как DTAN [11].

  • Трек движения лицевых ориентиров: изучая трек изменений черт лица, а затем анализируя изменение выражения, например, сеть глубокой временной геометрии (DTGN). Этот метод объединяет значения координат x и y ориентиров в каждом кадре.После нормализации ориентир используется в качестве измерения траектории движения или рассчитываются парные функции расстояния L2 характерных точек ориентира, а пространство в пределах кадр получается на основе информации об изменении PHRNN. Кроме того, ориентиры разбиты на 4 блока по чертам лица, входам в BRNN и расположены локальные особенности, как показано на следующем рисунке:
    enter description here
  • Каскадная сеть: так же, как и предыдущая идея каскадной сети со статическими изображениями, в основном CNN извлекает признаки, а каскадная RNN выполняет классификацию признаков последовательности. Например, LRCN, каскадные CNN и LSTM, аналогичные, есть каскадные DAE для извлечения признаков, LSTM для классификации и ResNet-LSTM, то есть на низкоуровневом уровне CNN, напрямую использующие LSTM для подключения низкоуровневых функций CNN. между последовательностями, 3DIR Слой объектов 3D Inception-ResNet построен с использованием LSTM как единой единицы, и существует множество других подобных каскадных сетей, включая замену LSTM на CRF и так далее.
  • Сетевая интеграция: например, две сетевые модели CNN используются для распознавания поведения, одна обучается с помощью плотного оптического потока многокадровых данных для получения информации о времени, другая используется для изучения характеристик однокадрового изображения и, наконец, выходные данные две CNN сливаются. Существует также многоканальное обучение, например, один канал используется для обучения информации оптического потока между естественными лицами и выразительными лицами, а другой используется для обучения функциям выражения лица, а затем используются три стратегии слияния: среднее слияние, SVM- слияние на основе и слияние на основе DNN. Существуют также методы, основанные на сочетании временной сети PHRNN и пространственной сети MSCNN, для извлечения локальных глобальных отношений, геометрических изменений, а также статической и динамической информации. Помимо слияния, существуют также совместные тренировки, такие как совместная тренировка DTAN и DTGN.
    enter description here

  Наилучшие результаты распознавания выражений динамических последовательностей на различных наборах данных в настоящее время представлены в следующей таблице:

enter description here

Окончательная договоренность непростая, нажмите на волну внимания или зайдите в мой личный блог, чтобы просмотретьБлог Чонг Вэй.

использованная литература

[1]: Li S, Deng W. Deep Facial Expression Recognition: A Survey[J]. 2018.

[2]: Viola P, Jones M. Rapid object detection using a boosted cascade of simple features[J]. Proc Cvpr, 2001, 1:511.

[3]: Torre F D L, Chu W S, Xiong X, et al. IntraFace[C]// IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. IEEE, 2015:1-8.

[4]: Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]// International Conference on Neural Information Processing Systems. MIT Press, 2014:2672-2680.

[5]: [http://luks.fe.uni-lj.si/sl/osebje/vitomir/face tools/INFace/](http://luks.fe.uni-lj.si/sl/osebje/vitomir/face tools/INFace/)

[6]: Ding H, Zhou S K, Chellappa R. FaceNet2ExpNet: Regularizing a Deep Face Recognition Net for Expression Recognition[J]. 2016:118-126.

[7]: Cai J, Meng Z, Khan A S, et al. Island Loss for Learning Discriminative Features in Facial Expression Recognition[J]. 2017.

[8]: Li S, Deng W, Du J P. Reliable Crowdsourcing and Deep Locality-Preserving Learning for Expression Recognition in the Wild[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2017:2584-2593.

[9]: Zhang K, Huang Y, Du Y, et al. Facial Expression Recognition Based on Deep Evolutional Spatial-Temporal Networks[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2017, PP(99):1-1.

[10]: Liu M, Li S, Shan S, et al. Deeply Learning Deformable Facial Action Parts Model for Dynamic Expression Analysis[M]// Computer Vision -- ACCV 2014. Springer International Publishing, 2014:143-157.

[11]: Jung H, Lee S, Yim J, et al. Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition[C]// IEEE International Conference on Computer Vision. IEEE, 2016:2983-2991.

Категории