Содержание этой статьи взято из статьи: Насколько мы далеки от решения 2D- и 3D-выравнивания лица?
Авторы: Адриан Булат и Георгиос Цимиропулос, Ноттингемский университет.
Резюме
В этой статье исследуется, в какой степени очень глубокая нейронная сеть достигает производительности, близкой к насыщенной, на существующих наборах данных 2D и 3D для выравнивания лиц. Для этой цели мы предлагаем 5 вкладов: (a) Сочетая самые современные архитектуры локализации ориентиров и самые современные остаточные блоки, мы впервые создаем очень надежный эталонный тест, обученный на очень большом 2D-набор данных ориентиров лица и оценивается по всем другим наборам данных ориентиров лица. (b) Мы создаем набор данных, который преобразует аннотации 2D-ориентиров в 3D и объединяет все существующие наборы данных для создания самого большого и сложного на сегодняшний день набора данных 3D-ориентиров лица, LS3D-W (~ 230 000 изображений). (c) Затем мы обучаем нейронную сеть для трехмерного выравнивания лица (лицо выравнивание) и оценены на новом наборе данных LS3D-W. (d) Мы дополнительно исследуем все «традиционные» факторы, влияющие на производительность выравнивания лица, такие как большая поза, инициализация и разрешение, и вводим «новый» фактор — размер сети. (e) Наше исследование показывает, что как 2D, так и 3D сети выравнивания лица достигают очень высокой производительности, которая, вероятно, близка к производительности насыщения используемых наборов данных. Код для обучения и тестирования, а также набор данных можно загрузить с https://www.adrianbulat.com/face-alignment/.
Документ: https://arxiv.org/pdf/1703.07332.pdf
Гитхаб: https://github.com/1adrianb/face-alignment
и скачать модель
2D-ВЕНТИЛЯТОР: https://www.adrianbulat.com/downloads/FaceAlignment/2D-FAN-300W.t7
3D-ВЕНТИЛЯТОР: https://www.adrianbulat.com/downloads/FaceAlignment/3D-FAN.t7
2D-to-3D FAN: https://www.adrianbulat.com/downloads/FaceAlignment/2D-to-3D-FAN.tar.gz
3D-FAN-глубина: https://www.adrianbulat.com/downloads/FaceAlignment/3D-FAN-depth
Выравнивание лиц — одна из наиболее изучаемых тем компьютерного зрения за последние несколько десятилетий.
С появлением глубокого обучения и разработкой крупномасштабных аннотированных наборов данных недавняя работа показала беспрецедентную точность даже в самых сложных задачах компьютерного зрения. В этой работе автор фокусируется на локализации ориентиров, особенно на локализации ориентиров лица, также известной как выравнивание лица — одной из наиболее изученных тем в зрении.
Недавняя работа по локализации характерных точек с использованием сверточных нейронных сетей (CNN) раздвинула границы других областей, таких как оценка позы человека, но неясно, какие результаты были достигнуты при выравнивании лица.
Исторически сложилось так, что в зависимости от задачи для локализации характерных точек использовались разные методы. Например, до появления нейронных сетей работа по оценке позы человека в основном основывалась на графических структурах и различных сложных расширениях, поскольку они могли моделировать большие изменения внешнего вида и учитывать широкий спектр человеческих поз. Хотя не было показано, что эти методы обеспечивают высокую точность, продемонстрированную методом каскадной регрессии для задач выравнивания лиц, с другой стороны, производительность метода каскадной регрессии неточна в случае инициализации.Или существует большое количество самозакрывающиеся характерные точки или большое вращение в плоскости будут хуже.
Недавно полностью сверточные архитектуры нейронных сетей, основанные на регрессии тепловой карты, произвели революцию в оценке позы человека, достигнув очень высокой точности даже для самых сложных наборов данных. Поскольку они требуют небольшого сквозного обучения и инженерной подготовки, этот подход можно легко применить для решения проблем выравнивания лица.
Создание надежного эталонного теста в первый раз, создание самого большого набора данных на сегодняшний день с использованием подхода 2D-3D.
Следуя этому пути, «наш основной вклад заключается в создании и обучении такой надежной сети выравнивания лиц и впервые в истории исследования расстояний, достижимых для всех существующих наборов данных 2D-выравнивания лиц и недавно представленного большого набора 3D-данных», — заявляют авторы. это к насыщенной производительности».
В частности, их вклад:
1. Впервые была построена очень мощная базовая линия (базовая линия), сочетающая в себе современную архитектуру позиционирования характерных точек и современный остаточный блок, а также в очень большом всеобъемлющем расширенном 2D Обучение набору данных по характерным точкам лица. Затем мы оцениваем все другие наборы 2D-данных (~ 230 000 изображений), выясняя, насколько мы далеки от решения проблемы выравнивания 2D-лиц.
2. Чтобы решить проблему небольшого количества наборов данных 3D-выравнивания лиц, мы также предлагаем метод CNN с 2D-характерными точками для преобразования 2D-аннотаций в 3D-аннотации и использования его для создания набора данных LS3D-W, который на сегодняшний день является самым большим и эффективным. Набор данных Сложный набор данных 3D-ориентиров лица (около 230 000 изображений), который получен путем объединения почти всех существующих наборов данных.
3. Затем мы обучаем сеть трехмерного выравнивания лица и оцениваем ее на новом большом наборе данных трехмерных ориентиров лица, чтобы выяснить, насколько мы далеки от решения проблемы трехмерного выравнивания лица.
4. Далее мы исследуем все «традиционные» факторы, влияющие на производительность выравнивания лица, такие как большая поза, инициализация и разрешение, и вводим «новый» фактор — размер сети.
5. Наши результаты показывают, что как 2D-, так и 3D-сети выравнивания лиц достигают очень высокой точности, которая может быть близка к характеристикам насыщения используемых наборов данных.
Структура 2D-FAN: Сеть выравнивания лиц (FAN) строится путем наложения четырех HG, в которых все блоки узких мест (прямоугольные блоки на рисунке) заменяются новыми иерархическими, параллельными и многомасштабными блоками.
Методы и данные: 2D, 3D-аннотации и преобразование 2D-3D близки к характеристикам насыщения.
Сначала автор построил сеть выравнивания лица «FAN» (сеть выравнивания лица), а затем на основе FAN построил 2D-to-3D-FAN, которая представляет собой сеть, которая преобразует 2D-ориентиры лица на заданном изображении в 3D. Авторы говорят, что, насколько им известно, это первый случай, когда такая мощная сеть, как FAN, была обучена и оценена в крупномасштабных 2D/3D-экспериментах по выравниванию лица.
Они построили FAN на основе HourGlass (HG), одной из самых современных архитектур для оценки позы человека, и заменили первоначальный блок узкого места HG новой иерархической параллельной многомасштабной структурой (предложенной другими исследователями). .
Сетевая архитектура 2D-to-3D-FAN: на основе архитектуры оценки позы человека HourGlass входными данными являются RGB-изображение и 2D-ориентиры лица, а выходом — соответствующие 3D-ориентиры лица.
Результаты маркировки 2D-FAN
Результаты маркировки 3D-FAN
Ниже приведено сравнение с существующим методом (красный цвет), поэтому точность нового метода более очевидна:
Помимо создания FAN, в задачи авторов входит создание первого очень крупномасштабного набора данных трехмерных ориентиров лица. Данные о трехмерных ориентирах лица все еще скудны, поэтому эта работа вносит большой вклад. Учитывая превосходную производительность 2D-FAN, авторы решили использовать 2D-to-3D-FAN для создания трехмерного набора данных ориентиров лица.
Однако это также поднимает проблему, заключающуюся в сложности оценки данных преобразования 2D в 3D. Самый большой существующий набор данных такого рода — AFLW2000-3D. Поэтому автор сначала использует 2D-FAN для создания 2D-аннотаций ориентиров лица, затем использует 2D-to-3D-FAN для преобразования 2D-данных в 3D-ориентиры лица и, наконец, сравнивает сгенерированные 3D-данные с AFLW2000-3D.
Оказывается, между ними действительно есть различия.На следующем рисунке показаны 8 самых разных результатов маркировки изображений (белый цвет — это результат бумаги):
По словам авторов, основная причина несоответствия заключается в том, что полуавтоматический конвейер маркировки предыдущих методов не давал точных результатов для некоторых сложных поз. Итак, после улучшения данных они включили AFLW2000-3D в существующий набор данных и создали LS3D-W (крупномасштабный набор данных 3D Faces in the Wild), который содержит в общей сложности около 230 000 помеченных изображений, самый большой набор 3D-данных на сегодняшний день. , набор данных выравнивания лица.
Затем авторы оценивают производительность набора данных LS3D-W с различных точек зрения. Результаты исследования показывают, что их сеть достигла «производительности насыщения» набора данных, демонстрируя высокий уровень устойчивости с точки зрения состава, разрешения, инициализации и количества параметров сети. См. документ для получения дополнительной информации.
Авторы говорят, что, хотя они еще не исследовали влияние некоторых редких поз в этих наборах данных, при наличии достаточного количества данных они уверены, что сеть будет работать так же хорошо.