(Добро пожаловать в публичный аккаунт «Я люблю компьютерное зрение», ценный и подробный публичный аккаунт~)
Распознавание лиц — это область, которая в последние годы добилась больших успехов в области компьютерного зрения.Благодаря постоянному совершенствованию глубокого обучения, мощным возможностям подбора моделей и созданию крупномасштабных наборов данных с аннотациями появляются методы распознавания лиц, аннотированные миллионы наборов данных.
Тем не менее, становится все труднее продолжать расширять масштаб набора данных.Даже при ручной ручной аннотации неизбежно будет вводиться шум, когда масштаб набора данных становится все больше и больше.Как использовать дешевое и неразмеченное лицо данные изображения стали актуальной проблемой, которую необходимо решить.
В статье «Распространение на основе консенсуса в массивных немаркированных данных для распознавания лиц», недавно опубликованной в ECCV2018 исследователями из SenseTime, Китайского университета Гонконга и Наньянского технологического университета, показан метод создания пар образцов меток из немаркированных изображений лиц. Использование его для обучения модели обучения с учителем дает новую идею по расширению масштаба набора данных с низкими затратами для повышения точности распознавания лиц.
Стоит отметить, что проблема, решаемая в этой статье, тесно связана с реальными сценариями применения распознавания лиц, предполагается, что уже имеется небольшое количество размеченных данных, а неразмеченные данные изображения лица поступают из неконтролируемого. окружающей среде, и эти люди не пересекаются с теми, кто уже был помечен в базе данных.Есть надежда, что эти данные будут помечены и добавлены в обучающую выборку.
Информация об авторе:
Алгоритмическое мышление
Основная мотивация алгоритма состоит в том, чтобы найти эти псевдоположительные пары изображений лица одного и того же человека в немаркированных данных и добавить их в обучающий набор, чтобы увеличить размер обучающего набора.
Очень простая идея состоит в том, чтобы извлечь признаки, а затем сгруппировать их и использовать сгруппированные метки в качестве псевдовыборочных меток, но при обычной кластеризации трудно получить качественные и надежные метки.Интуитивный пример, такой как изображения разных людей. лица. Степень сходства выше, чем у лицевых и профильных изображений одного и того же человека.
Как построить надежные псевдоположительные пары от одного и того же человека? Пожалуйста, посмотрите на изображение ниже:
Автор изобрел модель под названием Consensus-Driven Propagation, которая играет три важные роли: базовая модель, модель комитета и модель посредника.
базовая модель и модель комитета представляют собой классификаторы моделей глубокого обучения, обученные на размеченных данных.В этом документе используются различные сетевые архитектуры для обучения нескольких моделей, их использование для извлечения функций из неразмеченных изображений лиц, а затем использование этих функций для построения карт K-NN неразмеченных образцы, эти карты K-NN изначально отражают взаимосвязь между различными изображениями лица одного и того же человека.
Автор перепробовал много глубоких моделей:
Затем используйте модель посредника, чтобы классифицировать, принадлежат ли два образца изображения лица с отношениями связи на графике K-NN одному и тому же человеку в соответствии с отношениями связи и различными особенностями разнообразия графика K-NN. В этой статье автор использует многослойный персептрон (MLP) в качестве модели посредника.
Очевидно, что модель посредника создает пары положительных и отрицательных выборок на помеченных данных во время обучения, что является источником распространения на основе консенсуса.Непомеченные изображения лица происходят из нескольких изображений одного и того же человека.Отношения между изображениями аналогичны отношениям между несколькими помеченными изображения одного и того же человека, о чем свидетельствуют аналогичные отношения между их узлами графа K-NN.
Извлеченная примерная диаграмма отношений:
Пример построенного псевдопозитивного изображения:
Красные прямоугольники представляют аномальные образцы, отвергнутые моделью посредника.
После построения псевдометки добавьте ее в обучающую выборку, но при обучении использует другую Loss с размеченными данными и переобучает ее на базовой модели.
Результаты экспериментов
Автор провел эксперименты с наборами данных лиц MageFace и IJB-A, разделил наборы данных на 11 частей и использовал только одну одиннадцатую помеченных данных во время обучения, постепенно увеличивал неразмеченные данные и сравнивал конечный уровень точности. используя все размеченные данные.
На рисунке ниже показана архитектура модели сети, использованная в эксперименте, и точность, достигнутая для двух наборов данных, соответственно, а также интегральная точность.
На рисунке ниже показано, что с добавлением неразмеченных данных точность модели продолжает улучшаться.
В наборе данных MageFace точность составляет 61,78% без немаркированных данных (то есть с использованием только одной одиннадцатой обучающих данных) и 78,18% с 10 немаркированными данными, в то время как точность полностью контролируемого метода (с использованием всех реальных меток) составляет 78,52. %, доказывая, что добавление псевдометок, сгенерированных предложенным методом, к обучающему набору значительно повышает точность модели (16,4%), достигая производительности, сравнимой с полностью контролируемыми методами.
Более интересно то, что метод в этой статье превосходит полностью контролируемый метод на IJB-A (теоретически этого не должно быть), и автор объясняет это тем, что сама база данных IJB-A вносит больше шума меток.
Суммировать
Метод, предложенный в этой статье, очень ценен и может расширить масштаб данных с небольшими затратами.Он не только подходит для распознавания лиц, но может быть опробован практически во всех задачах распознавания.По экспериментальным результатам IJB-A, он может даже стать своего рода методами очистки данных.
бумага:
https://arxiv.org/abs/1809.01407
Код:
https://github.com/XiaohangZhan/cdp/