Из arXiv Саймона Корнблита, Джонатона Шленса, Куока В. Ле, собранного Heart of the Machine.
Неявное предположение современных исследований компьютерного зрения состоит в том, что модели, которые лучше работают в ImageNet, должны лучше работать и в других задачах зрения. Однако эта гипотеза никогда не подвергалась систематической проверке. Исследователи Google Brain сравнили производительность 13 моделей классификации в 12 задачах классификации изображений в трех экспериментальных условиях. Экспериментальные результаты показывают, что архитектура ImageNet обладает сильной способностью к обобщению для других наборов данных, и небольшое улучшение точности набора данных ImageNet может привести к повышению производительности для других наборов данных, но фиксированные функции, извлеченные ImageNet. обобщающая способность его архитектуры.
За последнее десятилетие исследования в области компьютерного зрения догнали результаты академических тестов для сравнения в качестве меры прогресса. Однако ни один из бенчмарков не преследовался так агрессивно, как ImageNet [1]. Сетевая архитектура, созданная для этого набора данных, во многом способствовала прогрессу в исследованиях компьютерного зрения, включая перенос модели в новые наборы данных [2, 3], обнаружение объектов [4], сегментацию изображения [5, 6] и оценку качества изображения [2]. 7]. Неявное предположение, стоящее за этим прогрессом, заключается в том, что сетевые архитектуры, которые лучше работают в ImageNet, должны лучше работать и в других задачах машинного зрения. Другая гипотеза заключается в том, что более совершенные сетевые архитектуры могут лучше изучить функции, которые можно передавать между задачами, основанными на зрении. Хотя предыдущие исследования представили некоторые доказательства этих гипотез (например, [4, 5, 8-10]), эти гипотезы не исследовались систематически.
В этой статье исследователи пытаются проверить эти гипотезы, изучая переносимость функций ImageNet и архитектур классификации ImageNet. В частности, исследователи провели крупномасштабное исследование переноса обучения между 13 наиболее эффективными сверточными нейронными сетями для классификации изображений в наборах данных классификации изображений 12. Экспериментальная среда показана на рисунке 1, включая следующие три типа: экстрактор фиксированных признаков [ 2, 3], настроенный из среды инициализации ImageNet [8, 11, 12], обученный из случайной инициализации. Основные вклады этой статьи заключаются в следующем:
- Лучшая модель ImageNet не дает лучших функциях изображений. Модель Resnet [14, 15] на тренировке в характеристике ImageNet всегда превосходила те из сети для достижения более высокой скорости точности в ImageNet.
- Когда сеть настроена, точность ImageNet является более сильным показателем точности задачи передачи (r ^ 2 = 0,86), а текущая современная архитектура ImageNet обеспечивает наилучшую производительность во многих задачах.
- Несмотря на то, что информация о весе плохо передается между задачами, сетевая архитектура может передаваться хорошо. На трех небольших наборах данных с мелкозернистой классификацией настройка не оказала существенного влияния на обучение из случайно инициализированного состояния, но, тем не менее, более совершенная архитектура ImageNet обеспечивает более высокую точность.
Рисунок 1. Производительность мелкозернистого набора данных (плоскости FGVC) может быть значительно улучшена за счет точной настройки или обучения с нуля, и в меньшей степени на наборе данных, подобном ImageNet (CIFAR-10). Низкоразмерные вложения используют t-SNE [13] для признаков из предпоследнего слоя сети «inception v4» для 10 классов в тестовом наборе.
Таблица 1: Наборы данных, изученные при передаче обучения.
Рис. 2. Точность в ImageNet позволяет прогнозировать точно настроенные модели, переносимые в другие наборы данных. Каждый набор изображений измеряет точность ImageNet с использованием фиксированных функций ImageNet (верхний набор), точно настроенных сетей (средний набор) и случайно инициализированных сетей (нижний набор) и корреляции между точностью задачи передачи. Слева: взаимосвязь между точностью классификации в наборе данных переноса (ось Y) и точностью лучшей модели ImageNet (ось X) для различных сред обучения. Справа: средние логарифмические шансы на правильную классификацию в наборе данных относительно среднего значения всех классификаторов в наборе данных. Столбики погрешностей представляют собой стандартное отклонение. Точки, соответствующие моделям, которые не показывают отличий (p>0,05) от лучшей модели, выделены зеленым цветом.
Рисунок 3: Настройка сети. Функции, обученные на фиксированных функциях ImageNet или начиная со случайно инициализированной модели, достигли более высокой точности, чем логистическая регрессия. Производительность логистической регрессии на фиксированных функциях ImageNet и сетях, обученных случайной инициализацией, сильно зависит от набора данных. Координаты на рисунке правильно масштабированы.
Рис. 4. Настройка ImageNet обеспечивает высочайшую производительность. Гистограммы представляют собой логистическую регрессию, настройку параметров и точность модели (за исключением VGG), обученной случайной инициализацией. Столбики погрешностей представляют собой стандартное отклонение. Точки данных представляют независимые модели. Черная горизонтальная линия представляет лучшие характеристики предыдущей модели.
Таблица 2: Производительность оптимальной модели.
Рис. 5. Сети, предварительно обученные на ImageNet, сходятся быстрее. Каждая точка представляет начальную модель v4, обученную с оптимизированными гиперпараметрами. Оси на рисунке правильно масштабированы.
Рис. 6. Предварительное обучение в ImageNet повышает производительность при выполнении мелких задач с данными небольшого масштаба. Производительность моделей Inception v4 на наборах данных разного масштаба. Столбики погрешностей отражают стандартное отклонение трех подмножеств. Обратите внимание, что размер самого большого набора данных, показанного на рисунке, не является размером всего набора данных.
Диссертация: лучше ли передаются лучшие модели ImageNet?
Ссылка на бумагу:АР Вест V.org/PDF/1805.08…
Резюме:С появлением извлеченных функций ImageNet миграция стала краеугольным камнем обучения компьютерному зрению. Однако исследований по оценке архитектуры ImageNet, отраженной в различных наборах данных, немного. Неявное предположение современных исследований компьютерного зрения заключается в том, что чем выше производительность модели, тем лучше она будет работать в ImageNet при выполнении других визуальных задач. Однако эта гипотеза никогда не подвергалась систематической проверке. Здесь три группы исследователей в лабораторных условиях (извлекатель фиксированных признаков настраивает веса сети, обучение начинается со случайной инициализации) сравнили модель 13 классификации производительности с изображением 12 задачи классификации. Исследователи обнаружили, что когда сеть напрямую используется в качестве экстрактора фиксированных признаков, точность ее способности предсказывать ImageNet по точности другой сети слаба (r ^ 2 = 0,24). В этом случае миграция ResNet всегда превосходила возможности сети для достижения более высокой точности в ImageNet. Когда сеть настроена, исследователи наблюдали корреляцию (r ^ 2 = 0,86) между точностью и точностью задачи миграции, значительно улучшенной ImageNet. Исследователи с помощью самой передовой архитектуры ImageNet добились наилучшей производительности модели на восьми задачах классификации изображений, помимо конкретной миграции на основе предыдущих результатов, полученных методом обучения. Наконец, исследователи заметили, что три мелкозернистых набора данных классификации изображений из случайной инициализации начинают тренировать производительность из сети и с помощью предварительно обученной сети ImageNet аналогично. Таким образом, результаты этой статьи показывают, что сильное обобщение архитектуры ImageNet на другие наборы данных, повышение степени точности немного по сравнению с наборами данных ImageNet может привести к повышению производительности в других наборах данных, но извлечение ImageNet характеризуется стационарной способностью к обобщению. способность меньше, чем его архитектура.