Серия Classic Paper | Переосмысление предварительного обучения в ImageNet

компьютерное зрение

Предисловие:

Это статья, опубликованная He Kaiming в 2019 году. В статье был проведен ряд экспериментов, основанных на трех направлениях обнаружения целей, сегментации экземпляров и обнаружении ключевых точек человека, а также проведено сравнение обучения с нуля с использованием случайной инициализации и использования предварительного обучения для точной -тюнинговый эффект и сделать некоторые выводы.

В этой статье будут представлены основная идея статьи, основные выводы, некоторые детали и авторское обсуждение, основанное на экспериментальных выводах.

Бумага: Переосмысление предварительного обучения ImageNet

смысл

Распространенной схемой последних лет является предварительное обучение модели на крупномасштабном наборе данных, а затем выполнение точной настройки целевого набора данных. Такие модели обеспечивают высочайшую производительность во многих задачах, таких как обнаружение объектов, сегментация изображений и распознавание действий. Похоже, что он проложил путь к «решению» проблем компьютерного зрения путем обучения «универсальных» представлений функций в масштабе на данных, подобных ImageNet. Однако мы сомневаемся в такой модели.

Мы получаем конкурентоспособные результаты для обнаружения объектов и сегментации позы в наборе данных COCO, используя стандартные модели, обученные на основе случайной инициализации. Даже при гиперпараметрах эталонной системы (Mask R-CNN), оптимизированных для тонкой настройки предварительно обученных моделей, результаты не хуже, чем предварительно обученные результаты ImageNet. Надежность обучения от случайной инициализации очень хорошая.

Наши результаты остаются в силе, даже если:

(i) использовать только 10% обучающих данных;

(ii) использовать более глубокую и широкую модель;

(iii) Используйте несколько задач и показателей.

Эксперименты показывают, что предварительное обучение ImageNet может ускорить сходимость на раннем этапе обучения, но не обязательно обеспечивает регуляризацию или повышает точность конечной целевой задачи.

Чтобы расширить границы, мы демонстрируем результат 50,9 AP при обнаружении объектов COCO без использования каких-либо внешних данных, что сравнимо с лучшим результатом конкурса COCO 2017, предварительно обученным с помощью ImageNet. Эти наблюдения бросают вызов общепринятому мнению о предварительном обучении ImageNet на независимых задачах, и мы надеемся, что эти результаты будут способствовать переосмыслению нынешней практической парадигмы «предварительного обучения и тонкой настройки» в компьютерном зрении.

основной вывод

1. Предварительное обучение ImageNet может ускорить сходимость, особенно на раннем этапе обучения, но обучение случайной инициализации может занять столько же времени, сколько предварительное обучение плюс точная настройка. Пять скачков на графике связаны с корректировкой скорости обучения.

图片

2. Предварительное обучение ImageNet автоматически не приводит к лучшей регуляризации. Когда набор обучающих данных относительно невелик (например, всего 10% COCO), мы обнаружили, что предварительно обученная модель должна выбирать новые гиперпараметры во время тонкой настройки, чтобы избежать переобучения. В то время как обучение со случайной инициализацией использует те же гиперпараметры и не требует дополнительной регуляризации для достижения точности предварительно обученной модели.

Левая картинка является переобучением во время тонкой настройки, средняя картинка — результат повторного выбора новых гиперпараметров, а правая картинка может быть достигнута с предварительным обучением и оптимизированными гиперпараметрами, когда для обучения случайным образом инициализируются только 10 тыс. данных без дополнительной регуляризации. результат тонкой настройки.

图片

3. Предварительное обучение ImageNet бесполезно, когда целевая задача/метрика более чувствительна к предсказанию пространственной локализации. При обучении с нуля мы наблюдаем значительные улучшения в AP для высоких порогов перекрытия блоков; мы также обнаружили, что AP для ключевых точек, требующих точной пространственной локализации, относительно быстро сходится с нуля. Интуитивно понятно, что разрыв в задачах между предварительным обучением, подобным ImageNet, для целевых задач на основе классификации и чувствительными к локализации целевыми задачами может ограничивать преимущества предварительного обучения.

图片

некоторые детали

Normalization

Пакетная нормализация в настоящее время является относительно распространенным методом регуляризации, который в некоторых случаях может затруднить обучение детектора с нуля. В отличие от классификаторов, детекторы объектов обычно используют входные данные с высоким разрешением.Из-за ограничений памяти это делает размер пакета относительно небольшим, а небольшой размер пакета серьезно ухудшает эффект BN.

Этой проблемы можно избежать, если использовать предварительное обучение, потому что тонкая настройка может заморозить данные BN, а обучение с нуля этого сделать не может.

С этой целью в статье предлагаются две стратегии регуляризации для решения проблемы небольших партий:

1) Групповая нормализация (GN), поскольку расчет GN не зависит от размера партии, модель, использующая GN, будет нечувствительна к размеру партии.

2) Синхронизированная нормализация пакетов (SyncBN), которая вычисляет BN для нескольких устройств GPU, например, размер пакета равен 8, количество GPU равно 10, BN нормализуется для 8 выборок на каждом GPU, а SyncBN — для 10 всех выборок на GPU, то есть нормализуется 80 сэмплов. Это в некоторой степени позволяет избежать небольших партий.

Discussions

Необходимо ли предварительное обучение ImageNet?

Не обязательно, если у нас достаточно набора данных. Эксперименты показывают, что предварительное обучение может ускорить сходимость, но не может повысить точность, если только набор данных не очень и очень мал (например, менее 10 000 изображений COCO). Если набора данных достаточно, обучения с нуля вполне достаточно. Это показывает, что сбор обучающих данных в большей степени способствует повышению производительности задачи.

Полезен ли ImageNet?

полезный. Это позволяет людям увидеть важность крупномасштабных данных для повышения производительности модели. Кроме того, поскольку скорость сходимости может быть увеличена, цикл исследования может быть сохранен. Наконец, предварительное обучение в ImageNet может сэкономить много ненужных вычислительных затрат.

Полезны ли большие данные?

полезный. Однако, если мы примем во внимание дополнительную работу по сбору и очистке данных, крупномасштабный предварительный обучающий набор общего назначения на уровне классификации не идеален, требования к ресурсам для сбора ImageNet в значительной степени игнорируются, но «предварительные На самом деле шаг "обучение". Когда мы расширяем этот режим, режим "предварительное обучение + точная настройка" на самом деле не является бесплатным. Сбор данных в целевой области более эффективен, если преимущества крупномасштабного предварительного обучения на уровне классификации уменьшаются в геометрической прогрессии.

Должны ли мы добиваться всеобщего представительства?

Мы считаем, что изучение общего представления является хорошей целью. Результаты наших экспериментов не означают, что мы отклоняемся от этой цели, но когда мы сосредотачиваемся на преимуществах предварительной подготовки в прошлом, не игнорируйте, что тренировка с нуля также может привести к хорошим результатам.

**Недавно все технические резюме официального аккаунта (техническое руководство CV) были упакованы в pdf, который можно получить, ответив на ключевое слово «техническое резюме» в официальном аккаунте. **​

Эта статья взята из серии технических сводок официального технического руководства по учетной записи CV.Для получения дополнительной информации отсканируйте QR-код в конце статьи, чтобы подписаться на официальную учетную запись.

Другие статьи

Краткое изложение терминологии компьютерного зрения (1) Создание системы знаний для компьютерного зрения

Краткое изложение методов недообучения и переобучения

Резюме методов нормализации

Краткое изложение общих идей бумажных инноваций

Резюме методов эффективного чтения англоязычной литературы по направлению CV

Обзор непродолжительного обучения компьютерному зрению

Краткий обзор дистилляции знаний

Оптимизировать скорость чтения видео OpenCV

Сводка NMS

Краткое изложение методов функции потерь

Техническое резюме механизма внимания

Краткое изложение технологии пирамиды функций

Краткое изложение технологии объединения

Краткое изложение методов увеличения данных

Резюме эволюции структуры CNN (1) Классическая модель

Резюме эволюции структуры CNN (2) Облегченная модель

Резюме эволюции структуры CNN (3) Принципы проектирования

Как увидеть будущее направление компьютерного зрения

Краткое изложение технологии визуализации CNN (1) - визуализация карты функций

Краткое изложение технологии визуализации CNN (2) - визуализация ядра свертки

Краткое описание технологии визуализации CNN (3) - визуализация класса

Краткое описание технологии визуализации CNN (4) - инструменты и проекты визуализации

Автор: Техническое руководство по резюме (публичная учетная запись WeChat)
Авторские права принадлежат автору. Для коммерческих перепечаток, пожалуйста, свяжитесь с автором для получения разрешения, а для некоммерческих перепечаток, пожалуйста, укажите источник.