Ли Фейфей и др. предложили Auto-DeepLab: архитектуру семантической сегментации изображений с автоматическим поиском.

Выбрано из arXiv, Chenxi Liu et al., составлено Heart of the Machine.

В прошлом архитектура нейронной сети в основном разрабатывалась вручную исследователями-людьми, что отнимало много времени и было подвержено ошибкам. Технология автоматического поиска нейронной архитектуры (NAS) освобождает человеческий труд и повышает эффективность модели. Автоматически вычисленные модели превзошли модели, разработанные человеком, в задачах классификации крупномасштабных изображений.

Недавно исследователи из группы Ли Фейфея из Стэнфордского университета предложили Auto-DeepLab.Семантическая сегментация изображенияОн превосходит многие из лучших моделей в отрасли и может даже достичь производительности предварительно обученных моделей без предварительного обучения. Auto-DeepLab разрабатывает непрерывную релаксацию дискретных архитектур, которая точно соответствует пространству поиска иерархической архитектуры, значительно повышая эффективность поиска архитектуры и снижая требования к вычислительной мощности.

Глубокие нейронные сети успешно справляются со многими задачами искусственного интеллекта, включая распознавание изображений, распознавание речи, машинный перевод и многое другое. Хотя лучшие оптимизаторы [36] и методы нормализации [32, 79] сыграли важную роль, большая часть прогресса может быть связана с проектированием архитектур нейронных сетей. В компьютерном зрении это относится к классификации изображений и прогнозированию плотных изображений.

Таблица 1: Сравнение Auto-DeepLab, модели, предложенной в этом исследовании, и других двухуровневых архитектур CNN. Основные отличия заключаются в следующем: (1) Auto-DeepLab ищет непосредственно архитектуры CNN для семантической сегментации; (2) Auto-DeepLab ищет архитектуры сетевого уровня и архитектуры уровня ячеек; (3) эффективный поиск Auto-DeepLab доступен только на GPU P100 Это занимает 3 дня.

В последнее время вAutoMLПод влиянием демократизации ИИ и ИИ возник большой интерес к автоматическому проектированию архитектур нейронных сетей, в которых не нужно сильно полагаться на опыт и знания экспертов. Что еще более важно, в прошлом году поиск нейронной архитектуры (NAS) успешно обнаружил сетевые архитектуры, которые превзошли архитектуры, разработанные человеком, в крупномасштабных задачах классификации изображений [92, 47, 61].

Классификация изображений — хорошая отправная точка для NAS, поскольку это наиболее фундаментальная и хорошо изученная задача распознавания высокого уровня. Кроме того, в этой области исследований существуют эталонные наборы данных (такие как CIFAR-10) с относительно небольшими масштабами, что сокращает объем вычислений и ускоряет обучение. Однако классификация изображений не должна быть конечной точкой NAS, и текущий успех показывает, что ее можно распространить на более требовательные области. В этой статье авторы исследуют поиск нейронной архитектуры для семантической сегментации изображений. Это важная задача компьютерного зрения, которая присваивает метку, такую как «человек» или «велосипед», каждому пикселю входного изображения.

Простого переноса методов классификации изображений недостаточно для семантической сегментации. При классификации изображений NAS обычно использует перенос обучения с изображений с низким разрешением на изображения с высоким разрешением [92], в то время как оптимальная архитектура для семантической сегментации должна работать с изображениями с высоким разрешением. Это говорит о том, что это исследование требует: (1) более спокойного и общего пространства поиска для захвата архитектурных вариантов, возникающих в результате более высоких разрешений; (2) более эффективных методов поиска архитектуры, поскольку более высокие разрешения требуют большего объема вычислений.

Авторы отмечают, что современные проекты CNN обычно следуют двухуровневой иерархической структуре, где внешняя сеть контролирует изменения пространственного разрешения, а внутренняя архитектура на уровне ячеек управляет конкретными иерархическими вычислениями. Подавляющее большинство текущих исследований NAS следует этой двухуровневой иерархической схеме, но только автоматизирует поиск внутренней сети при ручном проектировании внешней сети. Это ограниченное пространство поиска является проблемой для прогнозирования плотных изображений, которое чувствительно к изменениям пространственного разрешения. Поэтому в этом исследовании авторы предлагают решетчатое пространство поиска на уровне сети, которое может дополнить обычное пространство поиска на уровне ячеек, впервые предложенное в [92], для формирования пространства поиска с иерархической архитектурой. Целью этого исследования является совместное изучение хорошей комбинации структуры повторяющихся единиц и сетевой структуры для семантической сегментации изображения.

С точки зрения методов поиска архитектуры, обучение с подкреплением и эволюционные алгоритмы, как правило, требуют больших вычислительных ресурсов — даже для набора данных CIFAR-10 с низким разрешением, поэтому они плохо подходят для задач семантической сегментации изображений. Вдохновленные дифференцируемыми формулировками NAS [68, 49], это исследование разрабатывает непрерывные релаксации дискретных архитектур, которые точно соответствуют пространству поиска иерархической архитектуры. Поиск иерархической архитектуры реализован методом стохастического градиентного спуска. Когда поиск завершается, лучшие архитектуры ячеек декодируются с жадностью, в то время как лучшие сетевые архитектуры эффективно декодируются алгоритмом Витерби. Авторы ищут архитектуру непосредственно на изображениях размером 321×321, вырезанных из набора данных Cityscapes. Поиск очень эффективен, занимает всего 3 дня на графическом процессоре P100.

Авторы проводят эксперименты с несколькими эталонными наборами данных семантической сегментации, включая Cityscapes, PASCAL VOC 2012 и ADE20K. Без предварительной подготовки ImageNet лучшая модель Auto-DeepLab превосходит FRRN-B на 8,6 % и GridNet на 10,9 % в тестовом наборе Cityscapes. В экспериментах с грубо размеченными данными Cityscapes Auto-DeepLab показала результаты, близкие к некоторым современным моделям, предварительно обученным в ImageNet. Примечательно, что лучшая модель в этом исследовании (без предварительной подготовки) работает так же, как DeepLab v3+ (с предварительной подготовкой), но в 2,23 раза быстрее в MultiAdds. Кроме того, производительность облегченной модели Auto-DeepLab всего на 1,2% ниже, чем у DeepLab v3+, при этом требования к параметрам меньше на 76,7%, а скорость в MultiAdds в 4,65 раза выше, чем у DeepLab v3+. В PASCAL VOC 2012 и ADE29K оптимальная модель Auto-DeepLab превосходит многие современные модели при предварительном обучении с очень небольшим количеством данных.

Основные вклады этой статьи заключаются в следующем:

Это одна из первых попыток расширить NAS от задач классификации изображений до задач прогнозирования плотных изображений.
В этом исследовании предлагается пространство поиска архитектуры на уровне сети, которое увеличивает и дополняет уже хорошо изученный поиск архитектуры на уровне соты и проводит более сложный совместный поиск архитектур на уровне сети и на уровне соты.
В этом исследовании предлагается дифференцируемый непрерывный подход, который гарантирует эффективную работу поиска двухуровневой иерархической архитектуры всего за 3 дня на одном графическом процессоре.
Без предварительной подготовки ImageNet модель Auto-DeePlab значительно превосходит FRRN-B и Gridnet на наборе CityScapes и сопоставим с нынешней современной моделью, полученный на ImageNet. Лучшая модель Auto-DeePlab превосходит несколько современных моделей на наборах Pascal VOC 2012 и набора данных ADE20K.

Документ: Auto-DeepLab: Поиск иерархической нейронной архитектуры для семантической сегментации изображения

Адрес бумаги:АР Вест V.org/PDF/1901.02…

Резюме: Недавно поиск нейронной архитектуры (NAS) выявил архитектуры нейронных сетей, способные превзойти созданные человеком сети в решении задач классификации изображений. В этой статье мы изучим NAS для семантической сегментации изображения, важной задачи компьютерного зрения, которая назначает семантические метки каждому пикселю изображения. Существующие исследования обычно сосредоточены на поиске повторяющихся клеточных структур, искусственном проектировании внешних сетевых структур, которые контролируют изменения пространственного разрешения. Этот подход упрощает пространство поиска, но создает много проблем для прогнозирования плотных изображений с большим количеством вариантов архитектуры на уровне сети. Поэтому в этом исследовании предлагается искать архитектуру сетевого уровня в дополнение к структуре блока поиска, таким образом формируя пространство поиска иерархической архитектуры. В этом исследовании предлагается пространство поиска на сетевом уровне, охватывающее несколько популярных сетевых дизайнов, и предлагается формула для эффективного поиска архитектуры на основе градиента (всего 3 дня с использованием 1 графического процессора P100 на изображениях Cityscapes). Это исследование показывает эффективность метода на более сложных наборах данных Cityscapes, PASCAL VOC 2012 и ADE20K. Без какого-либо предварительного обучения ImageNet архитектура, предназначенная для семантической сегментации изображений, предложенная в этом исследовании, достигает самой современной производительности.

4 метода

В этом разделе сначала рассказывается о непрерывной релаксации дискретных архитектур, которые точно соответствуют поиску иерархической архитектуры, описанному выше, а затем обсуждается, как выполнять поиск архитектуры посредством оптимизации и как декодировать дискретные архитектуры после завершения поиска.

4.2 Оптимизация

Роль непрерывной релаксации заключается в том, что скаляр, контролирующий силу связей между различными скрытыми состояниями, теперь также является частью дифференцируемого вычислительного графа. Таким образом, его можно эффективно оптимизировать с помощью градиентного спуска. Авторы приняли приближение первого порядка в [49] для разделения обучающих данных на два отдельных набора данных trainA и trainB. Оптимизация чередуется между:

1. Обновить вес сети w с помощью ∇_w L_trainA(w, α, β);

2. Обновите архитектуру α, β с помощью ∇_(α,β) L_trainB(w, α, β).

где функция потерь L представляет собой кросс-энтропию, вычисленную в мини-пакете семантической сегментации.

4.3 Декодирование дискретных архитектур

Ячеистая архитектура

Как и в [49], в этом исследовании сначала сохраняются два самых сильных предшественника каждого стандартного блока, а затем используется функция argmax для выбора наиболее вероятного оператора, тем самым расшифровывая архитектуру дискретной ячейки.

Сетевая архитектура

Уравнение 7 по существу утверждает, что сумма «исходящих вероятностей» в каждом синем узле на рисунке 1 равна 1. Фактически β можно понимать как «вероятность перехода» между разными «состояниями» (пространственное разрешение) в разные «шаги времени» (количество слоев). Целью данного исследования является поиск пути с «максимальной вероятностью» с нуля. В реализации авторы могут эффективно декодировать этот путь с помощью классического алгоритма Витерби.

Рисунок 1: Слева — пространство поиска на сетевом уровне для L = 12. Серые узлы представляют собой фиксированные «стержневые» слои, а пути, сформированные вдоль синих узлов, представляют возможные архитектуры сетевого уровня. На рисунке справа видно, что в процессе поиска каждая единица представляет собой плотно связанную структуру.

5 Экспериментальные результаты

Рисунок 3: Оптимальные архитектуры сети и архитектуры ячеек, найденные с помощью метода поиска иерархической нейронной архитектуры, предложенного в этом исследовании. Серые пунктирные стрелки указывают соединение с наибольшим значением бета в каждом узле. atr относится к атриальной свертке, а sep относится к свертке с разделением по глубине.

Рис. 4. Точность проверки оптимизации поиска архитектуры в 40 эпохах в 10 рандомизированных испытаниях.

Таблица 2: Результаты автоматического DEEPLAB различных вариантов модели на наборе CityScapes. F: Умельщик фильтра модели управления мощностью. Все модели AUTO-DEEPLAB обучены с нуля и с использованием односмысленного входа в процесс вывода.

Таблица 3: Результаты проверки набора городских пейзажей. В исследовании используются различные итерации обучения (0,5 миллиона, 1 миллион и 1,5 миллиона итераций) и метод SDP (Scheduled Drop Path) для проведения экспериментов. Все модели обучаются с нуля.

Таблица 4: Результаты моделирования на тестовом наборе Cityscapes при использовании многомасштабных входных данных во время логического вывода. ImageNet: модели, предварительно обученные в ImageNet. Грубый: использование грубых аннотированных моделей.

Таблица 5: Результаты проверочного набора PASCAL VOC 2012. В этом исследовании для экспериментов используется многомасштабный вывод (MS, многомасштабный вывод) и предварительно обученная контрольная точка COCO (COCO). Без какой-либо предварительной подготовки лучшая модель, предложенная в этом исследовании (Auto-DeepLab-L), превосходит DropBlock на 20,36%. Все модели не были предварительно обучены изображениям ImageNet.

Таблица 6: Результаты набора тестов PASCAL VOC 2012. AutoDeepLab-L, предложенный в этом исследовании, достигает результатов, сравнимых со многими лучшими моделями, предварительно обученными на наборах данных ImageNet и COCO.

Таблица 7: Результаты проверочного набора ADE20K. Используйте многомасштабный ввод во время логического вывода. † Указывает, что результаты были получены с веб-сайта их последней модели зоопарка соответственно. ImageNet: модели, предварительно обученные в ImageNet. Avg: среднее значение mIOU и точности пикселей.

Рисунок 5: Результаты визуализации на наборе CityScapes Validation. Последняя строка показывает режим отказа метода, предложенного в этом исследовании, где модель путает некоторые более тяжелые семантические категории, такие как люди и велосипедисты.

Рис. 6. Результаты визуализации проверочного набора ADE20K. В последней строке показан режим отказа предлагаемого метода, когда модель не может сегментировать очень мелкие объекты (такие как ножки стула) и смешивает более сложные семантические категории (такие как пол и ковер).