ICLR 2021 | Документ Meituan AutoML: Надежная архитектура нейронной сети Поиск DARTS-

задний план

Растущий бизнес Meituan со стороны пользователей и продавцов предъявляет очень широкие и высокие требования к технологии искусственного интеллекта (ИИ). С точки зрения пользователя, Meituan AI имеет более 200 сценариев жизненных услуг, таких как потребление в магазине и гостиничный туризм, в дополнение к выносу, все из которых требуют ИИ для улучшения пользовательского опыта. С точки зрения продавцов, Meituan AI поможет продавцам повысить эффективность и проанализировать условия работы.Например, он может проводить детальный анализ комментариев пользователей для описания статуса-кво услуг продавцов, анализа конкурентоспособности продавцов и делового района. идеи и т. д., предоставляя продавцам изысканные бизнес-советы.

В настоящее время области исследований и разработок, связанные с искусственным интеллектом Meituan, включают понимание естественного языка, график знаний, поиск, распознавание речи, генерацию речи, распознавание лиц, распознавание текста, понимание видео, редактирование изображений, дополненную реальность, прогнозирование окружающей среды, планирование поведения, управление движением. , и т.д. . Двумя ключевыми частями технологии ИИ, применяемыми в этих сценариях, являются крупномасштабные данные и продвинутые модели глубокого обучения.Итерации проектирования и обновления высококачественных моделей являются болевыми точками и трудностями текущего производства и разработки ИИ, а технология автоматизации срочно необходимо помочь и улучшить Повысить эффективность производства. Технология, которая появляется в этом контексте, называется автоматизированным машинным обучением (AutoML). AutoML считается будущим решением для проектирования моделей, освобождая инженеров алгоритмов искусственного интеллекта от утомительных проб и ошибок ручного проектирования.

Google официально предложил поиск нейронной архитектуры (NAS) в 2017 году.^[1]Эта технология, используемая для автоматизации создания архитектур моделей, высоко ценится в отрасли в качестве основного компонента AutoML. С ростом вычислительной мощности и непрерывным итеративным алгоритмом NAS визуальная модель породила ряд далеко идущих моделей, таких как EfficientNet и MobileNetV3 на архитектурном уровне.NAS также применялся во многих направлениях в области зрения, НЛП и речь.^[2,3]. Важность NAS как ИИ, который генерирует модели ИИ, очевидна. Meituan также провела глубокие исследования в направлении NAS и продолжает активные исследования в этой области.

Эта статья представляет статью ДАРТС-^[4]документ будет опубликован на саммите ICLR 2021. Полное название ICLR (Международная конференция по представлениям в обучении) — Международная конференция по представлению в обучении, Она была основана в 2013 году двумя гигантами глубокого обучения и лауреатами премии Тьюринга, Йошуа Бенжио и Яном ЛеКуном. ICLR был создан всего семь лет назад, но получил широкое признание в академическом сообществе как «ведущая конференция в области глубокого обучения». ICLR имеет индекс h5 203 и занимает 17-е место среди всех научных публикаций, опережая NeurIPS, ICCV и ICML. Всего в этом году в ICLR было подано 2997 статей, и в итоге было получено 860 статей, в том числе 53 устных доклада (коэффициент приема 6%), 114 докладов Spotlight и 693 стендовых доклада с уровнем приема 28,7%.

Введение в поиск по архитектуре нейронной сети

Основная задача поиска архитектуры нейронной сети (NAS) состоит в том, чтобы найти оптимальную модель в условиях ограниченного времени и ресурсов. NAS в основном состоит из трех частей: пространство поиска, алгоритм поиска и оценка модели. NAS была впервые проверена в задачах визуальной классификации.Общие пространства поиска в задачах классификации делятся на два типа: на основе единиц подструктуры (Cell) и на основе блоков подструктуры (Block).Первый характеризуется богатой графовой структурой, и те же ячейки соединяются последовательно, образуя окончательную сеть. Последний является прямым, и основное внимание при поиске уделяется выбору подструктурных блоков на каждом слое.

Согласно классификации алгоритмов поиска, NAS в основном включает методы, основанные на обучении с подкреплением (RL), на основе генетического алгоритма (Evolutionary Algorithm, EA) и на основе градиентной оптимизации (Gradient-Based). Методы RL генерируют и оценивают модели для получения отзывов, корректируют сгенерированную политику на основе отзывов, генерируют новые модели и зацикливают этот процесс до достижения оптимального результата. Метод EA кодирует структуру модели как «гены», которые можно скрещивать и мутировать, и новое поколение генов получается с помощью различных генетических алгоритмов, пока не будет достигнуто наилучшее. Преимущество метода EA заключается в том, что он может иметь дело с различными целями. Например, плюсы и минусы модели имеют несколько аспектов проверки, таких как количество параметров, задержка вычислений и показатели производительности. Метод EA очень подходит для исследования и эволюции в нескольких измерениях. Тем не менее, как RL, так и EA требуют много времени, в основном ограничены частью оценки модели и обычно используют метод полного и небольшого обучения. Современный подход One-Shot обучает суперсеть, содержащую все подструктуры, для оценки всех подсетей, что может значительно повысить эффективность NAS. Однако в тот же период метод DARTS, основанный на градиентной оптимизации, более эффективен и стал основным выбором текущего метода NAS.

DARTS был предложен Лю Ханьсяо, исследователем Университета Карнеги-Меллона (CMU) и др. Полное название — Поиск дифференцируемой архитектуры (DARTS).^[5], что значительно повышает эффективность поиска и широко признано в отрасли. Дифференцируемый метод (DARTS) основан на оптимизации градиента.Сначала он определяет подструктуру (ячейку) на основе ориентированного ациклического графа (DAG), DAG имеет четыре промежуточных узла (серый прямоугольник на рисунке 1 ниже), каждое ребро имеет несколько необязательных операторов ( представлены ребрами разных цветов), а результат добавления различных ребер через softmax используется в качестве входных данных для следующего узла. Стекирование таких подструктур может сформировать основу сети. DARTS рассматривает процесс поиска как оптимизацию многоуровневой магистральной сети (также известной как суперсеть или сверхпараметризованная сеть). Здесь каждому ребру назначается разный структурный вес, и он пересекается с весом сети для обновления градиента. После завершения оптимизации оператор с наибольшим весом структуры (обозначенный жирной линией) используется в качестве конечного оператора подсети, и эта подсеть используется в качестве результата поиска (на рис. 1г показана окончательная структура ячейки). Этот процесс (рисунок 1 от c до d) жестко усекает непрерывные структурные веса до дискретных значений, например, 0,2 становится 1, а 0,02 становится 0, что приводит к так называемому разрыву дискретизации.

Трудности поиска архитектуры нейронной сети

Кратко перечислим основные трудности, которые необходимо решить при поиске современной архитектуры нейронной сети:

процесс поискаЭффективность: вычислительные ресурсы и время, потребляемые алгоритмом поиска, должны быть в допустимых пределах, чтобы его можно было широко использовать на практике и напрямую поддерживать поиск структуры модели для наборов бизнес-данных;
результаты поискасрок действия: модель, полученная в результате поиска, должна иметь хорошую производительность для нескольких наборов данных, а также хорошую производительность обобщения и возможность переноса домена.Например, магистральная сеть классификации, полученная в результате поиска, может быть хорошо перенесена на задачи обнаружения и сегментации и иметь хорошие представление;
результаты поискапрочность: Будучи эффективными, результаты множественного поиска должны быть относительно стабильными, то есть повышать надежность поиска и снижать затраты на пробы и ошибки.

Недостатки и улучшения дифференцируемых методов

Недостатком метода поиска архитектуры дифференцируемой нейронной сети является то, что он имеет низкую надежность и склонен к краху производительности, то есть производительность надсети в процессе поиска очень хорошая, но предполагаемая подсеть имеет большое количество пропускаемых соединений. , Сильно ухудшает производительность окончательной модели. На основе DARTS появилось много улучшений, таких как Progressive DARTS.^[6], Ярмарка ДАРТС^[7], НадежныйДАРТС^[8], Гладкие ДАРТС^[9]Ждать. Среди них, полный отчет ICLR 2020, RobustDARTS, предлагает использовать собственные значения Гессе как симптом падения производительности DARTS, но вычисление собственных значений занимает очень много времени. Более того, в стандартном пространстве поиска DARTS производительность модели, полученная с помощью поиска RobustDARTS в наборе данных CIFAR-10, не является выдающейся. Это побудило нас задуматься о том, как повысить надежность при одновременном повышении эффективности. Для этих двух проблем в отрасли существуют разные анализы и решения, типичными из которых являются Fair DARTS (ECCV 2020), RobustDARTS (ICLR 2020) и Smooth DARTS (ICML 2020).

Fair DARTS наблюдал наличие большого количества пропусков соединений и сосредоточился на их возможных причинах. В статье делается вывод о том, что в процессе дифференцируемой оптимизации пропускные соединения имеют нечестное преимущество (Unfair Advantage) в конкурентной среде, что позволяет легко выигрывать в конкурентной борьбе пропускные соединения. Таким образом, FairDARTS предлагает смягчить конкурентную среду (суммирование Softmax) в кооперативную среду (суммирование сигмовидной формы), сделав недействительным эффект несправедливого преимущества. Окончательный метод выбора оператора также отличается от DARTS.Применяя пороговое усечение, например, выбирая операторы, чей вес структуры выше 0,8, пропуск соединений может появляться одновременно с другими операторами, но это эквивалентно увеличению пространства поиска. : оригинал В подсети окончательно выбирается только один между двумя узлами.

RobustDARTS (сокращенно R-DARTS) определяет, рушится ли процесс оптимизации, путем вычисления корней характеристик Гессе. В статье считается, что функция потерь имеет четкий локальный оптимум (резкие локальные минимумы, правая точка на рисунке 5a), а процесс дискретизации (от * до α^disc) может вызвать переход от хорошо оптимизированных острых точек к плохо оптимизированным, что приведет к снижению производительности конечной модели. R-DARTS обнаружил, что этот процесс тесно связан с собственным корнем Гессе (рис. 5b). Следовательно, можно считать, что оптимизацию следует остановить, когда изменение собственного значения Гессе слишком велико, или следует использовать регуляризацию, чтобы избежать большого изменения собственного значения Гессе.

Гладкие DARTS (сокращенно SDARTS) основаны на суждениях R-DARTS, используют метод регуляризации на основе возмущений и неявно ограничивают корни признаков Гессе. В частности, SDARTS дает определенную степень случайного возмущения структурным весам, что делает суперсеть более защищенной от помех и в то же время оказывает сглаживающее воздействие на ландшафт функции потерь.

DARTS-

Анализ рабочего механизма прыжковых соединений.

Сначала мы проанализируем явление падения производительности из рабочего механизма пропускных соединений. Реснет^[11]В сети вводится пропускное соединение, так что при обратном распространении мелкий слой сети всегда содержит градиент к глубокому слою, поэтому явление исчезновения градиента можно смягчить. Формула выглядит следующим образом (i, j, k представляют собой количество слоев, X — входные данные, W — вес, а f — вычислительная единица).

Чтобы выяснить влияние пропущенных соединений на производительность остаточной сети, мы провели серию проверочных экспериментов в ResNet, то есть добавили обучаемый параметр структурного веса β к пропущенным соединениям, и наш расчет градиента становится следующей формулой :

В трех экспериментах β был инициализирован равным {0, 0,5, 1,0} соответственно.Мы обнаружили, что β всегда может быстро вырасти примерно до 1 (рис. 2), чтобы увеличить передачу глубоких градиентов на мелкие слои, тем самым облегчая явление исчезновение градиента.

В DARTS пропущенные соединения аналогичны ResNet, и когда у них есть обучаемые параметры, их структурные параметры также имеют эту тенденцию, что облегчает обучение суперсетей. Но, как отмечает Fair DARTS [7], проблема в то же время заключается в том, что существует несправедливое преимущество пропусков соединений перед другими операторами.

Решение коллапса: увеличить вспомогательное соединение прыжка

Согласно приведенному выше анализу, DARTS-указал, что соединение с пропуском (Skip на рис. 1 ниже) играет двойную роль:

Как необязательный оператор сам участвует в построении подсетей.
Он образует остаточную структуру с другими операторами, тем самым способствуя оптимизации суперсети.

Первая роль заключается в том, чтобы предвидеть роль, которую он будет играть, чтобы честно конкурировать с другими операторами. Вторая роль заключается в том, почему пропущенные соединения имеют несправедливое преимущество, облегчая оптимизацию, но мешая нашим выводам об окончательных результатах поиска.

Чтобы убрать второй эффект, мы предлагаем добавить дополнительное пропускное соединение (Auxiliary Skip) и сделать его структурный вес β убыванием от 1 до 0 (для простоты использовать линейное затухание), чтобы надсеть и подсеть могли сохранять структура по консистенции. На рис. 1 (б) показано соединение между двумя узлами в подструктуре.

Процесс оптимизации DARTS аналогичен DARTS, за исключением добавления вторичных пропускных соединений. Сначала постройте суперсеть в соответствии с рисунком 1 (b), выберите стратегию β-распада, а затем примените альтернативные итерации для оптимизации веса суперсети w и веса структуры α, см. описание алгоритма ниже (алгоритм 1).

В этом методе мы отказываемся от практики использования индикатора (Indicator) для поиска коллапса производительности, такого как корень характеристики в R-DARTS, тем самым устраняя коллапс производительности DARTS, отсюда и название DARTS-. Также по данным PR-DARTS^[12]Согласно теории конвергенции β, вспомогательное пропускное соединение уравновешивает конкуренцию между операторами, и когда β затухает, справедливая конкуренция между операторами сохраняется.

Анализ и проверка

Тенденция изменения характеристического корня Гессе

В R-DARTS и нескольких пространствах поиска, принятых DARTS, DARTS-обнаружил ситуацию, когда производительность подсети увеличивается (рис. 4b), но собственный корень Гессе изменяется слишком сильно (рис. 4a), этот результат становится предложенным R-DARTS A контрпример к принципу, то есть используя критерий R-DARTS, мы упустим некоторые хорошие модели. Это также показывает, что DARTS- может привести к другой структуре модели, чем R-DARTS.

Ландшафт точности набора валидации

Топография точности набора валидаций может в определенной степени объяснить сложность процесса оптимизации модели. DARTS (рис. 3а) имеет относительно крутые формы рельефа вблизи оптимального решения, а изолинии относительно густые и неровные, тогда как DARTS- гладкий и плавный, а изолинии более равномерные. Кроме того, более гладкие формы рельефа не склонны к резким локальным оптимальным точкам, что также в определенной степени снижает погрешность дискретизации.

Результаты экспериментов

Структура модели

На рисунке 9 показана структура сети, полученная нами в пространстве поиска DARTS S0 и пространстве поиска Robust DARTS S1-S4. Рисунок 10 — результат прямого поиска в наборе данных ImageNet в пространстве поиска MobileNetV2.

Результаты задачи классификации

DARTS- достигает лучших в отрасли результатов как для стандартных наборов данных классификации CIFAR-10, так и для ImageNet, как показано в следующей таблице:

В нескольких пространствах поиска S1-S4, предложенных RobustDARTS для проверки надежности, модели с поиском в DARTS превосходят R-DARTS и SDARTS.

Оценка алгоритма NAS

NAS-Bench-201[10] — один из тестовых инструментов, используемых для измерения алгоритмов NAS, DARTS — также показал лучшие результаты, чем другие алгоритмы NAS, и лучшие результаты в основном близки к лучшим моделям в тесте.

Возможность миграции

DARTS-A в качестве магистральной сети также превосходит предыдущую модель NAS в задаче обнаружения целей набора данных COCO: mAP достигает 32,5%.

В совокупности DARTS-метод наследует высокую эффективность DARTS и продемонстрировал свою надежность и эффективность в стандартных наборах данных, тестах NAS, пространстве поиска R-DARTS и переносе домена в задачах обнаружения, что доказывает превосходство самого метода поиска. и решает некоторые сложные проблемы в поиске архитектуры текущей нейронной сети, что положительно повлияет на исследования и применение NAS.

Резюме и перспективы

На этот раз в статье DARTS-, которая была включена в ICLR 2021 Meituan, были рассмотрены причины недостаточной надежности результатов поиска DARTS, проанализирована двойная роль пропускных соединений и предложено увеличить вспомогательные пропускные соединения с коэффициентами затухания до разделите их методом, так что родное соединение пропуска внутреннего слоя только выражает свою функцию как необязательную операцию. В то же время мы провели глубокий анализ собственных корней, на которые опирается R-DARTS, и обнаружили, что в качестве признака падения производительности будут обратные примеры. Ожидается, что в будущем DARTS- как эффективный, надежный и общий метод поиска будет расширен и применен в других задачах и приложениях в других областях. Для получения более подробной информации о статье, пожалуйста, обратитесь к оригинальной статье. Экспериментальный код уже находится вGitHubОткрытый источник.

Технология AutoML может быть применена к компьютерному зрению, речи, NLP, поисковым рекомендациям и др. Команда алгоритмов AutoML Центра визуальной разведки стремится расширить возможности бизнеса компании и ускорить внедрение алгоритмов с помощью технологии AutoML. В настоящее время в статье подана заявка на патент, и алгоритм в этой статье также интегрирован в систему автоматизированной платформы машинного зрения Meituan для ускорения производства и итерации автоматизированных моделей. В дополнение к визуальным сценариям мы изучим приложения в бизнес-сценариях, таких как рекомендации по поиску, беспилотные автомобили, оптимизация и голос.

об авторе

Xiangxiang, Xiaoxing, Zhang Bo, Xiaolin и т. д. — все они из Meituan Visual Intelligence Center.

использованная литература

Learning Transferable Architectures for Scalable Image Recognition, АР Вест V.org/ABS/1707.07….
NAS-FPN: Изучение масштабируемой архитектуры пирамиды функций для обнаружения объектов,АР Вест V.org/ABS/1904.07….
Auto-deeplab: поиск иерархической нейронной архитектуры для семантической сегментации изображения,АР Вест V.org/ABS/1901.02….
DARTS-: решительный выход из падения производительности без индикаторов,открыть review.net/forum?ID=KL….
DARTS: поиск дифференцируемой архитектуры,АР Вест V.org/PDF/1806.09….
Поиск с прогрессивной дифференцируемой архитектурой: преодоление разрыва между поиском и оценкой,АР Вест V.org/PDF/1904.12….
Справедливые DARTS: устранение несправедливых преимуществ в поиске дифференцируемой архитектуры,АР Вест V.org/PDF/1911.12….
Понимание и надежность поиска дифференцируемой архитектуры,открыть обзор.net/PDF?ID=H1GD….
Стабилизация поиска дифференцируемой архитектуры с помощью регуляризации на основе возмущений,АР Вест V.org/ABS/2002.05….
NAS-Bench-201: расширение области поиска воспроизводимой нейронной архитектуры,откройте обзор.net/forum?ID=HJ….
Глубокое остаточное обучение для распознавания изображений,АР Вест V.org/ABS/1512.03….
Вдохновленный теорией поиск дифференциальной сетевой архитектуры с регуляризацией пути,АР Вест V.org/ABS/2006.16….

Прочтите другие подборки технических статей от технической команды Meituan

|Ответьте на ключевые слова, такие как [акции 2020 г.], [акции 2019 г.], [акции 2018 г.], [акции 2017 г.] в диалоговом окне строки меню общедоступной учетной записи, и вы сможете просмотреть коллекцию технических статей технической группы Meituan в течение годы.

Эта статья подготовлена технической командой Meituan, авторские права принадлежат Meituan. Добро пожаловать на перепечатку или использование содержимого этой статьи в некоммерческих целях, таких как обмен и общение, пожалуйста, укажите «Содержимое воспроизводится технической командой Meituan». Эта статья не может быть воспроизведена или использована в коммерческих целях без разрешения. Для любой коммерческой деятельности, пожалуйста, отправьте электронное письмо по адресуtech@meituan.comПодать заявку на авторизацию.