Глубокое обучение: невероятная эффективность случайных значений

На ICLR 2017 в Тулоне, Франция, мы получили статьи, представленные в установленные сроки, и вместо ожидаемой струйки новых исследований в области глубокого обучения мы получили свирепый поток. Это кладезь научных исследований, в котором каждую минуту публикуются новые статьи. Многие статьи совершенствуют современные передовые технологии. Мне бы хотелось найти более фундаментальные теоретические и экспериментальные результаты о природе глубокого обучения, но, к сожалению, таких статей очень мало. Тем не менее, есть два исследования, которые выделяются, а также статья, в которой я некоторое время сомневался, но в конце концов принял ее невероятные результаты. Это действительно хорошая новость, но и плохое начало.

Сначала обсудим хорошие новости. Невероятное открытие заключается в том, что вы можете научить нейронную сеть учиться (так называемое метаобучение). В частности, несколько исследовательских групп обучили нейронные сети, способные выполнять стохастический градиентный спуск (SGD). Эти исследовательские группы могут не только продемонстрировать, что их нейронная сеть способна изучать SGD, но и сеть работает лучше, чем любой другой метод, настроенный человеком. Две опубликованные статьи《Глубокое обучение с подкреплением для ускорения скорости конвергенции》и«Оптимизация как модель обучения за несколько шагов». Жаль, что до этого две исследовательские группы были на шаг впереди Deep Mind, чьи работы«Учимся учиться по градиентному спуску по градиентному спуску»Эта практика введена. Последние две статьи тренируют сеть долговременной кратковременной памяти (LSTM), а первая статья тренирует ее с помощью обучения с подкреплением. Я думал, что внедрение метаобучения займет больше времени, но оно развивается быстрее, чем я ожидал.

Чтобы не отставать, две другие команды создали машины, способные проектировать новые сети глубокого обучения, и таким образом мы смогли улучшить существующие методы. Это обучение проектированию нейронных сетей. Две опубликованные статьи: «Проектирование архитектур нейронных сетей с использованием обучения с подкреплением» и«Поиск нейронной архитектуры с обучением с подкреплением». В предыдущей статье использовался алгоритм Q-обучения с подкреплением для обнаружения архитектур сверточных нейронных сетей. Вы можете найти некоторые из созданных ими сверточных нейронных сетей в Caffe. И последний документ — настоящий шок (без вычислительных ресурсов Google это просто невозможно). Они не только продемонстрировали современные сверточные нейронные сети, но и машина фактически изучила некоторые варианты узлов LSTM. Созданный машиной узел LSTM выглядит так (слева и внизу):

Так что не только исследователи, которые вручную оптимизировали методы градиентного спуска, остались без работы, но и люди, которые зарабатывают на жизнь проектированием нейронных сетей! По сути, это только начало системы глубокого обучения, способной к самообучению. Итак, здесь я делюсь карикатурой Шмидхубера, которая точно описывает происходящее.

Это совершенно поразительно, и мы понятия не имеем, как быстро могут развиваться алгоритмы глубокого обучения. Это мета-свойство позволяет вам применять его к себе, рекурсивно создавая все более и более совершенные системы.

А теперь позвольте мне сообщить вам плохие новости. Вот бумага, которая передает сообщение:«Понимание глубокого обучения требует переосмысления обобщения». я правобобщениеПосле долгих размышлений я также упомянул кое-что о Quora.обобщениеислучайность, надеюсь, кто-то может поделиться своими идеями по этому поводу. Однако до тех пор, пока авторы вышеупомянутой статьи не провели ряд интересных экспериментов, никто не дал мне удовлетворительного ответа и не понял важности этого вопроса. Вот некоторые выводы из их статьи:

1. Эффективная мощность нейронной сети достаточно велика, даже достаточно, чтобы записать весь набор данных с использованием памяти грубой силы.

2. Даже со случайными метками все еще легко оптимизировать. На самом деле время обучения для случайных меток увеличивается лишь на небольшой постоянный коэффициент по сравнению с обучением с реальными метками.

3. Рандомизация меток — это всего лишь преобразование данных, остальные свойства задачи обучения остаются неизменными.

Шокирующая правда всплыла наружу. Сети глубокого обучения — это просто крупномасштабные хранилища ассоциативной памяти. Сети глубокого обучения сохраняют хорошую способность к обобщению даже при подборе случайных данных. Это действительно странно, и большая часть доказательств, подтверждающих эффективность нейронных сетей, основана на гипотезе о том, что «естественные» данные имеют тенденцию существовать в очень узком многообразии многомерного пространства. Однако случайные данные не имеют такой тенденции.

Ранее в этом году Джон Хопкрофт написалбумага, исследуя двойственность между нейронными сетями и ассоциативной памятью. Вот иллюстрация из его статьи:

В статье «Понимание глубокого обучения требуется переосмысление обобщения» наш проверенный и проверенный инструмент обобщения (т. е. регуляризация) еще более подробно исследуется и обнаруживается, что:

Явная регуляризация может повысить производительность обобщения, но она не является ни необходимой, ни достаточной для контроля ошибки обобщения.

Другими словами, все наши инструменты регуляризации могут оказаться не такими эффективными, как мы думали! И, что еще более невероятно, невероятный эффект SGD на самом деле является просто еще одним методом регуляризации, который работает!

Ссылаясь на линейные модели, мы анализируем, как SGD выполняет неявную регуляризацию.

Фактически, другая команда, представленная на ICLR2017, назвала«Эмпирический анализ поверхностей потерь в глубокой сети», подтверждает, что локальные минимумы этих сетей различны:

Наши эксперименты показывают, что разные методы оптимизации находят разные минимумы даже при переключении с одного метода на другой на очень позднем этапе обучения. Кроме того, мы обнаруживаем, что минимумы, найденные разными методами оптимизации, имеют разную форму, но эти минимумы схожи по наиболее важной метрике — точности обобщения.

Это показывает, что ваш выбор алгоритма обучения «манипулирует» тем, как алгоритм достигает конечного результата. Случайность вездесуща, независимо от того, как вы регулируете свою сеть или какой вариант SGD вы используете, сеть будет стремиться к сходимости (если вы установите правильные случайные условия)! Какие свойства SGD дают машинам возможность обучаться? Является ли это атрибутом, связанным с дифференциацией, или каким-то другим более общим атрибутом? Если мы можем научить сеть выполнять SGD, можем ли мы научить ее выполнять этот неизвестный обобщенный метод обучения?

Фактически, в статье ранее в этом году«Мощная генеративная модель, использующая случайные веса для представления глубокого изображения»Показана эффективность этой случайности. В этой статье, также написанной в соавторстве с Джоном Хопкрофтом, показано, что вы можете создавать фотореалистичные изображения, используя случайно инициализированные сети без какого-либо обучения. Как это возможно?

Поэтому, чтобы понять глубокое обучение, мы должны принять случайность. Случайность возникает из максимальной энтропии, а самое интересное в максимальной энтропии — это ее собственная структура! Объем памяти нейронных сетей, по-видимому, наиболее близок к случайным весам. Самое странное здесь то, что случайность повсюду во Вселенной. Направление с большим значением энтропии отражает направление времени. Так что же произойдет, если это свойство также станет основой для обучающихся машин?

Оригинальное название статьи — «Глубокое обучение: необоснованная эффективность случайности» Карлоса Э. Переса.

Эта статья написанаСообщество Alibaba Cloud YunqiОрганизация переводов.

Статья представляет собой упрощенный перевод, для получения более подробной информации, пожалуйста, проверьте исходный текст.