3 навыка, которые необходимо освоить перед обучением с подкреплением

Автор|Натан Ламберт Компилировать|ВКонтакте Источник | К науке о данных

1. Контролируемое обучение

Современное обучение с подкреплением почти полностью сосредоточено на глубоком обучении с подкреплением. Слово «глубокий» в глубоком обучении с подкреплением означает использование нейронных сетей в основе алгоритма. Нейронные сети делают некоторые многомерные приближения в процессе обучения. При этом распространено заблуждение, что модель не обязательно должна иметь много слоев и функций, а глубина подразумевает много слоев.

Почти все курсы и учебные пособия предполагают, что вы можете точно настроить простые нейронные сети для аппроксимации значений состояния или создания окончательных политик. Исторически эти модели были очень чувствительны ко всем следующим параметрам обучения: скорость обучения, размер партии, параметры модели, нормализация данных и многое другое. В обучении RL возникает много проблем, и лучший способ — научиться обучению с учителем, а инструменты AutoML сделают всю работу за вас.

Начните с изучения кода, разберитесь во всем, что касается кода, а затем перестройте его. Сделайте это несколько раз, и вы очень хорошо научитесь. Обучение под наблюдением также является навыком, который будет применяться в большинстве областей компьютерных наук в течение следующего десятилетия, так что будьте в курсе.

2. Методы поиска в искусственном интеллекте

RL — это проблема поиска в политическом пространстве. Самые влиятельные статьи последних лет были в значительной степени вдохновлены древними задачами поиска. Давайте взглянем на три самые влиятельные недавние статьи в RL:

Пока что самый распространенный результат обучения с подкреплением: Deepmind освоил множество игр и провел крупномасштабное обучение с подкреплением. Самым последним является использование сетей планирования для изучения будущих действий (глубокий разум.com/research/p…)
Исследовательский статус RL на основе модели: оптимизация политики на основе модели (MBPO). MBPO ищет близлежащий регион государственного пространства действий для получения более полных знаний. Это смоделированное знание похоже на простое исследование. (АР Вест V.org/ABS/1906.08…)
Состояние исследований RL без моделей: критик мягкого актера (SAC). Компания SAC известна сочетанием эффективной разведки и высокой пиковой производительности. Это достигается путем максимизации члена энтропии по политике. Как проблема поиска, прямой поиск политик является наиболее важным аспектом RL.

Вы можете пройти курсы по искусственному интеллекту в Калифорнийском университете в Беркли и Массачусетском технологическом институте и попробовать себя в паре проектов.

inst.eecs.berkeley.edu/~cs188/

О стал.персик.квота/курсы/голоден...

3. Понимать академические статьи

Заметьте, я не говорю о чтении академических статей, дело в том, чтобы уметь их понимать.

Академический ландшафт быстро меняется, и статьи ежедневно публикуются в активном сообществе Twitter (серьезно, следите за несколькими известными исследователями — здорово держать вас в курсе). Что вам нужно научиться, так это отделять влиятельные газеты от шума и прогресс от ажиотажа.

Дело не в количестве цитирований, хотя я признаю, что цитирование — хороший способ выделиться. На чем вы должны сосредоточиться, так это на экспериментах: идут ли они по пути задавания вопросов, экспериментов, поиска решений или просто постепенных улучшений другого метода? Лучшие статьи ищут правду, а не цифры.

Лучшее исследование ищет самые важные вопросы, независимо от волны научных дискуссий. Научитесь распознавать эти сигналы, и вы сможете идти в ногу со временем и стать ценным талантом на следующее десятилетие.

конец

Я написал много руководств по базовым навыкам обучения с подкреплением и опубликую их позже.

Что такое марковский процесс принятия решений?
Линейная алгебра для обучения с подкреплением.
Базовый итеративный подход к обучению с подкреплением.

Оригинальная ссылка:к data science.com/3-skills-to…

Добро пожаловать на сайт блога Panchuang AI:panchuang.net/

sklearn машинное обучение китайские официальные документы:sklearn123.com/

Добро пожаловать на станцию сводки ресурсов блога Panchuang:docs.panchuang.net/