Автор|Натан Ламберт Компилировать|ВКонтакте Источник | К науке о данных
1. Контролируемое обучение
Современное обучение с подкреплением почти полностью сосредоточено на глубоком обучении с подкреплением. Слово «глубокий» в глубоком обучении с подкреплением означает использование нейронных сетей в основе алгоритма. Нейронные сети делают некоторые многомерные приближения в процессе обучения. При этом распространено заблуждение, что модель не обязательно должна иметь много слоев и функций, а глубина подразумевает много слоев.
Почти все курсы и учебные пособия предполагают, что вы можете точно настроить простые нейронные сети для аппроксимации значений состояния или создания окончательных политик. Исторически эти модели были очень чувствительны ко всем следующим параметрам обучения: скорость обучения, размер партии, параметры модели, нормализация данных и многое другое. В обучении RL возникает много проблем, и лучший способ — научиться обучению с учителем, а инструменты AutoML сделают всю работу за вас.
Начните с изучения кода, разберитесь во всем, что касается кода, а затем перестройте его. Сделайте это несколько раз, и вы очень хорошо научитесь. Обучение под наблюдением также является навыком, который будет применяться в большинстве областей компьютерных наук в течение следующего десятилетия, так что будьте в курсе.
2. Методы поиска в искусственном интеллекте
RL — это проблема поиска в политическом пространстве. Самые влиятельные статьи последних лет были в значительной степени вдохновлены древними задачами поиска. Давайте взглянем на три самые влиятельные недавние статьи в RL:
-
Пока что самый распространенный результат обучения с подкреплением: Deepmind освоил множество игр и провел крупномасштабное обучение с подкреплением. Самым последним является использование сетей планирования для изучения будущих действий (глубокий разум.com/research/p…)
-
Исследовательский статус RL на основе модели: оптимизация политики на основе модели (MBPO). MBPO ищет близлежащий регион государственного пространства действий для получения более полных знаний. Это смоделированное знание похоже на простое исследование. (АР Вест V.org/ABS/1906.08…)
-
Состояние исследований RL без моделей: критик мягкого актера (SAC). Компания SAC известна сочетанием эффективной разведки и высокой пиковой производительности. Это достигается путем максимизации члена энтропии по политике. Как проблема поиска, прямой поиск политик является наиболее важным аспектом RL.
Вы можете пройти курсы по искусственному интеллекту в Калифорнийском университете в Беркли и Массачусетском технологическом институте и попробовать себя в паре проектов.
inst.eecs.berkeley.edu/~cs188/
О стал.персик.квота/курсы/голоден...
3. Понимать академические статьи
Заметьте, я не говорю о чтении академических статей, дело в том, чтобы уметь их понимать.
Академический ландшафт быстро меняется, и статьи ежедневно публикуются в активном сообществе Twitter (серьезно, следите за несколькими известными исследователями — здорово держать вас в курсе). Что вам нужно научиться, так это отделять влиятельные газеты от шума и прогресс от ажиотажа.
Дело не в количестве цитирований, хотя я признаю, что цитирование — хороший способ выделиться. На чем вы должны сосредоточиться, так это на экспериментах: идут ли они по пути задавания вопросов, экспериментов, поиска решений или просто постепенных улучшений другого метода? Лучшие статьи ищут правду, а не цифры.
Лучшее исследование ищет самые важные вопросы, независимо от волны научных дискуссий. Научитесь распознавать эти сигналы, и вы сможете идти в ногу со временем и стать ценным талантом на следующее десятилетие.
конец
Я написал много руководств по базовым навыкам обучения с подкреплением и опубликую их позже.
- Что такое марковский процесс принятия решений?
- Линейная алгебра для обучения с подкреплением.
- Базовый итеративный подход к обучению с подкреплением.
Оригинальная ссылка:к data science.com/3-skills-to…
Добро пожаловать на сайт блога Panchuang AI:panchuang.net/
sklearn машинное обучение китайские официальные документы:sklearn123.com/
Добро пожаловать на станцию сводки ресурсов блога Panchuang:docs.panchuang.net/