- Тема эссе: Игра в Atari с глубоким обучением с подкреплением
Проблема решена?
Решите проблему сквозного контроля за счет получения данных от высокоразмерных датчиков (ранее использовались многие функции, извлекаемые вручную). Используемый пример: Обучение непосредственному управлению данными изображенияAtari
игры, так и на человеческом уровне.
задний план
До этого было проведено много исследовательской работы, которая является примером прямого получения выходных результатов из многомерных данных. Такие, как визуальный и фонетический аспекты (конкретные ссылки есть в ссылках в конце текста). Авторы используют этот метод обработки непосредственно в обучении с подкреплением. Однако из-за специфики метода обучения с подкреплением (задержка вознаграждения редкая, а состояния сильно коррелированы, данные, полученные с помощью обучения с подкреплением, изменятся и не будут удовлетворять фиксированному распределению). Поэтому по-прежнему сложно напрямую использовать нейронные сети для обучения с подкреплением.
Используемый метод?
Статья основана на1992年文献1
Структура обучения с подкреплением алгоритма Q-Learning в сочетании с мощными возможностями обработки изображений сверточной нейронной сети предлагает самую базовую сквозную стратегию управления пикселями высокой размерности.
Вышеупомянутая структура может работать с многомерными данными, такими как пиксели, но корреляция между такими данными в самом обучении с подкреплением и нестационарностью распределения данных не была решена. автор1993年文献2
использоватьОпыт повторного воспроизведенияДля решения этой проблемы. Этот механизм воспроизведения опыта предполагает обучение с подкреплением, и распределение обучения может медленно переходить от исходных случайных данных к текущей ситуации, где эффект лучше.
Чтобы улучшить обобщающую способность обучения с подкреплением, используется метод аппроксимации функции для оценки функции действия-ценности.. Первоначальное описание его основного алгоритма и сети выглядит следующим образом:
Вот это надо пониматьTarget Network
,а также公式3
Все символы и значение нижних индексов. Алгоритм этой модели таков.Model-free
иoff-policy
из.
Псевдокод его алгоритма выглядит следующим образом:
по сравнению со стандартнымQ-Learning
алгоритм,DQN
Алгоритм улучшен следующим образом:
- Использование воспроизведения опыта повышает эффективность использования сэмплов;
- Случайная выборка из пула опыта для уменьшения корреляции между данными уменьшит проблему дисперсии в процессе обновления;
- Воспроизведение данных с использованием опыта не будет легко расходиться. Первоначальное объяснение выглядит следующим образом:
Достигнутый эффект?
Автор находится в2013年文献3
предоставленная средаArcade Learning Environment (ALE)
серединаAtari
Внутриигровые эксперименты. Те же сетевые параметры и структура превзошли экспертов-людей в трех играх.
Два крайних левых изображения описывают среднее вознаграждение, которое, кажется, не сходится, но максимальное значение Q, предсказанное двумя рисунками справа, гораздо более стабильно. Это можно рассматривать как экспериментальное доказательство сходимости нейронной сети. Конечный эффект и влияние на будущие поколения очень огромны. Его производительность сравнима с производительностью людей-игроков.
Опубликованная информация? Информация об авторе?
Эта статья является статьей на arXiv. Первый авторVolodymyr Mnih
имеет докторскую степень в области машинного обучения Университета Торонто под руководствомGeoffrey Hinton
, который также является исследователем Google DeepMind. Степень магистра в Университете Альберты под руководствомCsaba Szepesvari
.
Ссылка на ссылку
- Алгоритм Q-обученияВ: Кристофер Дж. К. Уоткинс и Питер Даян, Q-обучение, машинное обучение, 8 (3-4): 279–292, 1992.
- experience replay mechanism: Лун-Цзи Линь, Обучение с подкреплением для роботов с использованием нейронных сетей, Технический отчет, Документ DTIC, 1993.
- Marc G Bellemare, Yavar Naddaf, Joel Veness, and Michael Bowling. The arcade learning environment: An evaluation platform for general agentsЖурнал исследований искусственного интеллекта, 47:253–279, 2013 г.
Визуальный аспект:
- Alex Krizhevsky, Ilya Sutskever, and Geoff Hinton. Imagenet classification with deep convolutional neural networks, В Достижениях в области нейронных систем обработки информации 25, страницы 1106–1114, 2012.
- Volodymyr Mnih. Machine Learning for Aerial Image Labeling. PhD thesis, University of Toronto, 2013.
- Pierre Sermanet, Koray Kavukcuoglu, Soumith Chintala, and Yann LeCun. Pedestrian detection with unsupervised multi-stage feature learning. In Proc. International Conference on Computer Vision and Pattern Recognition (CVPR 2013). IEEE, 2013.
Голос:
-
George E. Dahl, Dong Yu, Li Deng, and Alex Acero. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition. Audio, Speech, and Language Processing, IEEE Transactions, 20(1):30–42, январь 2012 г.
-
Alex Graves, Abdel-rahman Mohamed, and Geoffrey E. Hinton. Speech recognition with deep recurrent neural networks. In Proc. ICASSP, 2013.
мойИмя общедоступной учетной записи WeChat: Глубокое обучение и расширенное интеллектуальное принятие решенийИдентификатор официального аккаунта WeChat: Мультиагент1024Введение в публичный аккаунт: В основном исследуйте и делитесь соответствующим контентом, таким как глубокое обучение, машинные игры и обучение с подкреплением! Ждем вашего внимания, добро пожаловать учиться и обмениваться прогрессом вместе!