Обучение с подкреплением (RL), поддисциплина машинного обучения, представляет собой самообучение, управляемое обратной связью от агентов, чтобы максимизировать вознаграждение в окружающей среде. Он включает в себя изучение агентом задачи в окружающей среде с помощью повторяющихся действий проб и ошибок, использование обратной связи действия для информирования будущих действий для получения большего вознаграждения и минимального наказания. Чем больше итераций, тем агент учится работать лучше, разрабатывая все более и более оптимальные политики действий.
Структура модели обучения с подкреплением
Давайте рассмотрим следующую структуру настольного тенниса (пинг-понга). Агент — это роботизированная рука, окружающая среда — это большее пространство, куда приземляется мяч после удара ракеткой, а награда показывает, насколько хорош этот ход. Состояние - это текущий экземпляр рэкета. Агенты могут быть оштрафованы за отрицательные результаты — пропущенный мяч, попадание в сетку или падение мяча со стола после удара ракеткой.
Шаровая пусковая установка и роботизированная рука
Подобные динамические задачи гораздо сложнее для роботов, чем для людей. Основными проблемами, связанными с обучением робота игре в пинг-понг, являются быстрая реакция, необходимая для восприятия положения мяча, постоянные изменения в окружающей среде, точные движения, необходимые для приземления мяча в определенном положении, приносящем вознаграждение, и возможно использование _ _ или действия с высоким ускорением для быстрого маневрирования.
Пневматические искусственные мышцы (PAM) используются для создания рук, удерживающих ракетку. Они используются для выполнения высокоскоростных ударных движений, при этом имея возможность замедлять руку, не выходя за пределы диапазона углов суставов. PAM включают в себя мягкие приводы, устройства, которые преобразуют энергию в движение с высокой чувствительностью к силе и высокой ударопрочностью, так что рука может механически адаптироваться к быстрым внешним силам. Диапазон давления можно отрегулировать в PAM, чтобы замедлить движение.
Робот учится разбивать с нуля — вам не нужно его программировать. Это достигается за счет отдачи в пользу высоко ускоренных выстрелов, что максимизирует скорость отдачи в функции вознаграждения. Используя моделирование, робот может учиться, не взаимодействуя с физическим мячом.
Чтобы максимизировать желаемое действие — отправку мяча в желаемое место приземления с наибольшей скоростью — это должно быть указано в функции вознаграждения, и агент усердно учится. Сначала ракетке нужно ударить по мячу, а затем нужно оптимизировать отдачу, чтобы она соответствовала желаемому поведению, указанному в функции вознаграждения.
Функция вознаграждения оценивает траекторию мяча, которая зависит от того, где и как быстро мяч приземлится. В ней агент наказывается за разницу между траекторией мяча и ракетки. Таким образом, агент постоянно мотивируется обратной связью о том, как далеко находится мяч от ракетки. Это направляет ракетку как можно ближе к мячу при ударе по мячу.
Бонусная функция
В математическом представлении функции вознаграждения ракетки для пинг-понга (tt) разница между ожидаемой и фактической точками приземления определяет вознаграждение, которое получает агент. Константа нормализации _c_ предназначена для масштабирования значения вознаграждения от 0 до 1, а показатель степени 3/4 предназначен для внесения небольшого отклонения от оптимального значения. Это частично устраняет аномалии, когда мяч ударяется о край ракетки, что приводит к неожиданным результатам.
В задаче отбивания награда включает в себя максимальную скорость, обозначенную _b_, при минимизации разницы между ожидаемой и истинной позициями приземления. Высокая скорость разбивания идет с компромиссом в точности приземления, что также характерно для игроков-людей. В задаче измельчения средняя скорость12 м/с, а скорость возврата к заданию усредненная5 м/с.
Обучение начинается со случайного исследования агентом пространства в ответ на симуляцию мяча. Он постоянно становится более настроенным на движение мяча. Он учится сам по себе с нуля и является воплощением обучения с подкреплением. Как ни странно, он также учится позиционировать ракетку перед ударом по мячу, готовясь к этому.
Самообучающаяся ракеточная система, готовая к работе
Разбить мяч сложнее, чем просто вернуть его. Это требует большего исследования в начальном случайном пространстве. В тренировочных симуляциях он проводит больше исследований, поскольку стремится максимизировать оба компонента вознаграждения — высокую скорость и желаемое положение приземления — а также изучает компромиссы между ними.
Обе задачи — возвращение и разбивание — потребовали чуть более 14 часов обучения. Время обучения является результатом сходимости скорости возврата. Это означает, что количество возвратов и отклонений тестов выравнивается после нескольких итераций или обновлений политики. После 183 обновлений политики (отраженных по оси x ниже) обновление было сочтено бесполезным.
Примечательно, что агент может учиться на программном моделировании мячей для пинг-понга и переносить результаты обучения на реальные мячи для пинг-понга. Когда тест возвращается, агент попадает в 96% шаров, 75% из которых возвращаются противнику. Когда был сделан пробный удар, ракетка попала в мяч в 77 процентах случаев, и только в 29 процентах случаев он достиг соперника.
Распределение точек приземления после удара по мячу
Исследователи добились похвальной точности с роботом PAM. Интеллектуальная система учится с нуля и тренируется без настоящего мяча. Система преодолевает проблемы, связанные с динамической точностью, ускоренным движением и мгновенной реакцией.
Эта статья правильнаяЭто эссеИзысканный обзор .это здесьМожно найти видео на YouTube, упрощающее исследование.
Обучение с подкреплением учит роботов играть в настольный тенниспервоначально опубликовано вNerd For Techжурнал, люди продолжают разговор, выделяя историю и отвечая на нее.