BAIR демонстрирует новое имитационное обучение, позволяющее научиться выполнять задачи «как человек»

искусственный интеллект алгоритм NLP робот

Выбрано из BAIR, Тяньхэ Ю, Челси Финн, составлено Heart of the Machine.

Многие роботы изучают задачу с помощью физического контроля и обширных демонстраций, а в недавней статье лаборатории BAIR в Калифорнийском университете в Беркли был представлен подход к обучению с имитацией одного экземпляра. Этот подход сочетает в себе имитационное обучение с метаобучением и позволяет научиться манипулировать объектами, как человек, после наблюдения за действиями человека.

Способность имитировать, наблюдая за другим человеком, чтобы освоить новые навыки, является ключевой частью воплощения интеллекта человека и животных. Можем ли мы заставить робота делать то же самое? Научитесь манипулировать новым объектом, наблюдая, как люди манипулируют объектами, как показано в видео ниже.

Робот учится класть персики в красную миску, наблюдая за движениями человека

Эта способность облегчит нам передачу новых целей и знаний роботу, мы можем просто показать роботу, что мы хотим, чтобы он сделал, вместо того, чтобы управлять роботом дистанционно или разрабатывать функцию возбуждения (это сложный подход, потому что он требует полная система восприятия).

В ряде предыдущих работ исследовалось, как роботы могут учиться у людей-экспертов (например, посредством телеманипуляций или кинестетического обучения), что часто называют имитационным обучением. Однако имитационное обучение, основанное на визуальных навыках, часто требует обширной демонстрации навыков экспертного уровня. Например, согласно предыдущим исследованиям, задача захвата одного стационарного объекта на основе ввода необработанных пикселей требует около 200 демонстраций для достижения хорошей производительности. Поэтому, если будет дана только одна демонстрация, роботу будет трудно учиться.

И проблема становится более сложной, когда роботам необходимо имитировать определенные навыки манипулирования, демонстрируемые людьми. Во-первых, рука робота значительно отличается от руки человека. Во-вторых, к сожалению, сложно разработать надлежащую систему связи между демонстрацией человека и демонстрацией робота. Речь идет не только об отслеживании и переназначении действия: задача больше зависит от того, как действие влияет на объекты реального мира, и нам нужна система связи, ориентированная на взаимодействие.

Чтобы робот мог имитировать навыки в человеческих видео, мы можем заставить его использовать предварительные знания вместо того, чтобы изучать каждый навык с нуля. Включая предварительные знания, робот также должен быть в состоянии быстро научиться манипулировать новыми объектами без изменений в разных областях, таких как разные демонстранты, разные фоновые сцены или разные перспективы.

Мы стремимся достичь обеих возможностей, имитации нескольких примеров и неизменности предметной области, изучая демонстрационные данные. Этот метод, также известный как метаобучение и обсуждавшийся в предыдущих блогах, является ключом к тому, чтобы позволить роботам научиться подражать, наблюдая за людьми.

однократное имитационное обучение

Итак, как мы можем использовать метаобучение, чтобы быстро адаптировать робота к множеству различных объектов? Наш подход сочетает в себе мета-обучение и имитационное обучение для достижения одноразового имитационного обучения. Основная идея состоит в том, чтобы обеспечить единую демонстрацию конкретной задачи, то есть манипулирования конкретным объектом, которую робот может быстро идентифицировать и успешно решить в различных контекстах.

Предыдущее исследование одноэлементного имитационного обучения дало впечатляющие результаты в задачах имитации, таких как укладка блоков, путем изучения тысяч демонстраций. Если мы хотим, чтобы роботы подражали людям и управляли различными новыми объектами, нам необходимо разработать новую систему, которая учится на видеодемонстрациях, используя наборы данных, фактически собранные в реальном мире. Во-первых, мы обсудим, как визуально имитировать одну демонстрацию, собранную с помощью телеоперации. Затем мы покажем, как расширить его, чтобы учиться на видео с участием людей.


Обучение визуальному подражанию Singleton

Чтобы роботы могли учиться на видео, мы объединяем имитационное обучение, эффективный алгоритм метаобучения, с метаобучением, не зависящим от модели (MAML). В этом подходе мы используем стандартную сверточную нейронную сеть, параметр θ является нашим представлением политики, которое отображает временной шаг t из захваченных роботом изображений o_t и конфигурацию робота x_t (например, углы сочленений и скорости сочленений) с действиями робота (например, , линейная и угловая скорости манипулятора).

Алгоритм в основном состоит из трех шагов.

Три шага нашего алгоритма метаобучения

Во-первых, мы собрали демонстрационный набор данных, содержащий большое количество телеуправляемых роботов, выполняющих различные задачи, которые в нашем случае соответствуют манипулированию различными объектами. Затем мы применяем MAML для изучения начального набора параметров политики θ, чтобы после предоставления демонстрации для объекта мы могли выполнить градиентный спуск на демонстрации, чтобы найти обобщаемую политику для этого параметра объекта θ'. При использовании удаленной демонстрации политику обновления можно вычислить путем сравнения прогнозируемого действия политики π_θ(o_t) с демонстрационным действием a*_t:

Затем мы оптимизируем начальный параметр θ, заставляя обновленную политику π_θ' соответствовать действиям того же объекта в другой демонстрации. После метаобучения мы можем заставить робота манипулировать совершенно невидимыми объектами, вычисляя шаги градиента, используя одну демонстрацию задачи. Этот шаг называется метатестированием.

Поскольку этот метод не вводит дополнительные параметры для метаобучения и оптимизации, он очень эффективен в отношении данных. Таким образом, он может выполнять различные задачи управления, такие как толкание и размещение, просто наблюдая за демонстрацией телеуправляемого робота:



Поместите предметы в новые контейнеры с помощью одной демонстрации. Слева: демонстрация. Справа: изученная стратегия

Наблюдение за человеческим одноэлементным подражанием посредством предметно-адаптивного метаобучения

Вышеупомянутые методы по-прежнему полагаются на демонстрацию телероботами, а не людьми. С этой целью мы разрабатываем доменно-адаптивный одноэлементный алгоритм имитации, основанный на приведенном выше алгоритме. У нас есть коллекция демонстрационных видеороликов о телеуправляемых роботах и ​​людях для решения самых разных задач.

Затем мы проводим демонстрации обновлений политик вычислений на людях и оцениваем обновленные политики с помощью демонстраций роботов, выполняющих те же задачи. Иллюстрация алгоритма выглядит следующим образом:

Обзор предметно-адаптивного метаобучения

К сожалению, поскольку человеческие демонстрации — это просто видеоролики, в которых люди выполняют задачи, которые не содержат экспертных действий a*_t, мы не можем вычислять обновления политики, как определено выше. Вместо этого мы предлагаем изучить функцию потерь, которая не требует меток действий для обновления политики. Интуиция изучения функции потерь заключается в том, что мы можем построить немаркированную видеофункцию, используя только существующие входные данные, при этом создавая градиенты, подходящие для обновления параметров политики.

Хотя это может показаться невыполнимой задачей, имейте в виду, что процесс метаобучения по-прежнему контролирует политику с реальными действиями робота после шага градиента. Следовательно, роль потери обучения может быть интерпретирована как простое направление обновлений параметров для изменения политики для получения правильных визуальных сигналов в сцене, чтобы результатом метаобучения было правильное действие. Мы используем временную свертку, чтобы узнать функцию потерь, которая может извлекать временную информацию в видеодемонстрациях:

Мы называем этот подход доменно-адаптивным алгоритмом метаобучения, потому что он учится на данных в разных доменах, таких как демонстрационные видео человека, и использует эти домены в качестве доменов для робота для выполнения политик. Наш подход позволяет роботу PR2 эффективно учиться толкать множество различных объектов, которые не наблюдались во время обучения, в целевое положение:



Подбирайте объекты и размещайте их в целевом контейнере, наблюдая за демонстрацией того, как человек манипулирует каждым объектом:


Учимся брать новый предмет и класть его в миску, за которой раньше не наблюдали.

Мы также оцениваем методы сбора демонстрационных видеороликов с участием людей в разных комнатах с разных точек зрения. Роботы по-прежнему могут хорошо выполнять следующие задачи:


Научитесь толкать новые объекты, наблюдая за человеческими демонстрациями в разных перспективных средах.

Что дальше?

Теперь, когда мы научили роботов учиться манипулировать новыми объектами, просматривая одно видео (которое мы продемонстрировали на NIPS 2017), естественным следующим шагом будет дальнейшее расширение этих методов до настроек задач, соответствующих несопоставимым действиям и целям, таким как использование различные инструменты или заниматься различными видами спорта. Мы надеемся, что, принимая во внимание разнообразие потенциальных распределений задач, эти модели смогут добиться лучшего обобщения, что позволит роботам быстро разрабатывать политики, применимые к новым средам.

Кроме того, методы, которые мы здесь разрабатываем, не ограничиваются роботизированными манипуляциями или даже контролем. Например, при обработке естественного языка используются как имитационное обучение, так и метаобучение. Научиться подражать с помощью нескольких демонстраций языка и других последовательных контекстов принятия решений — интересное направление для будущих исследований.

Мы хотели бы поблагодарить Сергея Левина и Питера Аббила за их ценные отзывы о публикации этого сообщения в блоге. Эта статья основана на следующих документах:

  • One-Shot Visual Imitation Learning via Meta-Learning
  • One-Shot Imitation from Observing Humans via Domain-Adaptive Meta-Learning

Оригинальная ссылка:Бавария.Беркли.Quota/блог/2018/0…