Intel выпускает платформу обучения с подкреплением с открытым исходным кодом Coach

Новости Lei Feng.com, сегодня Intel выпустила новыйCoach, платформа обучения с подкреплением с открытым исходным кодом. Платформа использует вычислительную мощность многоядерного процессора для обучения и оценки агентов обучения с подкреплением. Coach содержит многопоточные реализации некоторых из ведущих алгоритмов обучения с подкреплением для различных игровых и робототехнических сред. Это позволяет эффективно обучать агентов обучения с подкреплением на настольных компьютерах без какого-либо дополнительного оборудования.

С момента появления асинхронных методов глубокого обучения с подкреплением в 2016 году многие алгоритмы смогли быстрее внедрять лучшие политики за счет параллельного запуска нескольких экземпляров на многих ядрах ЦП. На данный момент эти алгоритмы включают A3C, DDPG, PPO, DFP и NAF, и Coach не только включает в себя реализацию новейших алгоритмов, таких как выше, но также помогает пользователям создавать и использовать их на месте.

Чтобы использовать Coach, вам сначала нужно определить проблему, которую вы хотите решить, или выбрать существующую проблему, а затем выбрать набор алгоритмов обучения с подкреплением для решения проблемы. Coazh можно использовать для простых экспериментов с использованием существующих алгоритмов и в качестве песочницы (Lei Feng.com (общедоступный номер: Lei Feng.net). Примечание. Песочница — это практика запуска приложений в ограниченной и безопасной среде, которая требует ограничения доступа к коду. предоставляется приложениям для упрощения отладки в тестах разработки) для упрощения разработки новых алгоритмов. Платформа определяет набор API и ключевых компонентов для обучения с подкреплением, что позволяет пользователям легко повторно использовать компоненты и создавать новые алгоритмы поверх существующих.

Coach интегрируется со средами высшего уровня, такими как OpenAI Gym, Roboschool и ViZDoom. Он также предоставляет различные методы визуализации процесса обучения и понимания базовой механики агента. Все алгоритмы реализованы с использованием оптимизированного Intel TensorFlow, а также это может быть достигнуто с помощью платформы Intel neon™.

Agent

Coach содержит реализации многих типов агентов, включая плавный переход от однопоточной к многопоточной реализации. Агенты реализуются по модульному принципу, что позволяет повторно использовать различные строительные блоки для создания новых и более сложных агентов. Кроме того, Coach может создавать новых агентов для выполнения одной задачи и переключаться на синхронную или асинхронную реализацию многозадачности с минимальными изменениями.

Реализация различных типов агентов, появившихся за последние несколько лет, интегрирована в Coach, что позволяет пользователям обращаться к средам с различными потребностями и способами взаимодействия с агентами, такими как непрерывные и дискретные пространства действий, пространства визуального наблюдения или просто включение наблюдения за необработанными измерениями. космос.

Intel发布开源增强学习框架Coach

окрестности

Coach использует OpenAI Gym в качестве основного инструмента для взаимодействия с различными средами. Он также поддерживает внешние расширения Gym, в том числе Roboschool, gym-extensions и PyBullet, а его оболочки среды могут добавлять дополнительные настраиваемые среды для решения более широкого круга задач обучения.

визуализация

Intel также выпустила Coach Dashboard в качестве дополнительного инструмента для визуализации и отладки. Dashboard — это графический интерфейс для Coach, который позволяет пользователям сравнивать качество тренировочных заездов различными способами в простой для понимания форме, показывая различные сигналы во время тренировки. Во время обучения Coach отслеживает любую значимую внутреннюю информацию и сохраняет ее для визуализации прогресса во время выполнения и после его завершения.

Intel发布开源增强学习框架Coach

Coach также поддерживает другие методы отладки и визуализации, такие как сохранение анимированных GIF-файлов лучших сцен, отображение значений действий во время игры и многое другое.

использовать

Чтобы облегчить пользователям использование Coach, Intel открылаРепозиторий GitHub, затем следуйте инструкциям по установке Coach на свой компьютер. Intel также предоставляет удобные файлы справки, в документе README репозитория GitHub есть несколько простых примеров, а вОфициальный сайтСуществует также более полная документация по использованию и реализации.

Coach подготовил более 60 предопределенных пресетов, различных агентов и доступных сред. Эти предустановки использовались для обучения сотен агентов и были проверены на хорошую производительность. Однако использование этих предустановок не является обязательным, и создание новых предустановок так же просто, как выбор существующего прокси и существующей среды.

Далее Intel планирует добавить больше алгоритмов и сред в будущих версиях, если у вас есть предложения и комментарии, вы можете взаимодействовать на Github.

Lei Feng.com обнаружил, что многие гиганты запустили свои собственные фреймворки для глубокого обучения, такие как TensorFlow от Google, MxNet от Amazon, Caffe 2 от Facebook и т. д. Популярность этих сред глубокого обучения снизила порог глубокого обучения, позволяя все большему количеству людей участвовать в глубоком обучении, но то, как повысить эффективность обучения после снижения порога, также стало ключевым фактором для дифференциации, что также Многопоточность Причина, по которой параллельные вычисления, горизонтальное масштабирование на нескольких машинах и даже специализированное оборудование в последнее время начали набирать силу.

Оригинальную статью Lei Feng.com запрещается перепечатывать без разрешения. Подробнее см.Уведомление о перепечатке.