[Инструменты глубокого обучения] Платформа глубокого обучения Baidu PaddlePaddle PARL

Пример быстрого запуска PARL

PaddlePaddle PARL, название которого происходит от PAddlepaddle Reinfocement Learning, представляет собой фреймворк глубокого обучения с подкреплением, основанный на Baidu PaddlePaddle.PaddlePaddle ****PARL объединяет многолетний технический опыт Baidu и опыт применения продуктов в области обучения с подкреплением. По сравнению с существующими инструментами и платформами обучения с подкреплением, PaddlePaddle PARL обладает более высокой масштабируемостью, воспроизводимостью и возможностью повторного использования, мощной поддержкой массового распараллеливания и разреженных функций, а также случаев применения промышленного уровня.

На основе PARL обучите агента играть в игру CartPole с помощью алгоритма градиента политик за считанные минуты.

быстрый старт
DQN
DDPG
PPO
Решения-победители на NIPS2018: AI for Prosthetics Challenge

как пользоваться

Зависимости: (успешно протестировано при установке Ubuntu, не удалось в Windows)

питон2.7 или питон3.5+
paddlepaddle > = 1.0.0
PARL
gym

Начать обучение:

# Install dependencies
pip install paddlepaddle  
# Or use Cuda: pip install paddlepaddle-gpu

pip install gym
git clone https://github.com/PaddlePaddle/PARL.git
cd PARL
pip install .

# Train model
cd examples/QuickStart/
python train.py  
# Or visualize when evaluating: python train.py --eval_vis

。。。
[01-19 00:04:20 MainThread @train.py:71] Episode 995, Reward Sum 198.0.
[01-19 00:04:20 MainThread @train.py:71] Episode 996, Reward Sum 200.0.
[01-19 00:04:20 MainThread @train.py:71] Episode 997, Reward Sum 200.0.
[01-19 00:04:20 MainThread @train.py:71] Episode 998, Reward Sum 150.0.
[01-19 00:04:21 MainThread @train.py:71] Episode 999, Reward Sum 200.0.
[01-19 00:04:21 MainThread @train.py:80] Test reward: 200.0

результат

После обучения вы увидите, как агент набирает наивысший балл (200 баллов).