Пример быстрого запуска PARL
PaddlePaddle PARL, название которого происходит от PAddlepaddle Reinfocement Learning, представляет собой фреймворк глубокого обучения с подкреплением, основанный на Baidu PaddlePaddle.PaddlePaddle ****PARL объединяет многолетний технический опыт Baidu и опыт применения продуктов в области обучения с подкреплением. По сравнению с существующими инструментами и платформами обучения с подкреплением, PaddlePaddle PARL обладает более высокой масштабируемостью, воспроизводимостью и возможностью повторного использования, мощной поддержкой массового распараллеливания и разреженных функций, а также случаев применения промышленного уровня.
На основе PARL обучите агента играть в игру CartPole с помощью алгоритма градиента политик за считанные минуты.
как пользоваться
Зависимости: (успешно протестировано при установке Ubuntu, не удалось в Windows)
- питон2.7 или питон3.5+
- paddlepaddle > = 1.0.0
- PARL
- gym
Начать обучение:
# Install dependencies
pip install paddlepaddle
# Or use Cuda: pip install paddlepaddle-gpu
pip install gym
git clone https://github.com/PaddlePaddle/PARL.git
cd PARL
pip install .
# Train model
cd examples/QuickStart/
python train.py
# Or visualize when evaluating: python train.py --eval_vis
。。。
[01-19 00:04:20 MainThread @train.py:71] Episode 995, Reward Sum 198.0.
[01-19 00:04:20 MainThread @train.py:71] Episode 996, Reward Sum 200.0.
[01-19 00:04:20 MainThread @train.py:71] Episode 997, Reward Sum 200.0.
[01-19 00:04:20 MainThread @train.py:71] Episode 998, Reward Sum 150.0.
[01-19 00:04:21 MainThread @train.py:71] Episode 999, Reward Sum 200.0.
[01-19 00:04:21 MainThread @train.py:80] Test reward: 200.0
результат
После обучения вы увидите, как агент набирает наивысший балл (200 баллов).