Простое Q-обучение|Одномерный мир Сяо Мина (3)

алгоритм
Простое Q-обучение|Одномерный мир Сяо Мина (3)

Простое Q-обучение|Одномерный мир Сяо Мина (1) Простое Q-обучение|Одномерный мир Сяо Мина (2)

Одномерный ускоренный мир

В этом мире Сяо Мин может контролировать только свое собственное ускорение и может выполнять только следующие три операции над ускорением: увеличить на 1, уменьшить на 1 или оставить без изменений. такпространство действияза:{u1=1,u2=0,u3=1}\{u_1=-1, u_2=0, u_3=1\}

Добавлено: для несогласованного обозначения ускоренияaaПутаница, здесь все теги действий изменены наuu.

В этот момент, в дополнение к информации о местоположении, Сяо Мин также имеет информацию о скорости, поэтому состояние становится трехмерным.st=<xt,vt,at>s_t=<x_t,v_t,a_t>. в,xtx_tдля Сяо Минttположение момента,vtv_tдля Сяо Минttскорость времени,ata_tдля Сяоминttускорение времени. Здесь пространство ускорения Сяо Мина также дискретно. Без потери общности здесьпространство ускоренияустановить как{a1=2,a2=1,a3=0,a4=1,a5=2}\{a_1=-2, a_2=-1, a_3=0, a_4=1, a_5=2\}

В соответствии с комбинационным принципом состояние Сяо Мина имеет в общей сложности21×7×5=73521\times 7 \times 5=735Кусок.государственное пространствоЧасть, как показано ниже:S={s1=<x1,v1,a1>,s2=<x2,v1,a1>,...,s147=<x21,v7,a5>}S=\{s_1=<x_1, v_1, a_1>, s_2=<x_2, v_1, a_1>,...,s_{147}=<x_{21}, v_7, a_5>\}

Для ускорения сходимости плотныйфункция вознаграждения:r(s)=xvar(s)=-|x|-|v|-|a|Когда Сяо Мин находится в среднем камне, а скорость равен нулю, вознаграждение является крупнейшей.

В настоящее времяQtableQ_{table}за735×3735\times 3матрица.

  • тренироваться
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline


def model_update(x, v, a, u):
    a = a+u
    if a < -2: # 保证加速度在区间[-2,2]
        a = -2
    if a > 2:
        a = 2
        
    v = v+a
    if v < -3:  # 保证速度在区间[-3,3]
        v = -3
    if v> 3:
        v = 3  
                
    x = x+v
    if x < -10: # 保证位置在区间[-10, 10]
        x = -10
    if x > 10:
        x = 10          
    return x, v, a
    
xt = np.random.randint(-9, 10) # 随机初始化状态
vt = np.random.randint(-2, 3)
at = np.random.randint(-1, 2)
Q_table = np.zeros((735, 3)) # 初始化Q值为零
for i in range(5000000):
    u = np.random.randint(0,3)-1
    xt1, vt1, at1 = model_update(xt, vt, at, u)
    r = -abs(xt1)-abs(vt1)-abs(at1)
    Q_table[((at+2)*7+(vt+3))*21+xt+10, u+1] = r+0.9*np.max(Q_table[((at1+2)*7+(vt1+3))*21+xt1+10]) # 更新Q值
    xt = xt1
    vt = vt1
    at = at1
  • стратегия использования

Начальное состояние самое левое и скорость наименьшая, т.е.s0=<10,3,2>s_0=<-10, -3, -2>

import matplotlib
import matplotlib.pyplot as plt
%matplotlib inline

is_ipython = 'inline' in matplotlib.get_backend()
if is_ipython:
    from IPython import display
    
plt.ion()

xt = -10
vt = -3
at = -2
x = np.arange(-10, 11)
y = np.zeros(21)
for i in range(100):
    u = np.argmax(Q_table[((at+2)*7+(vt+3))*21+xt+10])-1
    xt1, vt1, at1= model_update(xt, vt, at, u)
    print(xt, vt, at, u , xt1, vt1, at1)
    xt = xt1
    vt = vt1
    at = at1
    plt.clf()
    plt.plot(x, y, 'b')
    plt.plot(xt,[0], 'or')
    plt.pause(0.1)
    if is_ipython:
        display.clear_output(wait=True)
        display.display(plt.gcf())

steps.(xt,vt,at,ut,xt+1,vt+1,at+1)(x_t, v_t, a_t, u_t, x_{t+1}, v_{t+1}, a_{t+1}) 1.(10,3,2,1,10,3,1)(-10, -3, -2, 1, -10, -3, -1) 2.(10,3,1,1,10,3,0)(-10, -3, -1, 1, -10, -3, 0) 3.(10,3,0,1,10,2,1)(-10, -3, 0, 1, -10, -2, 1) 4.(10,2,1,1,10,0,2)(-10, -2, 1, 1, -10, 0, 2) 5.(10,0,2,1,9,1,1)(-10, 0, 2, -1, -9, 1, 1) 6.(9,1,1,0,7,2,1)(-9, 1, 1, 0, -7, 2, 1) 7.(7,2,1,1,5,2,0)(-7, 2, 1, -1, -5, 2, 0) 8.(5,2,0,0,3,2,0)(-5, 2, 0, 0, -3, 2, 0) 9.(3,2,0,0,1,2,0)(-3, 2, 0, 0, -1, 2, 0) 10.(1,2,0,1,0,1,1)(-1, 2, 0, -1, 0, 1, -1) 11.(0,1,1,0,0,0,1)(0, 1, -1, 0, 0, 0, -1) 12.(0,0,1,1,0,0,0)(0, 0, -1, 1, 0, 0, 0) 13.(0,0,0,0,0,0,0)(0, 0, 0, 0, 0, 0, 0)

Динамический график - зеленые точки представляют Сяо Мин 这里写图片描述

Протестированное здесь начальное состояние является наихудшим значением, поэтому размер шага может быть немного длиннее. Если начать с крайнего левого положения, начальная скорость равна 0, а начальное ускорение равно 0, то окончательный требуемый размер шага от крайнего левого положения до среднего: ускорение в мире

##Вывод

На этом одномерная мировая система Сяо Мина закончилась. От одномерного мира положения к одномерному миру скорости, к одномерному миру ускорения. Мир меняется от простого к сложному, количество состояний увеличивается от нескольких до многих, а количество шагов, необходимых для обучения, увеличивается от нескольких до многих. Конечно, это все в алгоритме обучения Q на основе таблицы Q. Если мы заменим Q-таблицу нейронной сетью с более сильными репрезентативными способностями, мы сможем делать более сложные и интересные вещи.