前文介绍了函数近似来预测V函数,但是还没涉及到行动和控制,这篇文章就来谈谈用近似Q函数来控制和行动。
1. 控制——递增算法 Incremental Control Algorithms
回顾前文动态规划(DP)解决MDP我们用迭代+Greedy的方法寻找最优策略
同样的,在使用近似函数之后,也可以使用类似的方法
分为两个步骤
第一步,进行策略评估,当然这里是用近似函数,将w带入
第二步,策略改善,及用Ɛ-greedy的方法行动并调整参数w,如何行动就要涉及到Q函数了,这个会在后文介绍。
与DP不同的地方是,由于是采用近似函数,所以一开始并不能达到最优q函数q,只能在不断迭代qw之后最终接近q
2.行为价值函数(Q函数)的近似函数
与V函数一样,Q函数也可以有近似函数的表达方式
最小化均方差(损失函数):
用梯度下降法寻找局部最优解,需要修正的权重∆w:
同样的可以用特征向量的线性函数(线性组合)来作为Q函数的近似函数:
此时,与V函数一样
- 对于MC
- 对于TD(0)
- 对于TD(λ)
前向认识:
后向认识:
3. 收敛性
- 预测学习
近似函数来寻找最优策略有明显的优势,但是相比于传统的(查表)方法是否是一直能收敛的呢,答案是:不一定,下表总结了如下:
可以发现MC方法无论在On-Policy 还是Off-Policy的学习中都能收敛,TD在On-Policy的学习中使用非线性近似函数的时候是不收敛的,在Off-Policy的学习中,无论是线性还是非线性的近似函数中,都不能收敛。
TD算法在更新参数时不遵循任何目标函数的梯度是导致它在离线策略或使用非线性近似函数可能会发散的原因,我们可以通过修改TD算法使得它遵循Projected Bellman Error的梯度进而收敛,这就是Gradient TD 的算法,但是课程中并没详细讲解该算法的原理。
- 控制学习
在控制学习的算法中,收敛性如图所示:
(√) 表示在最优价值函数附近震荡
由此可见,非线性的近似函数用于控制算法都是无法收敛的。也就是说如果用神经网络来训练,无论是MC Control,Sarsa还是Q-Learning 都是无法收敛的。如何解决这个问题,我们就需要用到前面文中提到的DQN(Deep Q-Learning)的方法了。
之前的那篇文章是从应用的角度介绍了DQN,下一篇文章将会从理论的角度介绍批方法(Batch Methods)以及利用批方法实现DQN解决非线性近似函数对控制学习无法收敛的问题。