虽然之前的文章零零散散地介绍了强化学习的核心概念,但是从来没有系统性地总结这些概念。Spinning Up 项目的官方文档总结得非常好,通俗易懂。通过学习这篇文章,对强化学习的核心概念又有了深入的理解,这篇文章就分享一下我的理解。
1. 核心概念词汇
强化学习的核心概念和词汇包括——中英文对照,准确的定义我就不赘述了,只是提炼这些概念和词汇中最重要的关键点。
状态和观察(States and Observations)
状态S可以完整地描述外部环境,观察O有可能会遗漏。如果O能够完整地观察S,就是环境就是完全可观察,否则就是部分可观察的行动空间(Action Spaces)
行动空间是所有可以的行动S组成的空间,可以是离散的,也可以是连续的。策略(Policies)
策略可以是确定性的,一般表示为μ,也可以是随机的,一般表示为π。之前的我写大部分文章都是用π表示随机性的策略。奖励(Rewards)
强化学习中Agent(智能体)的目标是累积获得最多奖励,一般来说奖励是随着运动轨迹衰减的。从直观上来说,未来的奖励肯定没有现在的奖励好,从数学上来说无衰减约束的奖励可能带来无法收敛的问题。
下面几个核心词汇和概念,将分段详解。
- 值函数(Value Function)
- 最优Q函数和最优行动(The Optimal O-Function and the Optimal Action)
- 贝尔曼等式(Bellman Equations)
- 优势函数(Advantage Functions)
2. 深入理解值函数
值函数是对应状态上开始行动,按照某个策略运行下去,最终期望能够获得的奖励。
值函数有两个V函数(值函数)和Q函数(行动-值函数),两者的区别是Q函数需要指定执行一个行动a。
- Vπ(s)是指从s状态开始一直按照策略π行动。
- Qπ(s,a)是指在s状态执行行动a (a可以不按照策略π行动),之后再按照策略π行动。
- V*(s), 『星号』表示最优策略,表示从s状态开始一直按照最优策略π行动。
- Q*(s,a),『星号』 表示最优策略,在s状态执行行动a (a可以不按照最优策略行动),之后再按照最优策略行动。
很显然Vπ(s)相当于在s步执行策略π的Qπ(s,a)。用数学表达式即为
最优行动就是在Q*(s,a)中找到一个行动a,使Q函数能获得最大值。
3. 贝尔曼等式
我们在介绍MDP的文章中已经介绍过贝尔曼等式。从上面的定义可知,值函数是一个递归函数,贝尔曼等式可以看做是将当前值函数拆开,等于当前状态s的回报与下一个状态s' 值函数之。
最优值函数的贝尔曼等式是:
4. 优势函数
优势函数就是比较在状态s时,执行指定行动a,之后后再服从策略的Qπ(s,a),与一直执行策略Vπ(s)的优势。
数学表达式即为:
优势函数可以是负数,说明在s状态下,指定行动a,并不比在策略π的指导下随机选择一个行动有优势。
This post has been voted on by the SteemSTEM curation team and voting trail in collaboration with @curie.
If you appreciate the work we are doing then consider voting both projects for witness by selecting stem.witness and curie!
For additional information please join us on the SteemSTEM discord and to get to know the rest of the community!
Downvoting a post can decrease pending rewards and make it less visible. Common reasons:
Submit
Congratulations @hongtao! You have completed the following achievement on the Steem blockchain and have been rewarded with new badge(s) :
Click here to view your Board
If you no longer want to receive notifications, reply to this comment with the word
STOP
Downvoting a post can decrease pending rewards and make it less visible. Common reasons:
Submit