一、初识强化学习
1. 强化学习和蒙特卡洛树搜索
因为这两周学习了蒙特卡洛树搜索算法,当时看了相关资料介绍,蒙特卡洛方法属于强化学习的范畴,所以我就去看了西瓜书的最后一章强化学习。我看书的时候就觉得蒙特卡洛树搜索算法和强化学习有着非常紧密的联系,书上提到的exploration和exploitation、蒙特卡洛方法、奖励函数等内容和蒙特卡洛树搜索的基本思想有很多相同的地方。
2. 强化学习与机器学习
强化学习和之前学过的一些机器学习算法有着明显的不用,之前学的机器学习算法主要可以分为监督学习(分类)和非监督学习(聚类),而强化学习不同于监督学习和非监督学习,强化学习是通过奖励值来训练模型,而监督学习是通过训练数据和对应的标签来训练模型的,非监督学习没有标签也没有奖励值,是通过数据特征来训练模型的,而且强化学习的奖励值是在执行完动作后给出的,监督学习的标签是一开始就有的。
3. 强化学习八个要素
和蒙特卡洛树搜索一样,以基于强化学习的井字棋为例
- 环境的状态S:即棋盘的状态
- 个体的动作A:即某一方落子
- 环境的奖励R:即分出胜负后的反馈奖励
- 个体的策略π:即在哪落子
- 个体在策略π和状态s时,采取行动后的价值 v π ( s ) v_π(s) vπ(s):即在当前棋盘状态s下采取策略π下了某个子后得到的价值
- 奖励衰减因子γ:大小在[0,1],取0表示价值 v π ( s ) v_π(s) vπ(s)只与当前奖励有关,与后续奖励无关,但是大部分情况衰减因子是大于0的,表示价值 v π ( s ) v_π(s) vπ(s)不仅与当前奖励有关,而且与后续奖励也有关。例如下象棋的时候,马吃车的时候不仅要考虑这个动作产生的当前收益,也要考虑后续收益。
v π ( s ) = E π ( R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . ∣ S t = s ) v_π(s)=E_π(R_{t+1}+γR_{t+2}+γ^2R_{t+3}+...|S_t=s) vπ(s)=Eπ(Rt+1+γRt+2+γ2Rt+3+...∣St=s) - 状态转化模型 P s s ′ a P_{ss'}^a Pss′a:即在状态s下,采取动作a后转移到我状态s’的概率
- 探索率ϵ:即在选择落子时,以1-ϵ概率选择价值最高的动作,以ϵ概率选择其他动作
说到这就可以发现强化学习和蒙特卡洛树搜索的一些相同的地方了,前面说到蒙特卡洛树搜索中的四步选择、扩展、模拟和反向传播可以看做是上面八个要素的变形。
二、马尔科夫决策过程(MDP)
1. 为什么要引入MDP?
因为正常情况下,上面提到强化学习的状态转化模型, P s s ′ a P_{ss'}^a Pss′a不仅与上个状态有关,还跟上个状态之前状态都要关系,所以为了简化强化学习模型,我们引入MDP,假设 P s s ′ a P_{ss'}^a Pss′a只跟上个状态s有关(隐马尔科夫模型也有提到),同理策略 π \pi π和价值函数 v π ( s ) v_\pi(s) vπ(s)也基于这个假设。
2. MDP价值函数和贝尔曼方程
首先我们引入动作价值函数
q π ( s , a ) = E π ( R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . ∣ S t = s , A t = a ) q_π(s,a)=E_π(R_{t+1}+γR_{t+2}+γ^2R_{t+3}+...|S_t=s,A_t=a) qπ(s,a)=Eπ(Rt+1+γRt+2+γ2R
版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/rgzn-qhxx/5253.html