当前位置:网站首页 > 强化学习 > 正文

强化学习_强化学习

一、初识强化学习

1. 强化学习和蒙特卡洛树搜索

因为这两周学习了蒙特卡洛树搜索算法,当时看了相关资料介绍,蒙特卡洛方法属于强化学习的范畴,所以我就去看了西瓜书的最后一章强化学习。我看书的时候就觉得蒙特卡洛树搜索算法和强化学习有着非常紧密的联系,书上提到的exploration和exploitation、蒙特卡洛方法、奖励函数等内容和蒙特卡洛树搜索的基本思想有很多相同的地方。

2. 强化学习与机器学习

强化学习和之前学过的一些机器学习算法有着明显的不用,之前学的机器学习算法主要可以分为监督学习(分类)和非监督学习(聚类),而强化学习不同于监督学习和非监督学习,强化学习是通过奖励值来训练模型,而监督学习是通过训练数据和对应的标签来训练模型的,非监督学习没有标签也没有奖励值,是通过数据特征来训练模型的,而且强化学习的奖励值是在执行完动作后给出的,监督学习的标签是一开始就有的。

3. 强化学习八个要素

和蒙特卡洛树搜索一样,以基于强化学习的井字棋为例

  1. 环境的状态S:即棋盘的状态
  2. 个体的动作A:即某一方落子
  3. 环境的奖励R:即分出胜负后的反馈奖励
  4. 个体的策略π:即在哪落子
  5. 个体在策略π和状态s时,采取行动后的价值 v π ( s ) v_π(s) vπ(s):即在当前棋盘状态s下采取策略π下了某个子后得到的价值
  6. 奖励衰减因子γ:大小在[0,1],取0表示价值 v π ( s ) v_π(s) vπ(s)只与当前奖励有关,与后续奖励无关,但是大部分情况衰减因子是大于0的,表示价值 v π ( s ) v_π(s) vπ(s)不仅与当前奖励有关,而且与后续奖励也有关。例如下象棋的时候,马吃车的时候不仅要考虑这个动作产生的当前收益,也要考虑后续收益。
    v π ( s ) = E π ( R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . ∣ S t = s ) v_π(s)=E_π(R_{t+1}+γR_{t+2}+γ^2R_{t+3}+...|S_t=s) vπ(s)=Eπ(Rt+1+γRt+2+γ2Rt+3+...St=s)
  7. 状态转化模型 P s s ′ a P_{ss'}^a Pssa:即在状态s下,采取动作a后转移到我状态s’的概率
  8. 探索率ϵ:即在选择落子时,以1-ϵ概率选择价值最高的动作,以ϵ概率选择其他动作

说到这就可以发现强化学习和蒙特卡洛树搜索的一些相同的地方了,前面说到蒙特卡洛树搜索中的四步选择、扩展、模拟和反向传播可以看做是上面八个要素的变形。

二、马尔科夫决策过程(MDP)

1. 为什么要引入MDP?

因为正常情况下,上面提到强化学习的状态转化模型, P s s ′ a P_{ss'}^a Pssa不仅与上个状态有关,还跟上个状态之前状态都要关系,所以为了简化强化学习模型,我们引入MDP,假设 P s s ′ a P_{ss'}^a Pssa只跟上个状态s有关(隐马尔科夫模型也有提到),同理策略 π \pi π和价值函数 v π ( s ) v_\pi(s) vπ(s)也基于这个假设。

2. MDP价值函数和贝尔曼方程

首先我们引入动作价值函数
q π ( s , a ) = E π ( R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . ∣ S t = s , A t = a ) q_π(s,a)=E_π(R_{t+1}+γR_{t+2}+γ^2R_{t+3}+...|S_t=s,A_t=a) qπ(s,a)=Eπ(Rt+1+γRt+2+γ2R

到此这篇强化学习_强化学习的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!

版权声明


相关文章:

  • 【Machine Learning 系列】一文带你详解什么是强化学习(Reinforcement Learning)_【Machine Learning 系列】一文带你详解什么是强化学习(Reinforcement Learning)2024-10-30 15:40:39
  • 强化学习(一):简介——什么是强化学习?_强化学习(一):简介——什么是强化学习?2024-10-30 15:40:39
  • 一文了解强化学习2024-10-30 15:40:39
  • 【Python】强化学习:原理与Python实战2024-10-30 15:40:39
  • 基于强化学习的路径规划学习_强化途径2024-10-30 15:40:39
  • 强化学习极简入门:通俗理解MDP、DP MC TC和Q学习、策略梯度、PPO_强化学习极简入门:通俗理解MDP、DP MC TC和Q学习、策略梯度、PPO2024-10-30 15:40:39
  • 强化学习实战(一)强化学习环境-Gym安装到使用入门_强化学习实战(一)强化学习环境-Gym安装到使用入门2024-10-30 15:40:39
  • 深度强化学习——DQN_深度强化学习——DQN2024-10-30 15:40:39
  • 强化学习入门总结_强化学习入门总结2024-10-30 15:40:39
  • 强化学习入门这一篇就够了!!!万字长文_强化学习入门这一篇就够了!!!万字长文2024-10-30 15:40:39
  • 全屏图片