2.强化学习如何建模序贯决策问题
2.1给出了强化学习解决序贯决策问题的基本思路。2.2建立强化学习的数学模型MDP,最后也给出了强化学习的最优化问题形式的描述(转化成优化问题,就可以采用已有最优化方法进行解决,属于随机优化范畴)。2.3介绍了现实中很多序贯决策任务,无法很好进行数学建模时,需要采用蒙特卡罗方法进行解决(但同样会用到2.2节的大量概念)。强化学习的精髓之一是解决无模型的马尔科夫决策问题。
2.1.强化学习解决问题的基本框架
智能体通过动作与环境进⾏交互时,环境会返给智能体⼀个当前的回报,智能体则根据当前的回报评估所采取的动作:有利于实现⽬标的动作被保留,不利于实现⽬标的动作被衰减。

编辑切换为居中
智能体在完成某任务时,首先通过动作A与周围环境进行交互,在动作A和环境的作用下,智能体产生新的状态,同时环境会给出一个立即回报。如此循环下去,智能体与环境不断地交互从而产生很多数据。强化学习算法利用产生的数据修改自身的动作策略,再与环境交互、产生新的数据,并利用新的数据进一步改善自身的行为,经过数次迭代学习后,智能体能最终学到完成相应任务的最优动作(最优策略)。
2.2.通过马尔科夫决策过程(MDP)建模序贯决策问题
无数学者通过几十年不断努力和探索,提出了一套可以解决大部分强化学习问题的框架,这个框架就是马尔可夫决策过程,简称MDP。
2.2.1.数学描述
⻢尔科夫决策过程由元组(S,A,P,R,γ)描述,其中:
S 为有限的状态集
A 为有限的动作集
P 为状态转移概率
R 为回报函数
γ 为折扣因⼦,⽤来计算累积回报。
注意,跟马尔科夫过程不同的是,⻢尔科夫决策过程的状态转移概率是包含动作的,即

编辑
举例说明:

编辑切换为居中
其中: 状态集为S={s 1 ,s 2 ,s 3 ,s 4 ,s 5 },动作集为A={玩,退出,学习,发表,睡觉}
2.2.2强化学习优化变量和目标函数
给定⼀个⻢尔科夫决策过程,寻找最优策略(所谓策略是指状态到动作的映射,为优化问题的优化变量)

编辑切换为居中
注: 强化学习为什么采用随机策略?首先,采用随机策略可以将探索耦合到采样的过程中。所谓探索就是值机器人尝试其他的工作以便找到更好的策略。其次,在实际中,存在各种噪声,这些噪声大都服从正态分布,如何去掉这些噪音也需要采用概率方法。
这⾥的最优是指得到的总回报最⼤。当给定⼀个策略时,通过计算累积回报进行比较

编辑切换为居中

编辑切换为居中
由于策略 π 是随机的,因此累积回报也是随机的。为了评估状态 s1的价值,我们定义一个确定量来描述状态 s1 的价值,很自然的想法是利用累积回报期望来衡量状态 s1 的价值。
a)状态值函数(衡量每个状态的价值)
当智能体采⽤策略 π 时,累积回报服从⼀个分布,累积回报在状态 s 处的期望值定义为状态值函数:

编辑切换为居中
注意:状态值函数是与策略相对应的,这是因为策略决定了累积回报G的状态分布。

编辑切换为居中
b)状态-行为值函数

编辑切换为居中
c)状态值函数与状态-⾏为值函数的⻉尔曼⽅程

编辑切换为居中
同样我们可以得到状态-动作值函数的⻉尔曼⽅程:

编辑切换为居中
图2和图3分别为状态值函数和⾏为值函数的具体计算过程.其中空⼼圆圈表⽰状态,实⼼圆圈表⽰状态-⾏为对。

编辑切换为居中
图2为值函数的计算分解⽰意图,图2中B计算公式为

编辑切换为居中
图2中B给出了状态值函数与状态-⾏为值函数的关系。图2中C计算状态-⾏为值函数为

编辑切换为居中
将上述两式进行合并,得出

编辑切换为居中

编辑切换为居中

编辑切换为居中
d)最优状态值函数和最优状态-⾏动值函数的⻉尔曼最优⽅程

编辑切换为居中

编辑切换为居中

编辑切换为居中
e)强化学习最优化问题描述
形式1:最优状态值函数 υ∗(s) 为所有策略中值最大的值函数
υ∗(s)= maxπυπ(s)
形式2:最优状态-行为值函数 q∗(s,a) 为所有策略中最大的状态-行为值函数
q∗(s,a)= maxπqπ(s,a)
2.3基于蒙特卡罗的强化学习方法
⽆模型的强化学习算法要想利⽤策略评估和策略改善的框架,必须采⽤其他的⽅法评估当前策略(计算值函数).
在没有模型时,可以采⽤蒙特卡罗的⽅法计算该期望,即利⽤随机样本估计期望。此处,有两个词需要理解:经验和平均。
经验
当要评估智能体的当前策略 π 时,可以利用策略 π 产生很多次试验,每次试验都是从任意的初始状态开始直到终止,比如一次试验(episode)为 S1,A1,R2,S2,A2,⋅⋅⋅,ST ,计算一次试验中状态 s 处的折扣回报返回值为 Gt(s)=Rt+1+γRt+2+⋅⋅⋅+γT−1RT
“经验”就是利用策略做很多次试验,产生很多幕数据(每幕为一次试验)。
平均
平均就是求均值。
由于智能体与环境交互的模型是未知的,蒙特卡罗⽅法是利⽤经验平均来估计值函数,⽽能否得到正确的值函数,则取决于经验——因此,如何获得充⾜的经验是⽆模型强化学习的核⼼所在(包括两方面的原因:保证每个状态都能被访问到;生成的状态序列尽可能贴近任务).