2.强化学习如何建模序贯决策问题

2023-02-20 00:05 作者:李富贵bilibili 0人读过 | 我要投稿

2.1给出了强化学习解决序贯决策问题的基本思路。2.2建立强化学习的数学模型MDP，最后也给出了强化学习的最优化问题形式的描述(转化成优化问题，就可以采用已有最优化方法进行解决，属于随机优化范畴)。2.3介绍了现实中很多序贯决策任务，无法很好进行数学建模时，需要采用蒙特卡罗方法进行解决（但同样会用到2.2节的大量概念）。强化学习的精髓之一是解决无模型的马尔科夫决策问题。

2.1.强化学习解决问题的基本框架

智能体通过动作与环境进⾏交互时，环境会返给智能体⼀个当前的回报，智能体则根据当前的回报评估所采取的动作：有利于实现⽬标的动作被保留，不利于实现⽬标的动作被衰减。

编辑切换为居中

智能体在完成某任务时，首先通过动作A与周围环境进行交互，在动作A和环境的作用下，智能体产生新的状态，同时环境会给出一个立即回报。如此循环下去，智能体与环境不断地交互从而产生很多数据。强化学习算法利用产生的数据修改自身的动作策略，再与环境交互、产生新的数据，并利用新的数据进一步改善自身的行为，经过数次迭代学习后，智能体能最终学到完成相应任务的最优动作(最优策略)。

2.2.通过马尔科夫决策过程(MDP)建模序贯决策问题

无数学者通过几十年不断努力和探索，提出了一套可以解决大部分强化学习问题的框架，这个框架就是马尔可夫决策过程，简称MDP。

2.2.1.数学描述

⻢尔科夫决策过程由元组（S，A，P，R，γ）描述，其中：

S 为有限的状态集

A 为有限的动作集

P 为状态转移概率

R 为回报函数

γ 为折扣因⼦，⽤来计算累积回报。

注意，跟马尔科夫过程不同的是，⻢尔科夫决策过程的状态转移概率是包含动作的，即

编辑

举例说明:

编辑切换为居中

其中: 状态集为S={s 1 ，s 2 ，s 3 ，s 4 ，s 5 }，动作集为A={玩，退出，学习，发表，睡觉}

2.2.2强化学习优化变量和目标函数

给定⼀个⻢尔科夫决策过程，寻找最优策略(所谓策略是指状态到动作的映射，为优化问题的优化变量)

编辑切换为居中

注: 强化学习为什么采用随机策略？首先，采用随机策略可以将探索耦合到采样的过程中。所谓探索就是值机器人尝试其他的工作以便找到更好的策略。其次，在实际中，存在各种噪声，这些噪声大都服从正态分布，如何去掉这些噪音也需要采用概率方法。

这⾥的最优是指得到的总回报最⼤。当给定⼀个策略时，通过计算累积回报进行比较

编辑切换为居中

编辑切换为居中

由于策略 $π$ 是随机的，因此累积回报也是随机的。为了评估状态 $s1$ 的价值，我们定义一个确定量来描述状态 $s1$ 的价值，很自然的想法是利用累积回报期望来衡量状态 $s1$ 的价值。

a)状态值函数(衡量每个状态的价值)

当智能体采⽤策略 $π$ 时，累积回报服从⼀个分布，累积回报在状态 $s$ 处的期望值定义为状态值函数：

编辑切换为居中

注意：状态值函数是与策略相对应的，这是因为策略决定了累积回报G的状态分布。

编辑切换为居中

b)状态-行为值函数

编辑切换为居中

c)状态值函数与状态-⾏为值函数的⻉尔曼⽅程

编辑切换为居中

同样我们可以得到状态-动作值函数的⻉尔曼⽅程:

编辑切换为居中

图2和图3分别为状态值函数和⾏为值函数的具体计算过程.其中空⼼圆圈表⽰状态，实⼼圆圈表⽰状态-⾏为对。

编辑切换为居中

图2为值函数的计算分解⽰意图，图2中B计算公式为

编辑切换为居中

图2中B给出了状态值函数与状态-⾏为值函数的关系。图2中C计算状态-⾏为值函数为

编辑切换为居中

将上述两式进行合并,得出

编辑切换为居中

编辑切换为居中

编辑切换为居中

d)最优状态值函数和最优状态-⾏动值函数的⻉尔曼最优⽅程

编辑切换为居中

编辑切换为居中

编辑切换为居中

e)强化学习最优化问题描述

形式1：最优状态值函数 $υ*(s)$ 为所有策略中值最大的值函数

$υ*(s)= maxπυπ(s)$

形式2：最优状态-行为值函数 $q*(s,a)$ 为所有策略中最大的状态-行为值函数

$q*(s,a)= maxπqπ(s,a)$

2.3基于蒙特卡罗的强化学习方法

⽆模型的强化学习算法要想利⽤策略评估和策略改善的框架，必须采⽤其他的⽅法评估当前策略（计算值函数）.

在没有模型时，可以采⽤蒙特卡罗的⽅法计算该期望，即利⽤随机样本估计期望。此处，有两个词需要理解：经验和平均。

经验

当要评估智能体的当前策略 $π$ 时，可以利用策略 $π$ 产生很多次试验，每次试验都是从任意的初始状态开始直到终止，比如一次试验（episode）为 $S1,A1,R2,S2,A2,\cdot\cdot\cdot,ST$ ,计算一次试验中状态 $s$ 处的折扣回报返回值为 $Gt(s)=Rt+1+γRt+2+\cdot\cdot\cdot+γT-1RT$

“经验”就是利用策略做很多次试验，产生很多幕数据（每幕为一次试验）。

平均

平均就是求均值。

由于智能体与环境交互的模型是未知的，蒙特卡罗⽅法是利⽤经验平均来估计值函数，⽽能否得到正确的值函数，则取决于经验——因此，如何获得充⾜的经验是⽆模型强化学习的核⼼所在(包括两方面的原因:保证每个状态都能被访问到；生成的状态序列尽可能贴近任务).

标签：

2.强化学习如何建模序贯决策问题

2.1.强化学习解决问题的基本框架

2.2.通过马尔科夫决策过程(MDP)建模序贯决策问题

2.2.1.数学描述

2.2.2强化学习优化变量和目标函数

a)状态值函数(衡量每个状态的价值)

b)状态-行为值函数

c)状态值函数与状态-⾏为值函数的⻉尔曼⽅程

d)最优状态值函数和最优状态-⾏动值函数的⻉尔曼最优⽅程

e)强化学习最优化问题描述

2.3基于蒙特卡罗的强化学习方法