欢迎光临散文网 会员登陆 & 注册

5.无模型强化学习值函数方法——蒙特卡罗方法

2023-03-04 00:31 作者:李富贵bilibili  | 我要投稿

本节主要讲解,当计算值函数公式中的 Pss′a 未知时

(5.1) 值函数迭代计算公式


,无法使用动态规划的方法求解强化学习的优化问题时,则需要采用蒙特卡罗方法计算下式(5.2)的期望,即利用随机样本估计该期望值。

(5.2)值函数计算方法


    本节介绍的蒙特卡罗方法处在强化学习算法中的地位,如下图1所示(粉红色已框出)

图1 值函数逼近在强化学习算法中的应用


5.1.蒙特卡罗计算状态值函数方法

      在没有模型时,可以采⽤蒙特卡罗的⽅法计算状态值函数的期望,即利⽤随机样本估计期望。此处,有两个词需要理解:经验和平均。

5.1.1.经验

      "经验”就是利用策略做很多次试验,产生很多幕数据(每幕为一次试验)。

      当要评估智能体的当前策略 π 时,可以利用策略 π 产生很多次试验,每次试验都是从任意的初始状态开始直到终止,比如一次试验(episode)为 S_1,A_1,R_2,S_2,A_2,⋅⋅⋅,S_T ,计算一次试验中状态 s 处的折扣回报返回值为


5.1.2.平均

     平均就是求均值。不过,利用蒙特卡罗方法求状态 s 处的值函数时,又可以分为第一次访问蒙特卡罗方法和每次蒙特卡罗方法。

     由于智能体与环境交互的模型是未知的,蒙特卡罗⽅法是利⽤经验平均来估计值函数,⽽能否得到正确的值函数,则取决于经验——因此,如何获得充⾜的经验是⽆模型强化学习的核⼼所在(包括两方面的原因:保证每个状态都能被访问到;生成的状态序列尽可能贴近任务).

5.2.基于蒙特卡罗的无模型强化学习算法

      在动态规划⽅法中,为了保证值函数的收敛性,算法会逐个扫描状态空间中的状态。⽆模型的⽅法充分评估策略值函数的前提是每个状态都能被访问到,因此,在蒙特卡洛⽅法中必须采⽤⼀定的⽅法保证每个状态都能被访问到,⽅法之⼀是探索性初始化。

5.2.1.探索性初始化蒙特卡罗方法

      探索性初始化是指每个状态都有一定的概率作为初始状态。在学习基于探索性初始化的蒙特卡罗方法前,我们还需要先了解策略改善方法,以及便于进行迭代计算的平均方法。(如,先前的动态规划方法,需要策略评估和策略改善两个步骤)

  • 蒙特卡罗策略改善

       蒙特卡罗方法利用经验平均估计策略值函数。估计出值函数后,对每个状态 s ,它通过最大化动作值函数来进行策略的改善。即 

  • 递增计算状态值函数

  • 探索性初始化蒙特卡罗方法


  • 思考1:如何保证所有状态被覆盖?

   思考2:如何保证所有状态下的行为被覆盖?

   答:对所有状态 sa 满足: π(a|s)>0 。例如, ε -soft策略:


根据探索策略(⾏动策略)和评估及改善策略是否为同⼀个策略,蒙特卡罗⽅法⼜分为on-policy和off-policy两种⽅法:

5.2.2.若⾏动策略和评估及改善的策略是同⼀个策略——on-policy


       图3中产生数据的策略以及评估和要改善的策略都是 ε−soft 策略。

5.2.3.若⾏动策略和评估及改善的策略是不同的策略——off-policy

       假设: π 为评估和改善的策略; μ 表示产生样本数据的策略。

      异策略优点:可以保证充分的探索性。例如,用来评估和改善的策略 π 是贪婪策略,用于产生数据的探索性策略 μ 为探索性策略( ε−soft 策略).

      思考:用于异策略的目标策略 π 和行动策略 μ 可以任意选择吗?什么是覆盖性条件?

      行动策略 μ 产生的行为覆盖或者包含目标策略 π 产生的行为。避免评估和改善的策略,行为策略无法模拟生成,即评估和更新的策略,行为策略能够模拟。满足 π(a|s)>0 的任何 (s,a) 均满足 μ(a|s)>0

      利⽤⾏为策略产⽣的数据评估⽬标策略需要利⽤重要性采样⽅法(详细方法见5.3节(5.5)式)。

      最后,异策略每次访问蒙特卡罗算法的伪代码:


5.3.重要性采样方法

重要性采样来源于求期望,如下图

E[f]=∫f(z)p(z)dz

       当随机变量 z 的分布非常复杂时,无法利用解析的方法产生用于逼近期望的样本,这时,这时我们可以选择一个概率分布很简单,很容易产生样本的概率分布 q(x) ,比如正态分布。原来的期望可变为

      基于重要性采样的积分估计为无偏估计,即估计的期望值等于真实的期望。但是,基于重要性采样的积分估计的方差无穷大。这是因为原来的被积分函数乘以一个重要性权重,改变了被积函数的形状及分布。

      重要性采样中,使用的采样概率分布与原概率分布越接近,方差越小。然而,被积函数的概率分布往往很难求得,因此没有与之相似的简单采样概率分布,如果分布差别很大的采样概率对原概率分布进行采样,方差会趋近于无穷大。

      一种减小重要性采样积分的方法是采用加权重要性采样


5.无模型强化学习值函数方法——蒙特卡罗方法的评论 (共 条)

分享到微博请遵守国家法律