欢迎光临散文网 会员登陆 & 注册

强化学习基本概念——策略(policy)

2023-03-29 17:01 作者:下辈子也不会早起  | 我要投稿

         策略是状态到行为的映射,分为确定性策略(Deterministic policy)和随机性策略(Stochastic policy)。策略(policy π),根据这个策略,agent知道在当前状态下要执行的动作 a = π(s)。

        策略有两种表示方法:

        (1)将策略表示为函数π:确定性策略(Deterministic policy)常用这种表示;即直接告诉agent要执行的动作,

        (2)概率表示π:随机性策略(Stochastic policy)常用这种表示,随机性策略是状态s下产生的行为的概率分布,如:π(s,a)为状态s下选择动作a的概率。

π(a|s)= p(A=a|S=s)

π(left|s)=0.2

π(right|s)=0.7

π(up|s)=0.1

        如果让agent 自主选择,它就会做一个随机抽样,0.2的概率选择向左,0.7的概率选择向右,三种动作都有可能发生,但是向右的概率最大,向上的概率最小。

         要是与人博弈,策略需要随机,要不然别人知道你固定的套路,就有办法赢。很多应用里面policy最好是概率密度函数,动作是随机抽样得到的,要有随机性。

参考了:https://zhuanlan.zhihu.com/p/474791642




强化学习基本概念——策略(policy)的评论 (共 条)

分享到微博请遵守国家法律