强化学习基本概念——策略(policy)
策略是状态到行为的映射,分为确定性策略(Deterministic policy)和随机性策略(Stochastic policy)。。策略(policy π),根据这个策略,agent知道在当前状态下要执行的动作 a = π(s)。
策略有两种表示方法:
(1)将策略表示为函数π:确定性策略(Deterministic policy)常用这种表示;即直接告诉agent要执行的动作,
(2)概率表示π:随机性策略(Stochastic policy)常用这种表示,随机性策略是状态s下产生的行为的概率分布,如:π(s,a)为状态s下选择动作a的概率。
π(a|s)= p(A=a|S=s)
π(left|s)=0.2
π(right|s)=0.7
π(up|s)=0.1
如果让agent 自主选择,它就会做一个随机抽样,0.2的概率选择向左,0.7的概率选择向右,三种动作都有可能发生,但是向右的概率最大,向上的概率最小。
要是与人博弈,策略需要随机,要不然别人知道你固定的套路,就有办法赢。很多应用里面policy最好是概率密度函数,动作是随机抽样得到的,要有随机性。
参考了:https://zhuanlan.zhihu.com/p/474791642