强化学习基本概念——策略（policy）

2023-03-29 17:01 作者:下辈子也不会早起 0人读过 | 我要投稿

策略是状态到行为的映射，分为确定性策略（Deterministic policy）和随机性策略（Stochastic policy）。。策略（policy π），根据这个策略，agent知道在当前状态下要执行的动作 a = π（s）。

策略有两种表示方法：

（1）将策略表示为函数π：确定性策略（Deterministic policy）常用这种表示；即直接告诉agent要执行的动作，

（2）概率表示π：随机性策略（Stochastic policy）常用这种表示，随机性策略是状态s下产生的行为的概率分布，如：π（s，a）为状态s下选择动作a的概率。

π（a|s）= p(A=a|S=s)

π（left|s）=0.2

π（right|s）=0.7

π（up|s）=0.1

如果让agent 自主选择，它就会做一个随机抽样,0.2的概率选择向左，0.7的概率选择向右，三种动作都有可能发生，但是向右的概率最大，向上的概率最小。

要是与人博弈，策略需要随机，要不然别人知道你固定的套路，就有办法赢。很多应用里面policy最好是概率密度函数，动作是随机抽样得到的，要有随机性。

参考了：https://zhuanlan.zhihu.com/p/474791642

标签：

强化学习基本概念——策略（policy）的评论 (共条)