奖励:0(无惩罚)-1(惩罚)1(鼓励)
数学表达:
在状态s1的情况下,采取行动a1,则奖励为-1的概率为1:p(r=-1|s1,a1)=1
回报:奖励的累计和
γ: 折扣率 [0 , 1)
MDP: 马尔可夫
策略:π(a|s) 在状态s时,选择动作a的可能性是多少。