欢迎光临散文网 会员登陆 & 注册

【强化学习的数学原理】课程:从零开始到透彻理解(完结)

2023-09-03 20:29 作者:戈璧的老王  | 我要投稿

奖励:0(无惩罚)-1(惩罚)1(鼓励)

数学表达:

在状态s1的情况下,采取行动a1,则奖励为-1的概率为1:p(r=-1|s1,a1)=1

回报:奖励的累计和

γ: 折扣率 [0 , 1)

MDP: 马尔可夫

策略:π(a|s) 在状态s时,选择动作a的可能性是多少。




【强化学习的数学原理】课程:从零开始到透彻理解(完结)的评论 (共 条)

分享到微博请遵守国家法律