欢迎光临散文网会员登陆 & 注册

【强化学习的数学原理】课程：从零开始到透彻理解（完结）

2023-09-03 20:29 作者:戈璧的老王 0人读过 | 我要投稿

奖励：0（无惩罚）-1（惩罚）1（鼓励）

数学表达：

在状态s1的情况下，采取行动a1，则奖励为-1的概率为1：p(r=-1|s1,a1)=1

回报：奖励的累计和

γ：折扣率 [0 , 1)

MDP: 马尔可夫

策略：π（a|s）在状态s时，选择动作a的可能性是多少。

标签：

【强化学习的数学原理】课程：从零开始到透彻理解（完结）的评论 (共条)