【王树森】深度强化学习(DRL)

2023-01-05 16:21 作者:嘻嘻000001 0人读过 | 我要投稿

sarsa与Q-learning都为TD算法

奖励Rt及Q派对t+1时刻做出的估计，对于任何策略派都成立

处理Q*得到最大的那个

At+1最优动作，最大化Q*

左边Q*在t时刻做出的预测，等于期望

对期望做蒙克卡罗近似，得到TDtarget

用观测到的st代替st+1，做近似

Yt部分为正确观测，比左边可靠，于是，把yt作为target鼓励左边接近右边

最优动作函数

表格式

Q*即为该表格

状态的动作都有限

找出St+1对应的行，找到改行最大的元素

即Q*关于a的最大值

每次更新一个参数让td 爱若减小

计算dita t 计算Q* 使其更接近

神经网络形式的算法

每次用一个观测的一个transition更新参数w aifa 学习率

每次用一个更新

标签：

【王树森】深度强化学习(DRL)的评论 (共条)