欢迎光临散文网 会员登陆 & 注册

【王树森】深度强化学习(DRL)

2023-01-05 16:21 作者:嘻嘻000001  | 我要投稿

sarsa与Q-learning都为TD算法

奖励Rt及Q派对t+1时刻做出的估计,对于任何策略派都成立

处理Q*得到最大的那个

At+1最优动作,最大化Q*

左边Q*在t时刻做出的预测,等于期望

对期望做蒙克卡罗近似,得到TDtarget

用观测到的st代替st+1,做近似

Yt部分为正确观测,比左边可靠,于是,把yt作为target鼓励左边接近右边

最优动作函数

表格式

Q*即为该表格

状态的动作都有限

找出St+1对应的行,找到改行最大的元素

即Q*关于a的最大值

每次更新一个参数让td 爱若减小

计算dita t 计算Q* 使其更接近

神经网络形式的算法

每次用一个观测的一个transition更新参数w aifa 学习率


每次用一个更新

【王树森】深度强化学习(DRL)的评论 (共 条)

分享到微博请遵守国家法律