【王树森】深度强化学习(DRL)


sarsa与Q-learning都为TD算法

奖励Rt及Q派对t+1时刻做出的估计,对于任何策略派都成立

处理Q*得到最大的那个

At+1最优动作,最大化Q*

左边Q*在t时刻做出的预测,等于期望
对期望做蒙克卡罗近似,得到TDtarget

用观测到的st代替st+1,做近似

Yt部分为正确观测,比左边可靠,于是,把yt作为target鼓励左边接近右边

最优动作函数
表格式
Q*即为该表格
状态的动作都有限

找出St+1对应的行,找到改行最大的元素
即Q*关于a的最大值

每次更新一个参数让td 爱若减小
计算dita t 计算Q* 使其更接近

神经网络形式的算法

每次用一个观测的一个transition更新参数w aifa 学习率

每次用一个更新