欢迎光临散文网 会员登陆 & 注册

强化学习第三节(Monte Carlo+TD[SARSA, Q-Learning

2023-02-01 14:15 作者:嘻嘻000001  | 我要投稿

上帝视角(知道全貌) 待在迷宫内,只能摸索

无模型问题


同一状态下的不同选择 γ是用于回报可计算

通过大树定律求解1在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。)


first只采一次 50到游戏结束

采样1与2有比较大的方差 差异,造成收敛不得当

exploitation利用以前的结果选择的结果

exploration探索

汇报序列差异大


动态规划加蒙特卡洛

动态规划:已知环境状态转移的概率,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法,记住过往,减少重复计算。动态规划常常适用于有重叠子问题和最优子结构性质的问题。

下:差分法,进行中就更新

上:蒙特卡洛,实际值更新(过程完成更新

TDerror :努力革新策略,得到V(st)预测的最好的情况


Q-learning乐观







强化学习第三节(Monte Carlo+TD[SARSA, Q-Learning的评论 (共 条)

分享到微博请遵守国家法律