强化学习第三节(Monte Carlo+TD[SARSA, Q-Learning


上帝视角(知道全貌) 待在迷宫内,只能摸索

无模型问题


同一状态下的不同选择 γ是用于回报可计算
通过大树定律求解1(在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。)


first只采一次 50到游戏结束
采样1与2有比较大的方差 差异,造成收敛不得当
exploitation利用以前的结果选择的结果
exploration探索

汇报序列差异大

动态规划加蒙特卡洛
动态规划:已知环境状态转移的概率,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法,记住过往,减少重复计算。动态规划常常适用于有重叠子问题和最优子结构性质的问题。

下:差分法,进行中就更新
上:蒙特卡洛,实际值更新(过程完成更新
TDerror :努力革新策略,得到V(st)预测的最好的情况


Q-learning乐观