不愧是李宏毅老师讲的【强化学习】简直太详细!!!导师不教你的,李宏毅老师亲自教你


model能预测未来可能会发生的状况

一些更多的课

act

actor又称policy
找function

决定fun

neural 可以举一反三
2决定一个function的好坏

让act去实操,推断act的好坏
total reward去判断reward的好坏

total reward 会不同 (Rsita
因为action的随机性及游戏本身的随机性(环境
希望得到Rsita的期望值
希望期望值越大越好,越大动作越好

玩N场游戏,从p()中做n次sample,做n次平均。
最大化Rsiat
