欢迎光临散文网 会员登陆 & 注册

不愧是李宏毅老师讲的【强化学习】简直太详细!!!导师不教你的,李宏毅老师亲自教你

2023-01-05 15:55 作者:嘻嘻000001  | 我要投稿

model能预测未来可能会发生的状况

一些更多的课




act

actor又称policy

找function

决定fun

neural 可以举一反三

2决定一个function的好坏


让act去实操,推断act的好坏

total reward去判断reward的好坏

total reward 会不同 (Rsita

因为action的随机性及游戏本身的随机性(环境

希望得到Rsita的期望值

希望期望值越大越好,越大动作越好

玩N场游戏,从p()中做n次sample,做n次平均。

最大化Rsiat


不愧是李宏毅老师讲的【强化学习】简直太详细!!!导师不教你的,李宏毅老师亲自教你的评论 (共 条)

分享到微博请遵守国家法律