不愧是李宏毅老师讲的【强化学习】简直太详细！！！导师不教你的，李宏毅老师亲自教你

2023-01-05 15:55 作者:嘻嘻000001 0人读过 | 我要投稿

model能预测未来可能会发生的状况

一些更多的课

act

actor又称policy

找function

决定fun

neural 可以举一反三

2决定一个function的好坏

让act去实操，推断act的好坏

total reward去判断reward的好坏

total reward 会不同（Rsita

因为action的随机性及游戏本身的随机性（环境

希望得到Rsita的期望值

希望期望值越大越好，越大动作越好

玩N场游戏，从p（）中做n次sample，做n次平均。

最大化Rsiat

标签：

不愧是李宏毅老师讲的【强化学习】简直太详细！！！导师不教你的，李宏毅老师亲自教你的评论 (共条)