欢迎光临散文网 会员登陆 & 注册

深度强化学习基础(2/5):价值学习 Value-Based Reinforc

2023-07-21 16:06 作者:鸽婆打字机  | 我要投稿

Q*是一个先知,能预测做每一个动作能带来的平均回报。价值学习就是学习一个函数来近似出一个先知。

DQN是一种价值学习的方法,用神经网络来近似Q*。


深度强化学习基础(2/5):价值学习 Value-Based Reinforc的评论 (共 条)

分享到微博请遵守国家法律