欢迎光临散文网会员登陆 & 注册

深度强化学习基础(2/5)：价值学习 Value-Based Reinforc

2023-07-21 16:06 作者:鸽婆打字机 0人读过 | 我要投稿

Q*是一个先知，能预测做每一个动作能带来的平均回报。价值学习就是学习一个函数来近似出一个先知。

DQN是一种价值学习的方法，用神经网络来近似Q*。

标签：

深度强化学习基础(2/5)：价值学习 Value-Based Reinforc的评论 (共条)