欢迎光临散文网会员登陆 & 注册

强化学习 | 总回报为什么要引入折扣率？

2023-04-09 20:45 作者:浮白七 0人读过 | 我要投稿

🟤原始总回报 = 一次交互轨迹的累积奖励
即对每次状态转移得到的即时奖励求和，一个Episode下的Trajectory得到的Sum( Reward)
🟡折扣回报
引入折扣率，降低远期回报的权重？

避免总回报无穷大无法收敛计算比较？

折扣因子，γ，是实值∈[0，1]，对于奖励即在过去，现在和未来的实现的忧虑。换句话说，它将奖励与时域相关。

🟣Agent当前状态转移到的未来状态的过程中，执行动作量的消耗，给总汇报带来了折扣。
折扣率的必要性

思考在沙漠中想要喝水的人，喝到水就终止干渴状态，对于几百米外的一瓶水和上百公里外的想喝多少就有多少的饮水机，

从累计奖励来看：远处的饮水机里的水更多，奖励值更大，如果以累计奖励最大为目标的话，则行动策略将是往更远的地方走。

然而在沙漠里，对于干渴的人而言，比起走出沙漠可以喝到更多的水，近在咫尺的一瓶矿泉水更有意义，一瓶水量少，但胜在要走的路少，短期的一个即时奖励，和不知道猴年马月才能得到的巨额奖励，比较的量不能单单靠奖励的多少而论，这期间等待的时间也需要作为衡量尺度，作为折扣率，以幂次的权重，累积在和最终的总回报里。

沙漠喝水场景和吴恩达PPT纪要

标签：策略强化学习即时奖励

强化学习 | 总回报为什么要引入折扣率？的评论 (共条)