强化学习 | 总回报为什么要引入折扣率?
🟤原始总回报 = 一次交互轨迹的累积奖励
即对每次状态转移得到的即时奖励求和,一个Episode下的Trajectory得到的Sum( Reward)
🟡折扣回报
引入折扣率,降低远期回报的权重?
避免总回报无穷大无法收敛计算比较?
折扣因子,γ,是实值∈[0,1],对于奖励即在过去,现在和未来的实现的忧虑。 换句话说,它将奖励与时域相关。
🟣Agent当前状态转移到的未来状态的过程中,执行动作量的消耗,给总汇报带来了折扣。
折扣率的必要性
思考在沙漠中想要喝水的人,喝到水就终止干渴状态,对于几百米外的一瓶水和上百公里外的想喝多少就有多少的饮水机,
从累计奖励来看:远处的饮水机里的水更多,奖励值更大,如果以累计奖励最大为目标的话,则行动策略将是往更远的地方走。
然而在沙漠里,对于干渴的人而言,比起走出沙漠可以喝到更多的水,近在咫尺的一瓶矿泉水更有意义,一瓶水量少,但胜在要走的路少,短期的一个即时奖励,和不知道猴年马月才能得到的巨额奖励,比较的量不能单单靠奖励的多少而论,这期间等待的时间也需要作为衡量尺度,作为折扣率,以幂次的权重,累积在和最终的总回报里。


