欢迎光临散文网 会员登陆 & 注册

强化学习 | 总回报为什么要引入折扣率?

2023-04-09 20:45 作者:浮白七  | 我要投稿
  • 🟤原始总回报 = 一次交互轨迹的累积奖励

    即对每次状态转移得到的即时奖励求和,一个Episode下的Trajectory得到的Sum( Reward) 

  • 🟡折扣回报

    引入折扣率,降低远期回报的权重?

    避免总回报无穷大无法收敛计算比较?

    折扣因子,γ,是实值∈[0,1],对于奖励即在过去,现在和未来的实现的忧虑。 换句话说,它将奖励与时域相关。 

    🟣Agent当前状态转移到的未来状态的过程中,执行动作量的消耗,给总汇报带来了折扣。


  • 折扣率的必要性

    思考在沙漠中想要喝水的人,喝到水就终止干渴状态,对于几百米外的一瓶水和上百公里外的想喝多少就有多少的饮水机,

    从累计奖励来看:远处的饮水机里的水更多,奖励值更大,如果以累计奖励最大为目标的话,则行动策略将是往更远的地方走。

    然而在沙漠里,对于干渴的人而言,比起走出沙漠可以喝到更多的水,近在咫尺的一瓶矿泉水更有意义,一瓶水量少,但胜在要走的路少,短期的一个即时奖励,和不知道猴年马月才能得到的巨额奖励,比较的量不能单单靠奖励的多少而论,这期间等待的时间也需要作为衡量尺度,作为折扣率,以幂次的权重,累积在和最终的总回报里。

沙漠喝水场景和吴恩达PPT纪要


强化学习 | 总回报为什么要引入折扣率?的评论 (共 条)

分享到微博请遵守国家法律