欢迎光临散文网 会员登陆 & 注册

【PPO × Family】第七课:挖掘黑科技 —— 探秘调优 PPO 的...

2023-06-07 14:15 作者:脸红不及向日葵  | 我要投稿

不知不觉跟到第七节课了!老规矩,依旧是将老师提到的一些链接整理了出来🙋🏻‍♀️


12:34


有关于 GAE 完整的计算代码示例以及其他计算 Advantage Function 的方法和 GAE 的对比,可以参考:

GAE代码示例: https://opendilab.github.io/PPOxFamily/gae_zh.htm1

Advantage计算补充材料: https://github.com/opendilab/PPOxFamily/blob/main/chapter7_tricks/chapter7_supp_adv.pdf


13:57


关于 off-policy 和 PPO 相关的一些细节,可以参考:

https://github.com/opendilab/PPOxFamily/blob/main/chapter7_tricks/chapter7_supp_offpolicy.pdf


16:01


Recompute 以及各种不同的 Shuffle 和相应的数据处理策略的对比参考这篇论文:

What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study: https://arxiv.org/pdf/2006.05990.pdf


20:01


Entropy 补充材料请参考:

https://github.com/opendilab/PPOxFamily/bleob/main/chapter7_tricks/chapter7_supp_entropy.pdf


25:46


Grad Clip 代码示例参考:

https://opendilab.github.io/PPOxFamily/grad_clipzh.html


30:30


正交初始化代码示例:

https://opendilab.github.io/PPOxFamily/onthogonal_init_zh.html


33:24


Dual Clip 代码示例:

https://opendilab.github.io/PPOxFamily/dual_clip_zh.htnh


39:17


智能体性能的评价维度请参考以下论文:

 MEASURING THE RELIABILITY OF REINFORCEMENT LEARNING ALGORITHMS: https://openreview.net/pdf?id=SJlpYJBKvH


40:26


终于要讲 LLM 了!小小期待一下!👏

【PPO × Family】第七课:挖掘黑科技 —— 探秘调优 PPO 的...的评论 (共 条)

分享到微博请遵守国家法律