欢迎光临散文网 会员登陆 & 注册

【PPO × Family】第四课:解密稀疏奖励空间

2023-03-01 18:52 作者:脸红不及向日葵  | 我要投稿

课代表(自封)我又来啦!感觉第四节课听下来有点难度,依旧是整理了老师提到的一些链接,对照着学习感觉好多了~


01: 38 对于奖励空间更详细的解释,大家可以参考论文:

http://aaai-rlg.mlanctot.info/papers/AAAI22-RLG_paper_38.pdf

04: 37 关于 DOTA2 奖励塑性的具体例子,搭配Link:

https://openai.com/five/

06: 07 对于模仿学习更详细的了解,大家可以参考论文:

https://arxiv.org/pdf/2106.12177.pdf

06: 43 有关模仿学习方法的细节和相关的研究资料,大家可以参考本节课提供的补充资料:

逆强化学习补充材料:https://github.com/opendilab/PPOxFamily/tree/main/chapter4_reward/chapter4_supp_irl.pdf

行为克隆补充材料:https://github.com/opendilab/PPOxFamily/tree/main/chapter4_reward/chapter4_supp_bc.pdf

09: 24 尝试设计好奇心机制的方法和结果可参考论文:

https://arxiv.org/pdf/1705.05363.pdf

11: 13 具体好奇心机制和内在奖励的定义,以及如何运用到强化学习方法中可参考论文:

https://arxiv.org/pdf/1705.05363.pdf

15: 02 想要了解其他提取特征的方法,大家可以参考:

https://arxiv.org/pdf/1808.04355.pdf

https://zhuanlan.zhihu.com/p/473676311

16: 17 具体对第二类设计内在奖励的经典方法 RND 的解释,大家可以参考:

https://arxiv.org/pdf/1810.12894.pdf

17: 50 详细随机蒸馏问题的解释和对比理解可参考论文:

https://arxiv.org/pdf/1810.12894.pdf

19: 58 想要了解如何设计出随机蒸馏问题以及它的新颖之处可参考:

https://zhuanlan.zhihu.com/p/485476646

22: 54 将 ICM 和 RND 结合到 PPO 中的完整示例,搭配 Link:

https://opendilab.github.io/PPOxFamily/

23: 38 Minigrid 的相关材料,详细解释以及教程,搭配 Link:

https://github.com/Farama-Foundation/Minigrid

https://di-engine docs.readthedocs.io/zh_CN/latest/13_envs/minigrid_zh.html

24: 34 Minigrid 的完整视频demo,大家都可以在他们的GitHub仓库中找到:

https://github.com/opendilab/PPOxFamily/issues/44

27: 52 对于 Pop-Art 更详细的解释和分析,大家可以参考论文:

https://arxiv.org/pdf/1602.07714.pdf

32: 45 想要更详细了解 Value Rescale 可参考论文:

https://arxiv.org/pdf/1805.11593.pdf

34: 58 如何实现Value Rescale的正向和逆向操作,以及如何运用到 PPO 算法中的代码完整示例搭配Link:

https://opendilab.github.io/PPOxFamily/

35: 11 有关于将 PPO 算法和一系列 reward 处理方法运用到 MetaDrive 实践中的材料,大家可以在以下链接寻找:

https://github.com/metadriverse/metadrive

35: 57 详细的 MetaDrive 中的奖励空间定义可参考:

https://di-engine-docs.readthedocs.io/zh_CN/latest/13_envs/metadrive_zh.html

36: 39 MetaDrive 的完整视频 demo,大家都可以在他们的 GitHub 仓库中找到:

https://github.com/opendilab/PPOxFamily/issues/44

【PPO × Family】第四课:解密稀疏奖励空间的评论 (共 条)

分享到微博请遵守国家法律