欢迎光临散文网 会员登陆 & 注册

【PPO × Family】第六课:统筹多智能体

2023-04-21 18:47 作者:脸红不及向日葵  | 我要投稿

来晚了!第六节课的相关链接已经整理出来啦!


00: 43 关于多智能体的系统在生物或机器人合作的场景,大家可以搭配一下 link 进行了解:

- https://www.earth.com/news/fish-swim-in-schools-to-save-energy/

- https://twitter.com/Interior/status/1519073932992778244

- https://www.newscientist.com/article/2357548-us-military-plan-to-create-huge-autonomous-drone-swarms-sparks-concern/

- https://www.nist.gov/programs-projects/performance-collaborative-robot-systems

01: 05 想要了解更多关于 SMAC(在星际争霸2上进行多智能体协同强化学习的环境)的解释和教学,大家可以在他们的GitHub仓库和DI-engine中找到:

- https://github.com/oxwhirl/smac

- https://di-engine-docs.readthedocs.io/zh_CN/latest/13_envs/smac_zh.html

02: 18 想要了解更详细的多智能体协作中会涉及到的领域,大家可以参考:

https://www.karltuyls.net/wp-content/uploads/2020/06/MA-DM-ICML-ACAI.pdf

02: 55 关于多智能体决策的通用设定更详细的解释,大家可以参考:

https://www.karltuyls.net/wp-content/uploads/2020/06/MA-DM-ICML-ACAI.pdf

04: 03 对于 Dec-POMDP 的具体介绍,大家可以参考 Link:

http://rbr.cs.umass.edu/camato/decpomdp/overview.html

08: 06 具体关于值分解中的 VDN 和 QMIX 算法的解释,大家可以参考论文:

- VDN:https://arxiv.org/pdf/1706.05296.pdf

- QMIX:https://arxiv.org/pdf/1803.11485.pdf

08: 33 关于值分解系列方法,感兴趣的同学可以通过补充材料进行参考:

https://github.com/opendilab/PPOxFamily/tree/main/chapter6_marl/chapter6_supp_value_dec.pdf

09: 41 有关于值分解方法可能失效的情形的具体解释,大家可以参考论文:

- QTRAN:https://arxiv.org/pdf/1905.05408.pdf

- QPLEX:https://arxiv.org/pdf/2008.01062.pdf

10: 28 想要更详细了解 MAPG 方法所面临的挑战,大家可以参考论文:

- https://arxiv.org/pdf/2108.08612.pdf

- https://arxiv.org/pdf/2008.01062.pdf

12: 29 关于 MAPPO 的详细介绍,想要了解的同学可以参考论文:

https://arxiv.org/pdf/2103.01955.pdf

14: 09 一键切换 IPPO 和 MAPPO 的完整代码示例,可以在他们的GitHub仓库中找到:

- 完整示例:https://github.com/opendilab/PPOxFamily/tree/main/chapter6_marl/chapter6_application_demo.py

- 参考教学文档:https://di-engine-docs.readthedocs.io/zh_CN/latest/04_best_practice/marl_zh.html#di-engine-marl

14: 21 关于 MPE 环境的详细解释和示例,大家可以搭配 Link:

https://di-engine-docs.readthedocs.io/zh_CN/latest/13_envs/pettingzoo_zh.html

14: 53 PPO + MPE 实践的视频示例完整demo,可以在他们的GitHub仓库中找到:

https://github.com/opendilab/PPOxFamily/issues/62

16: 43 详细的 TRPO/PPO 的特点分析,可以在第一节课的文字稿中查看:

https://github.com/opendilab/PPOxFamily/blob/main/chapter1_overview/chapter1_manuscript.pdf

18: 18 有关于 HATRPO/HAPPO 的详细理论解释,大家可以参考论文:

https://arxiv.org/pdf/2109.11251.pdf

21: 02 对 HATRPO/HAPPO 训练流程感兴趣的同学,可以参考补充材料:

https://github.com/opendilab/PPOxFamily/tree/main/chapter6_marl/chapter6_supp_happo.pdf

21: 33 想要了解更多关于 PPO + MA MuJoCo 的实践介绍和 MuJoCo 的教学,大家可以在他们的GitHub仓库和DI-engine中找到:

- https://github.com/schroederdewitt/multiagent_mujoco

- https://di-engine-docs.readthedocs.io/zh_CN/latest/13_envs/mujoco_zh.html

22: 31 有关于 Bi-DexHands 的详细介绍,可以参考GitHub Link:

https://github.com/PKU-MARL/DexterousHands

22: 58 详细的 MAT 架构分析和解释,可以参考论文:

https://proceedings.neurips.cc/paper_files/paper/2022/file/69413f87e5a34897cd010ca698097d0a-Paper-Conference.pdf

24: 05 对共享参数 Param. Sharing 的相关内容感兴趣的同学,可以参考论文:

https://arxiv.org/pdf/2102.07475.pdf

25: 07 有关于掩码 Various Mask 的详细介绍,大家可以参考论文:

https://arxiv.org/pdf/2006.14171.pdf

26: 28 想要了解更多关于ACE的解释和操作,可以参考他们提供的补充材料:

https://github.com/opendilab/PPOxFamily/blob/main/chapter6_marl/chapter6_supp_ace.pdf

【PPO × Family】第六课:统筹多智能体的评论 (共 条)

分享到微博请遵守国家法律