【PPO × Family】第六课：统筹多智能体

2023-04-21 18:47 作者:脸红不及向日葵 0人读过 | 我要投稿

来晚了！第六节课的相关链接已经整理出来啦！

00: 43 关于多智能体的系统在生物或机器人合作的场景，大家可以搭配一下 link 进行了解：

- https://www.earth.com/news/fish-swim-in-schools-to-save-energy/

- https://twitter.com/Interior/status/1519073932992778244

- https://www.newscientist.com/article/2357548-us-military-plan-to-create-huge-autonomous-drone-swarms-sparks-concern/

- https://www.nist.gov/programs-projects/performance-collaborative-robot-systems

01: 05 想要了解更多关于 SMAC（在星际争霸2上进行多智能体协同强化学习的环境）的解释和教学，大家可以在他们的GitHub仓库和DI-engine中找到：

- https://github.com/oxwhirl/smac

- https://di-engine-docs.readthedocs.io/zh_CN/latest/13_envs/smac_zh.html

02: 18 想要了解更详细的多智能体协作中会涉及到的领域，大家可以参考：

https://www.karltuyls.net/wp-content/uploads/2020/06/MA-DM-ICML-ACAI.pdf

02: 55 关于多智能体决策的通用设定更详细的解释，大家可以参考：

https://www.karltuyls.net/wp-content/uploads/2020/06/MA-DM-ICML-ACAI.pdf

04: 03 对于 Dec-POMDP 的具体介绍，大家可以参考 Link：

http://rbr.cs.umass.edu/camato/decpomdp/overview.html

08: 06 具体关于值分解中的 VDN 和 QMIX 算法的解释，大家可以参考论文：

- VDN：https://arxiv.org/pdf/1706.05296.pdf

- QMIX：https://arxiv.org/pdf/1803.11485.pdf

08: 33 关于值分解系列方法，感兴趣的同学可以通过补充材料进行参考：

https://github.com/opendilab/PPOxFamily/tree/main/chapter6_marl/chapter6_supp_value_dec.pdf

09: 41 有关于值分解方法可能失效的情形的具体解释，大家可以参考论文：

- QTRAN：https://arxiv.org/pdf/1905.05408.pdf

- QPLEX：https://arxiv.org/pdf/2008.01062.pdf

10: 28 想要更详细了解 MAPG 方法所面临的挑战，大家可以参考论文：

- https://arxiv.org/pdf/2108.08612.pdf

- https://arxiv.org/pdf/2008.01062.pdf

12: 29 关于 MAPPO 的详细介绍，想要了解的同学可以参考论文：

https://arxiv.org/pdf/2103.01955.pdf

14: 09 一键切换 IPPO 和 MAPPO 的完整代码示例，可以在他们的GitHub仓库中找到：

- 完整示例：https://github.com/opendilab/PPOxFamily/tree/main/chapter6_marl/chapter6_application_demo.py

- 参考教学文档：https://di-engine-docs.readthedocs.io/zh_CN/latest/04_best_practice/marl_zh.html#di-engine-marl

14: 21 关于 MPE 环境的详细解释和示例，大家可以搭配 Link：

https://di-engine-docs.readthedocs.io/zh_CN/latest/13_envs/pettingzoo_zh.html

14: 53 PPO + MPE 实践的视频示例完整demo，可以在他们的GitHub仓库中找到：

https://github.com/opendilab/PPOxFamily/issues/62

16: 43 详细的 TRPO/PPO 的特点分析，可以在第一节课的文字稿中查看：

https://github.com/opendilab/PPOxFamily/blob/main/chapter1_overview/chapter1_manuscript.pdf

18: 18 有关于 HATRPO/HAPPO 的详细理论解释，大家可以参考论文：

https://arxiv.org/pdf/2109.11251.pdf

21: 02 对 HATRPO/HAPPO 训练流程感兴趣的同学，可以参考补充材料：

https://github.com/opendilab/PPOxFamily/tree/main/chapter6_marl/chapter6_supp_happo.pdf

21: 33 想要了解更多关于 PPO + MA MuJoCo 的实践介绍和 MuJoCo 的教学，大家可以在他们的GitHub仓库和DI-engine中找到：

- https://github.com/schroederdewitt/multiagent_mujoco

- https://di-engine-docs.readthedocs.io/zh_CN/latest/13_envs/mujoco_zh.html

22: 31 有关于 Bi-DexHands 的详细介绍，可以参考GitHub Link：

https://github.com/PKU-MARL/DexterousHands

22: 58 详细的 MAT 架构分析和解释，可以参考论文：

https://proceedings.neurips.cc/paper_files/paper/2022/file/69413f87e5a34897cd010ca698097d0a-Paper-Conference.pdf

24: 05 对共享参数 Param. Sharing 的相关内容感兴趣的同学，可以参考论文：

https://arxiv.org/pdf/2102.07475.pdf

25: 07 有关于掩码 Various Mask 的详细介绍，大家可以参考论文：

https://arxiv.org/pdf/2006.14171.pdf

26: 28 想要了解更多关于ACE的解释和操作，可以参考他们提供的补充材料：

https://github.com/opendilab/PPOxFamily/blob/main/chapter6_marl/chapter6_supp_ace.pdf

标签：

【PPO × Family】第六课：统筹多智能体

【PPO × Family】第六课：统筹多智能体的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

【PPO × Family】第六课：统筹多智能体

本文作者的其他文章

【PPO × Family】第六课：统筹多智能体的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

【PPO × Family】第六课：统筹多智能体的评论 (共条)