【PPO × Family】第六课:统筹多智能体

来晚了!第六节课的相关链接已经整理出来啦!
00: 43 关于多智能体的系统在生物或机器人合作的场景,大家可以搭配一下 link 进行了解:
- https://www.earth.com/news/fish-swim-in-schools-to-save-energy/
- https://twitter.com/Interior/status/1519073932992778244
- https://www.newscientist.com/article/2357548-us-military-plan-to-create-huge-autonomous-drone-swarms-sparks-concern/
- https://www.nist.gov/programs-projects/performance-collaborative-robot-systems
01: 05 想要了解更多关于 SMAC(在星际争霸2上进行多智能体协同强化学习的环境)的解释和教学,大家可以在他们的GitHub仓库和DI-engine中找到:
- https://github.com/oxwhirl/smac
- https://di-engine-docs.readthedocs.io/zh_CN/latest/13_envs/smac_zh.html
02: 18 想要了解更详细的多智能体协作中会涉及到的领域,大家可以参考:
https://www.karltuyls.net/wp-content/uploads/2020/06/MA-DM-ICML-ACAI.pdf
02: 55 关于多智能体决策的通用设定更详细的解释,大家可以参考:
https://www.karltuyls.net/wp-content/uploads/2020/06/MA-DM-ICML-ACAI.pdf
04: 03 对于 Dec-POMDP 的具体介绍,大家可以参考 Link:
http://rbr.cs.umass.edu/camato/decpomdp/overview.html
08: 06 具体关于值分解中的 VDN 和 QMIX 算法的解释,大家可以参考论文:
- VDN:https://arxiv.org/pdf/1706.05296.pdf
- QMIX:https://arxiv.org/pdf/1803.11485.pdf
08: 33 关于值分解系列方法,感兴趣的同学可以通过补充材料进行参考:
https://github.com/opendilab/PPOxFamily/tree/main/chapter6_marl/chapter6_supp_value_dec.pdf
09: 41 有关于值分解方法可能失效的情形的具体解释,大家可以参考论文:
- QTRAN:https://arxiv.org/pdf/1905.05408.pdf
- QPLEX:https://arxiv.org/pdf/2008.01062.pdf
10: 28 想要更详细了解 MAPG 方法所面临的挑战,大家可以参考论文:
- https://arxiv.org/pdf/2108.08612.pdf
- https://arxiv.org/pdf/2008.01062.pdf
12: 29 关于 MAPPO 的详细介绍,想要了解的同学可以参考论文:
https://arxiv.org/pdf/2103.01955.pdf
14: 09 一键切换 IPPO 和 MAPPO 的完整代码示例,可以在他们的GitHub仓库中找到:
- 完整示例:https://github.com/opendilab/PPOxFamily/tree/main/chapter6_marl/chapter6_application_demo.py
- 参考教学文档:https://di-engine-docs.readthedocs.io/zh_CN/latest/04_best_practice/marl_zh.html#di-engine-marl
14: 21 关于 MPE 环境的详细解释和示例,大家可以搭配 Link:
https://di-engine-docs.readthedocs.io/zh_CN/latest/13_envs/pettingzoo_zh.html
14: 53 PPO + MPE 实践的视频示例完整demo,可以在他们的GitHub仓库中找到:
https://github.com/opendilab/PPOxFamily/issues/62
16: 43 详细的 TRPO/PPO 的特点分析,可以在第一节课的文字稿中查看:
https://github.com/opendilab/PPOxFamily/blob/main/chapter1_overview/chapter1_manuscript.pdf
18: 18 有关于 HATRPO/HAPPO 的详细理论解释,大家可以参考论文:
https://arxiv.org/pdf/2109.11251.pdf
21: 02 对 HATRPO/HAPPO 训练流程感兴趣的同学,可以参考补充材料:
https://github.com/opendilab/PPOxFamily/tree/main/chapter6_marl/chapter6_supp_happo.pdf
21: 33 想要了解更多关于 PPO + MA MuJoCo 的实践介绍和 MuJoCo 的教学,大家可以在他们的GitHub仓库和DI-engine中找到:
- https://github.com/schroederdewitt/multiagent_mujoco
- https://di-engine-docs.readthedocs.io/zh_CN/latest/13_envs/mujoco_zh.html
22: 31 有关于 Bi-DexHands 的详细介绍,可以参考GitHub Link:
https://github.com/PKU-MARL/DexterousHands
22: 58 详细的 MAT 架构分析和解释,可以参考论文:
https://proceedings.neurips.cc/paper_files/paper/2022/file/69413f87e5a34897cd010ca698097d0a-Paper-Conference.pdf
24: 05 对共享参数 Param. Sharing 的相关内容感兴趣的同学,可以参考论文:
https://arxiv.org/pdf/2102.07475.pdf
25: 07 有关于掩码 Various Mask 的详细介绍,大家可以参考论文:
https://arxiv.org/pdf/2006.14171.pdf
26: 28 想要了解更多关于ACE的解释和操作,可以参考他们提供的补充材料:
https://github.com/opendilab/PPOxFamily/blob/main/chapter6_marl/chapter6_supp_ace.pdf