【PPO × Family】第五课:探索时序建模

课代表(自封)我又来啦!感觉第五节课听下来有点难度,依旧是整理了老师提到的一些链接,对照着学习感觉好多了~

01: 55 对于 POMDP(部分可观测马尔可夫决策概述)更详细的定义和解释,大家可以参考论文:
https://www.nature.com/articles/s41598-022-08810-z
03: 38 关于更多 POMDP 在真实决策中的应用,可以搭配 Link:
https://arxiv.org/pdf/2209.10342.pdf
04: 37 想要了解更详细的 POMDP 的定义,大家可以参考:
https://en.wikipedia.org/wiki/Partially_observable_Markov_decision_process
05: 12 关于如何解决 Pong 这款游戏中 POMDP 问题的详细解释,大家可以参考论文:
https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf
05: 59 对于 BipedalWalker 的具体介绍和教学,可以在 DI-engine 中找到:
https://di-engine-docs.readthedocs.io/zh_CN/latest/13_envs/bipedalwalker_zh.html
07: 33 如何设计出好的神经网络,从而减小 POMDP 问题的具体案例分析可参考论文:
- PerfectDou:https://arxiv.org/pdf/2203.16406.pdf
- PERCEIVER IO:https://arxiv.org/pdf/2107.14795.pdf
09: 20 课程作业一的详细题解大家可以通过以下 Link 查询:
https://github.com/opendilab/PPOxFamily/blob/main/chapter1_overview/chapter1_homework_solution.pdf
10: 46 具体关于 N-step 和 MCTS 这两种方法如何促进解决 POMDP 问题的分析,大家可以参考论文:
https://papers.nips.cc/paper/2010/file/edfbe1afcf9246bb0d40eb4d8027d90f-Paper.pdf
10: 57 关于 POMDP 中的一些特殊概念,例如 Belief MDP,有兴趣的同学可以通过补充材料进行参考:
https://github.com/opendilab/PPOxFamily/blob/main/chapter5_time/chapter5_supp_belief.pdf
11: 35 关于 RNN 的变体 -- LSTM 和 GRU 的详细介绍,想要了解的同学可以参考:
https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21
13: 45 R2D2 的具体方法介绍可以参考:
https://openreview.net/pdf?id=r1lyTjAqYX
15: 43 DeepMind Lab 的相关材料以及详细解释,搭配 Link:
https://github.com/deepmind/lab
19: 01 关于 BPTT 更详细的解释和分析,大家可以参考以下 Link:
https://en.wikipedia.org/wiki/Backpropagation_through_time
https://www.researchgate.net/publication/316684826_Deep_Learning_Methods_for_the_Extraction_of_Relations_in_Natural_Language_Text/figures?lo=1
19: 27 PPO + LSTM 相结合的算法代码完整示例,大家可以在他们的GitHub中找到:
https://opendilab.github.io/PPOxFamily/
22: 35 想要更详细了解 LSTM + Initialization 可搭配 Link:
https://smerity.com/articles/2016/orthogonal_init.html
23: 39 有关于 Transformer 架构的一些细节,想要了解的同学可以参考以下 Link:
https://lena-voita.github.io/nlp_course/seq2seq_and_attention.html#transformer_intro
24: 43 对于 Transformer + RL 的详细劣势分析,大家可以在以下 Link 寻找:
https://zhuanlan.zhihu.com/p/559370131
26: 12 关于 Transformer + RL 的详细优势分析,大家可以参考论文 Transformer - XL:
https://arxiv.org/pdf/1901.02860.pdf
27: 31 有关于在强化学习中运用 Transformer 的例子 -- GTrXL 的详细讲解,对比试验以及细节分析,可以参考论文:
https://arxiv.org/pdf/1910.06764.pdf
30: 46 PPO + LSTM 相结合的算法代码完整示例和对应的讲解,大家可以在他们的GitHub中找到:
https://opendilab.github.io/PPOxFamily/
31: 45 对于 Bsuite系列环境中的子环境之一 -- Memory Len 的具体介绍和教学,可以在 DI-engine 中找到:
https://di-engine-docs.readthedocs.io/zh_CN/latest/13_envs/bsuite_zh.html
33: 24 PPO + LSTM 和 PPO + Transformer 的环境进一步的详细讲解和视频demo,大家可以在他们的GitHub仓库中找到:
https://github.com/opendilab/PPOxFamily/issues/48
34: 50 对其他不同的,新提出的一些时序建模模块感兴趣的同学,可以参考提供的补充材料:
RWKV - LM:https://github.com/opendilab/PPOxFamily/blob/main/chapter5_time/chapter5_supp_rwkv.pdf