世界冠军带你从零实践强化学习

Lesson1-3-GYM实战、PARL介绍、总结、环境安装 P3 - 01:11
import gym
from gridworld import CliffWalkingWapper
env=gym.make("CliffWalking-v0")
env=ClifWalkingWapper(env)
env.reset() //重置环境
env.render() //渲染环境
env.step(0) //输入动作







环境安装:



上图中 P为状态转移概率

model free 表示的下一个状态是未知的












Sarsa算法:


Lesson2-3-Sarsa算法介绍与代码解析 P6 - 04:06
:动作选择实现,探索和利用随机进行


总代码如下:

obs_n: 为状态的维度,有多少个状态就有多少个维度
act_n: 动作维度



Q-Learning:







Lesson3-2-DQN算法解析 P10 - 01:33
DQN:

经验回访策略:

Behavior policy:使用Q表格选择行动,并将每个状态的动作,回报保存在缓冲区中,
Target policy:利用这些缓冲区中的数据对Q表格进行更新
缓冲区的实现方式:



固定Q目标:意思就是固定一段时间Q的表格,让Q_target为固定的值



DQN代码解析:




















Lesson5-3-四轴飞行器与创意赛 P20 - 03:22
