欢迎光临散文网 会员登陆 & 注册

世界冠军带你从零实践强化学习

2022-12-12 14:27 作者:天国12345  | 我要投稿


Lesson1-3-GYM实战、PARL介绍、总结、环境安装 P3 - 01:11


import gym

from gridworld import CliffWalkingWapper

env=gym.make("CliffWalking-v0")

env=ClifWalkingWapper(env)

env.reset() //重置环境

env.render() //渲染环境

env.step(0) //输入动作











环境安装:



上图中 P为状态转移概率

model free 表示的下一个状态是未知的
















Sarsa算法:




Lesson2-3-Sarsa算法介绍与代码解析 P6 - 04:06


:动作选择实现,探索和利用随机进行


总代码如下:

obs_n: 为状态的维度,有多少个状态就有多少个维度

act_n: 动作维度





Q-Learning:










Lesson3-2-DQN算法解析 P10 - 01:33


DQN:


经验回访策略:



Behavior policy:使用Q表格选择行动,并将每个状态的动作,回报保存在缓冲区中,

Target policy:利用这些缓冲区中的数据对Q表格进行更新

缓冲区的实现方式:



固定Q目标:意思就是固定一段时间Q的表格,让Q_target为固定的值




DQN代码解析:


























Lesson5-3-四轴飞行器与创意赛 P20 - 03:22





世界冠军带你从零实践强化学习的评论 (共 条)

分享到微博请遵守国家法律