欢迎光临散文网会员登陆 & 注册

世界冠军带你从零实践强化学习

2022-12-12 14:27 作者:天国12345 0人读过 | 我要投稿

Lesson1-3-GYM实战、PARL介绍、总结、环境安装 P3 - 01:11

import gym

from gridworld import CliffWalkingWapper

env=gym.make("CliffWalking-v0")

env=ClifWalkingWapper(env)

env.reset() //重置环境

env.render() //渲染环境

env.step(0) //输入动作

环境安装：

上图中 P为状态转移概率

model free 表示的下一个状态是未知的

Sarsa算法：

Lesson2-3-Sarsa算法介绍与代码解析 P6 - 04:06

：动作选择实现，探索和利用随机进行

总代码如下：

obs_n：为状态的维度，有多少个状态就有多少个维度

act_n: 动作维度

Q-Learning:

Lesson3-2-DQN算法解析 P10 - 01:33

DQN：

经验回访策略：

Behavior policy:使用Q表格选择行动，并将每个状态的动作，回报保存在缓冲区中，

Target policy：利用这些缓冲区中的数据对Q表格进行更新

缓冲区的实现方式：

固定Q目标：意思就是固定一段时间Q的表格，让Q_target为固定的值

DQN代码解析：

Lesson5-3-四轴飞行器与创意赛 P20 - 03:22

标签：

世界冠军带你从零实践强化学习的评论 (共条)