强化学习智能体分类:
(1)基于模型的强化学习。策略(和/或)价值函数,环境模型。如:迷宫游戏、迷宫、围棋、迷宫、象棋等这类规则明确,且可以枚举下一个状态的所有可能(比如象棋黑方走了一步后,可以列举此时红方可能要走的棋子和要走的方式)。
(2)模型无关的强化学习。策略(和/或)价值函数,没有环境模型,环境是黑箱,比如Atari游戏、王者荣耀游戏,其需要大量的采样。