欢迎光临散文网会员登陆 & 注册

第1期第2讲-深度强化学习兵棋AI训练与加速

2022-11-27 10:36 作者:_庙算 0人读过 | 我要投稿

01:24

04:34

马尔可夫决策过程：智能体与环境不断交互的过程。

从环境获得状态A—根据自身转移函数，选择动作执行—状态B，同时从环境中获取收益，进而调整自己的转移函数。这里的转移函数有点类似认识论？

04:59

1.长期收益

2.部分可观测

08:23

12:21

1）有监督2）无监督。开始有数据集合，发给神经网络。

强化学习，开始没有数据集合。

①基于策略

②基于值

③两者结合。AC算法

50:23

掌握技能①会打兵棋②会构建深度强化学习框架会算法③使用分布式的算法训练Ai

标签：

第1期第2讲-深度强化学习兵棋AI训练与加速的评论 (共条)