欢迎光临散文网 会员登陆 & 注册

第1期第2讲-深度强化学习兵棋AI训练与加速

2022-11-27 10:36 作者:_庙算  | 我要投稿


01:24




04:34


马尔可夫决策过程:智能体与环境不断交互的过程。

从环境获得状态A—根据自身转移函数,选择动作执行—状态B,同时从环境中获取收益,进而调整自己的转移函数。这里的转移函数有点类似 认识论?



04:59


1.长期收益

2.部分可观测


08:23




12:21


1)有监督2)无监督。开始有数据集合,发给神经网络。

强化学习,开始没有数据集合。

①基于策略

②基于值

③两者结合。AC算法



50:23


掌握技能①会打兵棋②会构建深度强化学习框架会算法③使用分布式的算法训练Ai



第1期第2讲-深度强化学习兵棋AI训练与加速的评论 (共 条)

分享到微博请遵守国家法律