第1期第2讲-深度强化学习兵棋AI训练与加速

01:24
04:34
马尔可夫决策过程:智能体与环境不断交互的过程。
从环境获得状态A—根据自身转移函数,选择动作执行—状态B,同时从环境中获取收益,进而调整自己的转移函数。这里的转移函数有点类似 认识论?

04:59
1.长期收益
2.部分可观测
08:23
12:21
1)有监督2)无监督。开始有数据集合,发给神经网络。
强化学习,开始没有数据集合。
①基于策略
②基于值
③两者结合。AC算法

50:23
掌握技能①会打兵棋②会构建深度强化学习框架会算法③使用分布式的算法训练Ai