北大公开课-人工智能基础 34 对抗性搜索之蒙特卡洛方法


棋类游戏,博弈——对抗性搜索
两个玩家的每一步,都可以组合成一个决策树


alphago的相关算法基础
蒙特卡洛方法

价值网络,用价值、每一步的效用函数,判断当前action的有效性

蒙特卡洛方法:
定义一个输入域(Xi 变量的集合)
随机从输入,分布输出
对输入进行计算
聚合输出结果,评估输出的概率范围




蒙特卡洛方法与决策树集合
本质上还是一颗决策树,但是每一个节点的后续action,通过蒙特卡洛方法来估算后续节点的概率

用蒙特卡洛方法,解决井字棋问题


alphago 的CNN训练


alphago的两个CNN结构
一个是策略网络,通过蒙特卡洛方法及决策树
判断每个action的概率分布
第二个是价值网络
判断每一个决策节点action
得到的价值期望,来判断每个action的最大价值化



