欢迎光临散文网 会员登陆 & 注册

北大公开课-人工智能基础 34 对抗性搜索之蒙特卡洛方法

2023-03-31 18:55 作者:朝朝暮暮1895  | 我要投稿


棋类游戏,博弈——对抗性搜索

两个玩家的每一步,都可以组合成一个决策树

alphago的相关算法基础

蒙特卡洛方法

价值网络,用价值、每一步的效用函数,判断当前action的有效性

蒙特卡洛方法:

定义一个输入域(Xi 变量的集合)

随机从输入,分布输出

对输入进行计算

聚合输出结果,评估输出的概率范围

蒙特卡洛方法与决策树集合

本质上还是一颗决策树,但是每一个节点的后续action,通过蒙特卡洛方法来估算后续节点的概率

用蒙特卡洛方法,解决井字棋问题

alphago 的CNN训练

alphago的两个CNN结构

一个是策略网络,通过蒙特卡洛方法及决策树

判断每个action的概率分布


第二个是价值网络

判断每一个决策节点action

得到的价值期望,来判断每个action的最大价值化



北大公开课-人工智能基础 34 对抗性搜索之蒙特卡洛方法的评论 (共 条)

分享到微博请遵守国家法律