欢迎光临散文网 会员登陆 & 注册

北大公开课-人工智能基础 49 决策理论规划

2023-04-02 22:58 作者:朝朝暮暮1895  | 我要投稿


决策规划,从初始状态,经过一系列动作,达到目标状态

决策理论规划,用最小代价,从初始状态,到达目标状态

最小代价,相当于最大期望效应 MEU (一系列效用函数值最大化的节点集合)

马尔可夫模型

离散时间,随机控制,但是最终动作的结果,仅仅取决于当前状态(定向扩散)

经典规划的核心要素

环境确定,状态完全可知,求解是找到一个从初始状态出发到达目标状态的解


马尔可夫决策

智能体处于的环境是随机的,时间是离散的;求解的目的是找到一个控制其(扩散)的过程

马尔可夫决策的核心问题不在于找到策略和解,核心问题在于找到效用函数

效用值迭代等式

策略迭代

U效用相当于每一个步骤的相对最大值MEU的集合。




北大公开课-人工智能基础 49 决策理论规划的评论 (共 条)

分享到微博请遵守国家法律