欢迎光临散文网 会员登陆 & 注册

一种更具有生命力的方法论——强化学习理论

2023-03-09 18:54 作者:新代  | 我要投稿

回顾历史

基本概念

    为了在接下来能更清楚的把我要叙述的事情理解到,我需要在这里把一切前置知识说明:我们 人类在长期演变过程中、在和环境和社会生活交互的活动过程可以抽象为三个阶段——首先发现问 题−→形成解决问题的方法步骤−→根据方法步骤解决问题。 

    为了更好的理解上面我所抽象出的三个阶段,我用人自身的一个具体活动来说明。遥想几万年 前,你作为一个原始人,一个部落里的一个成年男性。你部落里已经三天粮食短缺了(在这里我们就 形成了问题或者说我们发现了问题了)。为了解决这个问题,你需要找到猎物,然后追逐它,最后热 耗耗死猎物或者用你的标枪射死猎物(这就是解决问题的方法步骤)。某个下午你漫步在野外,远远 的看见一只野鹿,你悄咪咪的躲在它后面,用手上骨质标枪用力一射,射死了这只野鹿,带回了部 落。这样这给粮食短缺问题就解决了。 

    为了更进一步说明,我对上述抽象更进一步抽象,同样也是三个过程:问题−→方法/步骤−→执 行。人类或者生物所有的一切活动都是这三个过程交互演变、相互独立又相互影响。人类可以说是这 三个阶段的集大成者。

5000千年的演变

    至今五千年内,我称我们所有的伟大进步都是发生在最后一个阶段——执行,上。 

    为了得到上述结论,我们要开始回顾一些历史,一些在科技发展上的进步。 

    青铜时代:青铜时代是距今约4000年前的一个时期。在这一时期,人类开始使用青铜制造工具和 武器。青铜是铜和锡的合金,具有更高的强度和耐用性。铁器时代:铁器时代开始于距今约3000年 前。在这一时期,人类开始使用铁制造工具和武器。铁制品的生产速度和质量比青铜更高,因此它很 快取代了青铜。在这一时期,人类还发明了货币和银行,这有助于促进贸易和经济发展。在这一时 期,最著名的文明包括古代印度、古代中国和古希腊等。 

    我们观察可以显而易见的知道,不论是青铜器或者是铁器,都只是在执行阶段提高了人类执行方 法步骤的速度。并没有改变一个事实——人类提出解决问题的方法步骤。那么最近几百年的进步有改 变这一点事实么?我们继续回顾: 

    工业革命:工业革命是从18世纪末开始的一个时期,它标志着人类生产力和技术水平的飞跃。在这一时期,人类发明了许多机械装置,例如蒸汽机、纺织机、印刷机和蒸汽火车等,这些机械装置大 大提高了生产效率和质量。在这一时期,人类还发明了电池和电报等电子技术,这标志着电子时代的 开始。现代时期:现代时期是指20世纪以后的时期。在这一时期,人类发明了许多重要的技术和发 明,例如电话、汽车、飞机、计算机、互联网和智能手机等。 

    这些技术革命的演变,不管是蒸汽机、印刷机、或者说计算机这些都是在提高我们执行部分的效 率,从来带来生产力的巨大提高。我们的蒸汽机可以让人类重复的机械动作在瞬间被执行几百上千 次,计算机更是极大的提高了我们执行的速度。 

    人类或者说生物的三大阶段在过去5000千年的时间里,我们都在执行阶段产生变化,或者换句话 说,我们之前所有的理论都是建立在执行这一阶段上的。无论是数学、物理、化学、还是什么学课, 这些学课所形成的科学方法论,都是基于执行部分,也就是说如何让人类的执行更具效率,更具破坏 力。物理学研究的内燃机、蒸汽机或者说核物理,所产出的成果,汽车轮船原子弹这些,让我们走的 更快,一个按钮就可以让原子弹爆炸破坏一片地区。

    但是近些年来,我们可以发现一点的是基础学课的进展如此缓慢,不论是数学还是物理。我们在 人自己提出问题的解决办法上好像开始进入的瓶颈,好像开始了收敛。或者换句话说,这就意味着我 们需要在另一个解决寻求突破了,我们需要在另一阶段思考了。那么一种呼之欲出或者说显而易见 的方式可以出来了:我们是否能让agent自己想出解决问题的方法?或者说我们能不能让机器具有智 能,让它自己去做解决问题?

人类智慧的延申

    何为人类智慧的延申?人类运用自己的智慧去窥探智慧产生的规律,并运用这些规律去诞生出了 一些在基于人类智慧下、人类观测下才反应出的智慧体现。换句话说,这些智慧体现离不开人人类的 观察,并且这些智慧并不会自己延伸出新的智慧出来。人类的智慧延申就是在三大阶段的第二阶段产 生,或者换句话说,接下来的时间里,将会产生为这个阶段服务的思想、理论,并且将会再一次极大 的解放人类的生产能力、生产关系。 

    那么人类智慧延申的体现有什么呢?最简单或者说我认为能追溯的最早的例子就是2012年 的AlexNet,它是人类在三大发展阶段的第二阶段——问题的解决方法/步骤,上首次取得巨大成功的 例子。它可以针对任务自行学习对应的解决办法/步骤,将人类从这一活动中解放出来。那么研究这 种在人类智慧指导下的agent自行去解决问题的理论是什么呢?我的回答是强化学习理论或者说啥如 何像生物一样在动态变化的世界中与世界交互下连续决策的理论。

强化学习

    强化学习(RL)领域(Sutton和Barto,2018)关注通过交互实现目标导向学习的计算原理。虽 然最初被视为机器学习领域,但它有着跨越多个领域的丰富历史。在心理学中,它可以用来模拟古典(巴甫洛夫)和操作(工具)条件反射。在神经科学中,它被用来模拟大脑的多巴胺系统(Schultz等 人,1997)。在经济学中,它涉及有限理性等领域,而在工程中,它与最优控制领域有着广泛的重叠 (Bellman,1957)。众多研究领域的研究,确保了RL继续是一个令人兴奋的、非常跨学科的领域。

什么是强化学习

强化学习理论框架


    如图2所示,强化学习的基本组成结构有两个重要组成部分①agent ②environment,还有两个从 属部分,对应为action和observation。在这基本结构下构建一个动态交互过程,并将其构建为一个马 尔可夫过程。在这个动态过程下agent可以通过价值和策略梯度两种主要方式去学习自己的决策策略。

强化学习基本结构

Agent和Environment

Observation和Action


马尔可夫决策过程

策略和价值


Model-free方法

Prediction


价值函数指导下的控制


策略梯度方法


Model-based方法


深度强化学习


经验回放

目标网络


离线强化学习

何为更具生命力的方法论


一种更具有生命力的方法论——强化学习理论的评论 (共 条)

分享到微博请遵守国家法律