欢迎光临散文网 会员登陆 & 注册

机器学习的江湖

2022-04-08 22:28 作者:梗直哥丶  | 我要投稿

一切模拟、延申、扩展人的智能的技术都是人工智能,概念非常宽泛。从这个角度考虑,连计算器都能算是一种人工智能。只不过随着科技的进步,新技术的出现,势必会淘汰过去的老技术。也许100年后,人们对于人脸识别、自动驾驶等技术也不再感觉新鲜。到时候,你对他们说人脸识别是人工智能,他们也会觉得不可思议。


机器学习是一种比较有效的实现人工智能的方式,也是它的核心和重要理论基础。 如今,机器学习的应用已渗透进人工智能的各个分支。我们这里并不想给这门学科进行考古,感兴趣的话网上资料很多。只是,以史为镜,有不一样的思考和发现,往往能够引导你学习求知的正确方向,这才是本章的目的。


机器学习乃至人工智能的起源,是人对自身意识、自我、心灵等哲学问题的探索,对如何充分利用机器算力,实现对学习的模拟、进化,乃至超越的不懈追求。明白了这个基本出发点,你就懂得:所有算法,无论多么复杂,其实都是人设计出来模拟人思维过程的。因此,好的理解方式不是去死记硬背,而是用朴素的语言、大白话的讲解尽量搞清楚最初设计者的基本逻辑和思维原点。这样才能真正搞透看似复杂的理论,同时最大程度上减少所需的记忆量。本系列后面的章节中,你可能会看到很多不同寻常的类比、比喻,既有生活中耳熟能详的例子,也有好莱坞大片中的故事情节。也许乍看起来不那么正经和严谨,但是请不要忘了我们的初心:回归人性的思考,弄清算法的本质。


机器学习在发展的过程中,融合了统计学、神经科学、信息论、控制论、计算复杂性理论等多学科知识,是一门典型的交叉学科。因此,其所谓的难学难懂,往往是因为自身缺少足够的知识储备,外部又缺少有效资源,能够剥丝抽茧、深入浅出地帮你剖析纷繁复杂中的联系。"凯撒的归凯撒,上帝的归上帝"。其实只要能厘清脉络,明确重点,适当但是及时地补充一些必要基础知识,多数情况下,只要不偷懒,没啥难学的,初中生都能学会。这也是本系列的另一个特点:与常见的机器学习书籍不同,我们重构了知识的体系架构,偏重对基本模型算法内在联系的关联比较和深度挖掘,希望能从不一样的角度带给你新的认知。


机器学习从上世纪五十年代到现在七十年的发展历史中,一波三折,跌宕起伏。曾经大火的算法风光不再,一度默默无闻的理论却声名鹊起。恰如人生,再厉害不要盲目自大,再卑微也不用看不起自己。时机合适,环境匹配,无论哪种算法都有它发挥才能的空间。学好这门学科,的确需要紧跟业界潮流,关注当下最时髦的理论、算法和工具,先用了再说;同时,也最好能系统性地全面了解整个机器学习的理论。往往看似不起眼甚至有点儿过时的方法,有时换个马甲、换种角度、互相嫁接耦合,也能产生出其不意的效果。这也是本系列的第三个特点:横向比较不同模型的同时,纵向贯通,探讨其中的脉络和原委,告诉你理论背后的故事,用简单易上手的实例让你迅速理解其中的奥秘。学习不光是被动地接收,更需要主动地思考。越是前沿,越是未知,越是如此。毕竟算法是死的,情况是活的,具体怎么用要靠人来定。


Part 2 机器学习江湖族谱图


我们就不再费劲儿扒拉详细地讲解机器学习前世今生了,一图解千愁,供大家参考。网上资料很多,各种说法不尽相同。由于门派迥异,分支交叉,通婚很多。想搞个准确分类,让大家都信服也不容易。感兴趣可以自行翻查考古。这里不做论战,只是换个角度希望能引发大家一些思考。

       

机器学习族谱图

                               

机器学习的江湖族谱图如上所示。让我们架空历史,用武侠人物打个比喻,帮助理解和记忆。话说上古时期数学大陆飘来的三大高手:概率统计、控制论和图论。他们化身为华山、少林和峨眉三大派的高人张三丰、达摩祖师和郭襄女神,开枝散叶,涤荡江湖。达摩帐下出了个著名的弟子扫地僧,很早就在那里,但一直不显山不露水,最近几年才广为世人关注,炙手可热起来,他的名字就叫——“强化学习”。郭女神的峨眉一派盛产女弟子,与武林各门各派无论明面上,还是私下里,都交集不少,故事更多。但论学习方面的实战武功,实话实说乏善可陈,知名弟子不是很多。直到后来出了个周芷若妹妹,方才一鸣惊人,她就是我们的“知识图谱”了。当然,这也是与无忌哥哥发生联系后的事情了。让我们暂时按下这两派不表,回头再叙,本系列机器学习主要讲的是武当正宗的故事。深度学习、强化学习和知识图谱这三派在机器学习的江湖上又被人称作“联结主义”、“行为主义”和“符号主义”。


传说张真人门下弟子众多,各个武功高强。从最近邻(KNN)、决策树、随机森林、条件随机场,到Boosting、SVM、隐马尔科夫模型(HMM)、Bayes方法、神经网络,不一而足,简直就是武当七侠外加徒子徒孙。其中曾经看似不起眼的弟子张翠山,自己武功不咋地,但牛逼在生了个超级厉害的儿子,叫张无忌,也就是我们的主角“深度学习”了。无忌哥哥天赋异禀,武功高强,几乎自成一派,荣登明教教主宝座。不过,最重要的是他艳福不浅,深受各路女同学喜欢。他自从崭露头角以来,处处留情,关系十分错综复杂,简直是一代海王,不便详尽叙述。其中知名女士包括但不限于:王府闺秀、机智多谋的大房赵敏,人称“监督学习”;生性洒脱、无拘无束的波斯美女,二房小昭,人称“无监督学习”;还有其他各类女朋友。一众子女中,大房膝下最为著名,几个牛掰的阿哥CNN、RNN、Transformer,还有一个其实应该算是无忌哥哥和芷若妹妹的私生女,人称GNN,过继到了大房门下。她跟Transformer小哥都是新晋网红,擅长交际,注意力王者。二房不甘示弱,这几年也有几个孩子很出位,比如:自学冠军AutoEncoder、喜欢左右手互搏的GAN、擅长思考挖掘特征的表征学习(Representation Learning)等等。其他私生子女也各具特色,比如:有注重隐私的“联邦学习”,擅长跨界的“迁移学习”等。


如今的机器学习江湖,除人丁兴旺的深度学习一族外,强化学习、知识图谱,还有七七八八其他不那么知名的小门小派也都没闲着,对繁衍后代,延续香火乐此不疲,不断的产生无数的算法。大家尤其喜欢跨越种族、忘却辈分,勇敢地实现你中有我,我中有你。别说,往往这样下的小崽的确更加聪明、更加漂亮。也许,冥冥之中,这背后都有着进化论的身影。无论人还是算法,都离不开生物的属性。


Part 2 本系列内容说明


不抬杠的话,平日里你听到的机器学习,现在几乎默认都是指深度学习中的神经网络训练啦。为啥这样呢?存在即合理,学术意义上的严格划分对人民群众没啥卵用。神经网络这支个个都是大明星,光芒过于耀眼,这就好比曾国藩家族中的后代亲朋,无不以与其关联为荣一样。既然大伙儿喜闻乐见,约定俗成也就自有道理。本系列随大流重点讲解深度学习下各类模型,但算法和思想并不受限于此,其他机器学习内容亦通用。不过彻底明白了这部分的话,对大多数想入门的同学们来说也就够了。故此,为行文方便起见,暂且约定,不刻意区分机器学习与深度学习学术意义上的差别,敬请理解。


概率统计延伸出来的经典算法,虽然看似有些过时,不如深度学习下的神经网络实力强大,但其思想还是对理解机器学习的本质很有帮助的。比如:RNN本质上就是一个HMM模型的高维扩展版,GNN与条件随机场、随机森林等在某些方面其实也有异曲同工之处,AutoEncoder与SVM的核心都是降维。不仅如此,还有一种趋势就是新的网络越来越多地借鉴老算法的思想,比如Bayes方法 + NN延伸出来的BNN。如果大家对这些内容感兴趣的话,我们单独再讲。


无监督学习一支相对较新,内容也深一些,建议多看一些论文。如果大伙儿有需要,回头再找时间安排。强化学习打算讲讲,不过内容相对独立。知识图谱也比较独立,视情况再考虑是否单讲。


机器学习的江湖的评论 (共 条)

分享到微博请遵守国家法律