欢迎光临散文网 会员登陆 & 注册

《终极算法》读书随笔(Day2)

2023-02-26 12:59 作者:豆腐今天欺负皮蛋了没  | 我要投稿

符号学派

  • NFL(No Free Lunch Theorems) 没有免费的午餐定理

在认识或了解 machine learing 或 AI 的概念后,通常会想到,如果能有一个可以处理所有问题的 AI,那麽就可以解决所有问题,那就能省去大量人力,大家都不用工作了。这是一个寻找 AI 的通用演算法的问题,只要能有一个超强的演算法,那就能很快地制造出符合不同需求的 AI 机器人。

但是在寻找这个演算法以前,我们要先知道,已经有人用了数学的方法,证明了并不存在一个能一统天下的 AI 演算法模型,这就是 NFL(No Free Lunch Theorems) 没有免费的午餐定理。

NFL定理,想要表达的是,在不考虑具体问题的情况下,没有任何一个算法比另一个算法更优,甚至直接胡乱猜测还会更好。我们无法去讨论哪一个演算法比较好,但如果针对某个具体的特定的问题,确实可找到表现比较好的机器学习演算法,但这个演算法,却无法解决其他的问题。

也可以说如果我们对要解决的问题一无所知,且并假设其分佈完全随机且平等,那麽任何演算法的预期性能都是相似的。在某个领域、特定假设下表现卓越的演算法,不一定在另一个领域也能是最厉害的。正因如此,我们才需要研究和发明更多的机器学习算法来处理不同的假设和数据,也就是处理不同的问题。

  • 合取概念(conjunctive concept):合取概念是根据一类事物中单个或多个同时存在,缺一不可的属性形成的概念;

    • 例如,“毛笔”这个概念必须 同时具有两个属性,“用毛制作的”和“写字的工具”。

  • 析取概念(disjunctive concept):是指根据不同的标准,结合单个或多个属性所形成的概念。按析取规则构成的概念。包含的事物可同时具备两个要求的属性,也可只涉及其中之。

    • 例如,“好学生”这个概念可以结合各种属性,如“努力学习、成绩好”、“热爱集体、关心他人、有礼貌”等。一个学生同时具有这些属性固然是好学生,只有其中的两三种属性也是好学生,所以“好学生”是一个析取概念。

  • 过拟合:过拟合是指为了得到一致假设而使假设变得过度严格。

  • Overfitting is a concept in data science, which occurs when a statistical model fits exactly against its training data. When this happens, the algorithm unfortunately cannot perform accurately against unseen data, defeating its purpose.

  • The essence of overfitting is to have unknowingly extracted some of the residual variation (i.e., the noise) as if that variation represented underlying model structure.

  • 打个很简单的比方来说明什么是“过拟合”:浣熊在漫长的进化过程中学会了用水洗东西吃,这个习性也许被证实在野外生活中带给了它们非常多的好处,直到有一天,一只倒霉的浣熊得到了一朵自然界中并不存在的棉花糖。

  • “过拟合”背后的根本原因是:在不断的学习之中,发现了很高的相关性,屡试不爽之下,就用相关性代替了因果关系。

  • 在你的模型获得降低复杂性的好处的同时,也失去了对于系统中因果链条的追溯能力。导致的结果,在系统发展到某个特定的点开始,你的模型已经不能很好的拟合需要应对的实际情况了。

  • 但这个错误本身并不致命,致命的是你会对此一无所知——因为抛弃了原始信息,你的因果链断了,反馈也就随之失效了,所以你的模型失去了发现真实世界并同步改进的能力。然后它在自己理解的“绝对正确”的方向上继续一路狂奔下去,直到把自己葬送掉。

  • 概率近似正确学习(probably approximately correct learning):PAC Learning不是一个模型,而是对各类算法模型可学习性的一个证明。

  • 显著性检验:显著性检验的目的是评估数据是否提供了足够证据,可以支持这类断言。也就是说,显著性检验可以帮助我们弄清楚,我们是否的确找到了想要找的东西。 要做到这一点,我们就必须知道,若断言不正确会发生什么状况。

  • 奥卡姆剃刀(Ockham's razor ):简单地说,奥卡姆剃刀定律的内容就是:保持事情的简单性,抓住根本、解决实质,不要人为地把事情复杂化,这样我们才能更快、更有效率地将事情处理好。

  • 偏差(Bias)与方差(Variance)

    • 偏差:预测值和真实值之间的误差

    • 方差:预测值之间的离散程度


《终极算法》读书随笔(Day2)的评论 (共 条)

分享到微博请遵守国家法律