自学机器学习(西瓜书)吐槽和经验
1.书的存在的主要问题
书写风格很像小说,导致知识点不突出。而统计学习方法看起来更像一本数学书
公式很难理解,跳步很多,解释很少,经常卡壳
不适合零基础小白,
对于学过数学三件套(高数+线性代数+概率)来说问题可以解决,但依旧很难读懂,问题转化为书的表达问题
1.1 公式难以理解
公式难以理解的一个原因是省略很多步骤,缺少必要解释
比如NFL公式难以理解
我们抛硬币有正反面
样本点:正、反
样本空间:
随机事件:A=硬币投掷为正
随机事件的概率P(A):硬币投掷为正的概率
随机变量:将样本点映射为实数的函数,如X(正)=1,X(反)=0 p(X=0)反面向上的概率
随机变量X的数学期望为
若Y是随机变量X的函数Y=g(X)
让我们回到指示函数:
样本点:
样本空间:
随机事件:A=模型的预测和实际不符
h(X):表示模型的预测值,f(X)表示实际值
随机事件的概率P(A)=P(f(X)\neq h(X)):模型的预测和实际不符的概率
令随机变量
)
样本集X以外表示为
,即样本空间和训练集的差
训练集外的预测和实际不符数学期望,即假设函数h在训练集之外的所有样本上预测的错误率。
如果假设空间为
即在算法的假设空间中可能会存在多个假设函数与训练集一致
:在算法和训练家确定情况下的模型为h概率
期望为
假设训练集外有m个样本那么其均值为
形式上就和分类错误率就很相似了。
所以指示函数本质上就是一个随机变量的函数分布
1.2 重点不突出
一般国内教材都是概念+解释,自成一段落,而这本书不是,需要单独提炼重点。
2.小白如何学西瓜书?
1.数学基础
概率统计>线性代数>高等数学
机器学习更像是多元统计分析+扩展学习算法+优化算法如梯度下降、牛顿法等。
每章要求的数学知识
第一章 概述:多元随机变量分布、函数分布、期望->NFL
第二章 模型评估和选择(难):期望、方差,最难的就是假设检验了,不会假设检验,就会看的头大,正态分布,两个重要极限
第三章 线性模型:矩阵求导,无约束的条件极值,矩阵的秩,极大似然估计,凸优化的牛顿法,范数
第四章 决策树:信息论中的信息熵
第五章 神经网络:矩阵乘法,凸优化的梯度下降法,偏导数以及复合函数偏导数
第六章SVM(难):拉格朗日对偶,拉格朗日乘子
第七章 朴素贝叶斯(难):贝叶斯方法、极大似然估计、统计推断
第八章 集成学习(难):相关性。
第九章 聚类
可以看出概率统计占大头,其次是凸优化理论。需要重点学。
2.一些相关资料
南瓜书:必备,很多西瓜书看不懂公式就可以标记一下,然后去看南瓜书,电子版就可以,当成字典一样
北邮的机器学习课程
3.学习经验
数学不需要向本科那样学,知道概念就行,不需要会算题
第一遍,看视频+看书,大概率会很痛苦,不求甚解,对照南瓜书看公式,实在不会标记一下,都看完一遍就有大概印象