欢迎光临散文网 会员登陆 & 注册

机器学习——模型评估与选择

2022-10-27 21:21 作者:Vector永远的神  | 我要投稿

    首先是说一个基本的概念 NFL No Free Lunch Theorem 没有免费的午餐,无论怎样的学习算法,它们的误差期望都是相同的,在全体问题上所有的算法所表现出来的性能期望是一样的。但是针对我们具体研究的问题是存在差异性的,要限定研究范围,具体问题具体分析。

    模型的实际输出与真实样本之间的差异称为误差,在训练集上的表现称为经验误差,在新样本上的差异称为泛化误差。模型改进的方向就是努力降低经验误差,可以通过测试集的方法来检验模拟泛化误差。如果对于训练集样本的学习能力过于强大,则会出现过拟合现象,指的是把训练样本的特性当作一般规律去看待,导致模型的泛化能力减弱。欠拟合就是在训练集上训练不到位,一般的共同特征都尚未发现学习。

    测试集的选择方式有很多,但是由于NFL的规律限制,一般是采用留出法进行,使用训练集上的误差来作为泛化误差的近似,就需要保证训练的数据集与测试的数据集相关,但不能大量重复出现,也就类似于独立同分布中进行采集得到,强化模型的“举一反三”的能力。

    一般的方式是针对不同的真实结果,采用分层抽样的原则从初始数据集中抽取少量样本用做测试,使用同样的方法抽取剩下的样本用作训练集。

    性能度量来评判模型的泛化能力,回归任务一般就是使用方差来作为度量指标,离散型和连续性。

    错误率和精度就是相加等于一,为了补充则添加了查准率和查全率的定义概念,在二元正反分类问题中,查准率指的是在预测正例中,真实正例地比率,查全率指的是在真实正例中,预测正例所占的比率。

    一般情况下,二者是相互矛盾的,这是由于模型在分类筛选过程中地尺度问题所决定的,尺度宽松则查全率高而查准率低。

    用这两个定义分别作为横轴和纵轴画出P-R图,如果说A模型的曲线可以完全包住B模型的曲线,则可以认为A模型的性能优于B模型。

    关于这个两个模型的比较优劣的方法,有很多数学公式,可以进一步地去看,我不太会概率统计,如果以后用到就直接比较测试集准确率和计算时间了。

    欢迎大家三连催更。

机器学习——模型评估与选择的评论 (共 条)

分享到微博请遵守国家法律