欢迎光临散文网 会员登陆 & 注册

北大公开课-人工智能基础 56 机器学习的任务之回归

2023-04-04 10:38 作者:朝朝暮暮1895  | 我要投稿


在机器学习中,回归任务是指预测连续值的预测性建模问题。回归任务的目标是建立一个函数,该函数可以将输入变量映射到连续的输出变量。回归任务通常用于预测数值型数据,例如房价、股票价格、销售额等。常见的回归算法包括线性回归、多项式回归、岭回归、Lasso回归等。123


回归与分类的区别

回归任务是机器学习中的一种监督学习算法,用于预测连续型变量的值。回归任务的形式化描述如下:给定一个输入向量x,回归任务的目标是预测一个实数值y,使得y与真实值y’之间的误差最小。常见的回归算法有线性回归、多项式回归、岭回归、Lasso回归等1


得到的预测模型是一个线性函数

得到的预测模型是非线性函数

回归算法经常用于预测,用一个连续的函数去预测未来和未知

【贝叶斯线性回归】

贝叶斯线性回归是一种贝叶斯统计模型,用于建立自变量和因变量之间的关系,并考虑先验分布和后验分布等问题。它是使用统计学中贝叶斯推断方法求解的线性回归模型。在贝叶斯线性回归中,参数w不是未知定值,而是服从某一概率分布的变量。因此,贝叶斯线性回归的问题就转化为:通过训练数据D来求解参数w的后验概率分布p(w|y,X,σ2,θ);通过参数w的后验概率分布来实现新数据x_new的预测,即p(y_new|X_new,X,y,σ2)。12


【百分比回归】

百分比回归是一种回归分析方法,它是线性回归的一种扩展,可以用于处理因变量为百分数的情况。在百分比回归中,因变量是一个百分数,而自变量可以是任何类型的变量。百分比回归的目标是找到一个最佳拟合线,使得因变量的百分数与自变量之间的关系得到最佳描述。百分比回归通常使用最小二乘法进行估计,但也可以使用其他方法进行估计。12


【岭回归】

岭回归是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数,它是更为符合实际、更可靠的回归方法,对存在离群点的数据的拟合要强于最小二乘法。岭回归的核心思想是在原来的最小二乘目标函数上加上一个L2范数惩罚项,使得学习到的模型参数不会过大,避免过拟合问题。岭回归中的λ是一个可调参数,用于控制模型复杂度和拟合优度12


【什么是核岭回归?】

核岭回归算法是一种基于岭回归算法的核方法,它可以将自变量空间映射到高维特征空间,然后用岭回归方法在高维特征空间中分析和处理数据12。核岭回归算法的优点是可以处理高维、非线性、共线性等问题,提高模型的稳定性和泛化能力345

核岭回归算法的基本思想是在原来的线性回归损失函数上加上一个L2正则化项,用来限制参数的大小,减少过拟合的风险。然后,通过一个核函数将原始数据映射到一个高维的特征空间,使得数据在这个空间里更容易被线性分割。核函数的作用是计算两个数据点在特征空间中的内积,而不需要显式地构造特征空间。常用的核函数有线性核、多项式核、高斯核等12

核岭回归算法的求解过程是利用矩阵求逆变换公式,将参数向量w表示为特征矩阵Φ和目标向量y的函数,然后通过核矩阵K来代替ΦΦT,从而避免了直接求逆的困难。最后,得到预测函数f(x),它是一个关于核矩阵K和目标向量y的线性组合12


【核岭回归算法和支持向量机有什么区别?】

核岭回归算法和支持向量机的区别主要有以下几点:

  • 核岭回归算法是一种基于L2正则化的线性回归模型,而支持向量机是一种基于间隔最大化的分类模型12

  • 核岭回归算法的损失函数是最小二乘法,而支持向量机的损失函数是合页损失函数12

  • 核岭回归算法的目标是找到一个条状区域,使得该区域内的点没有损失,该区域外的点的损失是到区域边界的距离,而支持向量机的目标是找到一个超平面,使得该超平面两侧的点到超平面的距离最大12

  • 核岭回归算法的参数向量w是稠密的,即大部分元素都不为零,而支持向量机的参数向量α是稀疏的,即大部分元素都为零12

  • 核岭回归算法在预测时需要用到所有的样本点,而支持向量机在预测时只需要用到支持向量,即距离超平面最近的点12

【核岭回归有什么经典的应用场景?】

核岭回归算法的应用场景主要有以下几点:

  • 核岭回归算法可以用于处理高维、非线性、共线性等问题,提高模型的稳定性和泛化能力123

  • 核岭回归算法可以用于进行非线性回归,通过核函数将原始数据映射到一个高维的特征空间,使得数据在这个空间里更容易被线性分割123

  • 核岭回归算法可以用于进行特征选择,通过正则化参数λ来控制模型的复杂度,从而筛选出对模型贡献较大的特征23

  • 核岭回归算法可以用于进行多任务学习,通过共享核矩阵来实现多个相关任务的同时学习,提高学习效率和准确度3

一些具体的应用场景包括:

  • 核岭回归算法可以用于进行图像重建,通过将图像分解为低秩部分和稀疏部分,然后利用核岭回归算法来恢复低秩部分。

  • 核岭回归算法可以用于进行生物信息学中的基因表达预测,通过将基因表达数据映射到一个高维的核空间,然后利用核岭回归算法来预测新的基因表达水平。

  • 核岭回归算法可以用于进行金融市场中的股票价格预测,通过将股票价格数据映射到一个高维的核空间,然后利用核岭回归算法来预测未来的股票价格走势。

【核岭回归算法可以用于进行金融市场中的股票价格预测,通过将股票价格数据映射到一个高维的核空间,然后利用核岭回归算法来预测未来的股票价格走势。——能否详细解释一下具体的方法?】

核岭回归算法用于进行金融市场中的股票价格预测的具体方法大致如下:

  • 首先,需要收集股票价格的历史数据,以及可能影响股票价格的其他因素,如市场指数、宏观经济、公司财报等。

  • 其次,需要对数据进行预处理,如缺失值处理、异常值处理、特征选择、特征标准化等。

  • 然后,需要选择一个合适的核函数,将数据映射到一个高维的特征空间,使得数据在这个空间里更容易被线性分割。

  • 接着,需要确定一个合适的正则化参数λ,用于控制模型的复杂度和泛化能力。

  • 最后,需要利用核岭回归算法来拟合训练数据,并用拟合出的模型来预测测试数据或未来数据的股票价格。

一些参考资料如下:

  • python 岭回归算法之回归实操 - 知乎1

  • 【机器学习】岭回归(Kernel Ridge Regression)附python代码_核岭回归代码_圈外人的博客-CSDN博客2

  • 没忍住,还是用机器学习预测了一下股票 - 知乎3

没忍住,还是用机器学习预测了一下股票 - 知乎 (zhihu.com)

——

总结

本文尝试了用LSTM预测股票的收盘价格,预测的结果误差很小,但是该预测无法用于实战。原因如下:

  1. 结果误差虽然很小,但是这是统计值,一次预测失误就可能让你"梭哈"血本全无

  2. 从预测曲线上看,该“预测”还是很蠢,有明显的滞后性,比如昨天涨了,LSTM预测明天会涨。

  3. LSTM的精度竟然比不过“很傻很天真”的预测方式。

股票准不准,其实是个没用的“指标”,因为预测误差差一丢丢,都可能全盘皆输。股票是基于策略的,哪怕预测价格不准,但是预测大致的涨与跌,就可获利。所以,基于策略的强化学习会是很好的方向。

所以本文就是个"LSTM教程”,至于预测股票,就当是个笑话。


【支撑向量回归】

支撑向量回归(SVR)是一种监督学习算法,用于预测连续值。与线性回归不同,SVR 能容忍模型输出与真实值最多有 ε 的误差,只有模型输出与真实值的误差超过 ε 时才去计算损失值1。SVR 背后的基本思想是找到最佳拟合线。在 SVR 中,最佳拟合线是点数最多的超平面2


【分位数回归】

分位数回归是线性回归的扩展,当不满足线性回归的条件(即线性,均方差,独立性或正态性)时使用。分位数回归将数据按因变量进行拆分成多个分位数点,研究不同分位点情况下时的回归影响关系情况123


【回归树】

回归树是一种决策树,用于回归问题。它将数据集分成多个区域,每个区域都拟合一个常数。这些常数是通过最小化区域内的平方误差来确定的。回归树的优点是可以处理非线性关系,而且不需要对数据进行任何变换。它的缺点是容易过度拟合,因此需要进行剪枝123


【级联相关回归】

级联相关是一个术语,可以用于不同的领域。在计算机网络中,级联可以定义为两台或两台以上的交换机通过一定的方式相互连接,根据需要,多台交换机可以以多种方式进行级联。在深度学习中,级联是指将多个分类器级联起来,以提高分类性能。在神经网络中,级联相关神经网络是从一个小网络开始,自动训练和添加隐含单元,最终形成一个多层的结构123


【分组方法数据处理回归】

分组方法数据处理回归是一种数据分析方法,它可以用于探究自变量和因变量之间的关系,并且可以考虑到调节变量的影响。在分组方法数据处理回归中,数据会被分成不同的组别,每个组别内部的数据会被用来进行回归分析。这种方法可以用来探究不同组别之间的差异,以及不同自变量对因变量的影响是否存在差异123


【多元自适应回归样条】

多元自适应回归样条(Multivariate Adaptive Regression Splines,MARS)是一个回归问题的自适应过程,非常适用于高维问题中(即有大量的输入变量)1。MARS主要处理高维度(待回归项比较多)回归问题,可将它视为一个对逐步线性回归的推广,或对CART的增强在回归问题中表现的改进2

MARS方法以样条函数的张量积作为基函数,分为前向过程、后向剪枝过程与模型选取三个步骤。其优势在于能够处理数据量大、维度高的数据集,并且能够自动选择重要变量3


【多元线性插值回归】

多元线性插值回归是一种回归分析方法,它是在多元线性回归的基础上,将自变量与因变量之间的关系用插值函数来描述,从而得到一个连续的函数模型。多元线性插值回归的主要思想是利用已知数据点之间的连续性,通过插值函数来描述自变量与因变量之间的关系,从而得到一个连续的函数模型

北大公开课-人工智能基础 56 机器学习的任务之回归的评论 (共 条)

分享到微博请遵守国家法律