机器学习——分类问题
2023-06-14 23:23 作者:Vector永远的神 | 我要投稿
分类问题可以视为离散的二分类问题,logistic回归算法可以很好的解决这类问题,其中一个简化的模型函数就Sigmoid函数。

对于二分类问题,输入的若干特征值区间范围可能会很大,但是输出值/预测值一般可以表示为0或1,那么就需要通过中间函数将输入区间压缩成[0,1]区间进行输出,根据距离0,1的距离来决定输出的概率大小。这个过程中平滑的sigmoid函数通常会成为首选。
在特征点所构成的空间内,如果决策边界是线性边界的画,通常是自变量的一次项即可完成分割目标。但是当决策边界是非线性的时候,就得添加高次自变量项来完成非线性决策边界。
由于输出的概率大小与距离有关,那么预测的损失函数是必不可少的。离散型分类问题,损失函数就分成两种情况来分别说,距离正确值越远就代表偏差越大,代价肯定不是随着偏差线性变化的,而是爆炸性变化的,指数函数在靠近0的时候恰好满足这个要求。

关于求最值的问题,一般是让损失函数最小的情况就是目标收敛,通常就是梯度下降的方式,可能会陷入局部最优解,可以调用一些其他算法来解决这个问题,这里就不多赘述了。
对于离散值的多分类问题,可以使用多个二分类模型来进行解决,在最后综合所有的输出模型之后,选择概率最大的那个结果输出即可。