机器学习与大数据技术
上QQ阅读APP看书,第一时间看更新

2.1 回归分析与最小二乘法

在有监督学习任务中,若预测变量为离散变量,则称其为分类问题;而预测变量为连续变量时,则称其为回归问题。

回归分析是一种用于确定两种或两种以上变量间相互依赖关系的统计分析方法。按照问题所涉及变量的多少,可将回归分析分为一元回归分析和多元回归分析;按照自变量与因变量之间是否存在线性关系,分为线性回归分析和非线性回归分析。如果在某个回归分析问题中,只有两个变量,一个自变量和一个因变量,且自变量与因变量之间的函数关系能够用一条直线来近似表示,那么称其为一元线性回归分析。

回归分析的基本步骤如下:

① 分析预测目标,确定自变量和因变量;

② 建立合适的回归预测模型;

③ 相关性分析;

④ 检验回归预测模型,计算预测的误差;

⑤ 计算并确定预测值。

最小二乘法又称为最小平方法,是一种常用的数学优化方法。最小二乘法的原理是通过最小化误差平方和寻找与数据匹配的最佳函数。最小二乘法的应用十分广泛,既可以用于参数估计,也可以用于曲线拟合,以及一些其他的优化问题。

下面以一元线性回归问题为例,来解释最小二乘法的具体用法。

对于一元线性回归模型,假设从总体中获取了n组观察值(xi,yi),i=1,2,",n,其中xi,yiR。那么这n组观察值在二维平面直角坐标系中对应的就是平面中的n个点,此时有无数条曲线可以拟合这n个点。通常情况下,希望回归函数能够尽可能好地拟合这组值。综合来看,当这条直线位于样本数据的中心位置时似乎最合理。因此,选择最佳拟合曲线的标准可确定为:总拟合误差(即总残差)最小。对于总拟合误差,有3个标准可供选择。

(1)用“残差和”表示总拟合误差,但“残差和”会出现相互抵消的问题。

(2)用“残差绝对值”表示总拟合误差,但计算绝对值相对较为麻烦。

(3)用“残差平方和”表示总拟合误差。最小二乘法采用的就是按照“残差平方和最小”所确定的直线。用“残差平方和”计算方便,而且对异常值会比较敏感。

假设回归模型(拟合函数)为:

则样本(xi,yi)的误差为:

其中 f(xi)为xi的预测值(拟合值),yixi对应的实际值。

最小二乘法的损失函数Q也就是残差平方和,即:

通过最小化Q来确定直线方程,即确定β0和β1,此时该问题变成了求函数Q的极值问题。根据高等数学的知识可知,极值通常是通过令导数或者偏导数等于0而得到,因此,求Q关于未知参数β0和β1的偏导数:

通过令偏导数为0,可求解函数的极值点,即:

将样本数据(xi,yi),i=1,2,",n代入,即可得到的具体值。这就是利用最小二乘法求解一元线性回归模型参数的过程。