多元线性回归的概述

多元线性回归顾名思义就是线性模型的形式，这个名称里面实际上隐含这其假设是模型的形式是线性的。即：

The regression model is linear in the parameters！

那么多元回归模型表示为:
$$
y = \beta_0+\beta_1x_1+\beta_2x_2+ \cdots + \beta_px_p +\mu
$$

多元线性回归的任务就是把这个模型的参数$\beta_i$估计出来。

统计分析建模是建立在假设之上的，这也是统计分析与机器学习的主要差异之一。例如，机器学习中利用逻辑回归来做分类预测，并不需要对模型进行检验，而是强调模型的预测效果如何。对于模型的评价以及改进也是主要基于模型的预测结果，Python中的机器学习包对于回归的结果中就不包含各种统计的检验。
这种思想对于秉承统计思维的朋友是不可想象的。我想：这种思想方法的差异主要在于统计方法建立的时间比较早，数据规模比较小，而机器学习方法本身就是建立在大规模数据的基础之上，在大数据的条件下，检验的工作已经不再必要。另外，统计学的研究者主要是通过数学的方法，而机器学习的研究者则是工程方法，也算是造成这种差异的原因之一吧。

回到多元线性回归模型的假设上来。通常统计模型的假设包括如下几种：

关于模型关系的假设
- 线性关系的假设。
关于解释变量的假设
- 确定性假设，即解释变量不是随机的。
- 不相关假设，解释变量与随机项不相关。
- 无共线假设，解释变量之间不存在多重共线性。
关于随机项的假设
- 0均值假设，即$E(\mu_i)=0$
- 同方差假设，即 $Var(\mu_i)=\sigma$

模型假设很重要，因为在模型的构建、估计和预测都是基于这些假设，如果假设条件跟实际的数据不相符，那么得到的结果无论多好都是错误的。因此，模型估计之后，需要对得到的结果进行检验，如果检验的结果与假设不相符，就要对模型好好检查了。

由此我们可以看出，多元线性回归的基本任务就是：

构建模型 ⇒ 参数估计 ⇒ 模型检验 ⇒ 模型预测