这篇文章作为自己对回归分析的回顾吧,估计很多理解是有问题的。另外因为精力的原因,想到哪里就写到哪里,关于内容的结构就不做更多的设计了。
统计数据分析通常要从回归分析入门,而回归分析一般从线性回归入门。倒不是说线性回归简单,而是线性回归最容易理解,其结果也特别容易进行解释。
多元线性回归的概述
多元线性回归顾名思义就是线性模型的形式,这个名称里面实际上隐含这其假设是模型的形式是线性的。即:
The regression model is linear in the parameters!
那么多元回归模型表示为:
$$
y = \beta_0+\beta_1x_1+\beta_2x_2+ \cdots + \beta_px_p +\mu
$$
多元线性回归的任务就是把这个模型的参数\(\beta_i\)估计出来。
统计分析建模是建立在假设之上的,这也是统计分析与机器学习的主要差异之一。例如,机器学习中利用逻辑回归来做分类预测,并不需要对模型进行检验,而是强调模型的预测效果如何。对于模型的评价以及改进也是主要基于模型的预测结果,Python中的机器学习包对于回归的结果中就不包含各种统计的检验。
这种思想对于秉承统计思维的朋友是不可想象的。我想:这种思想方法的差异主要在于统计方法建立的时间比较早,数据规模比较小,而机器学习方法本身就是建立在大规模数据的基础之上,在大数据的条件下,检验的工作已经不再必要。另外,统计学的研究者主要是通过数学的方法,而机器学习的研究者则是工程方法,也算是造成这种差异的原因之一吧。
回到多元线性回归模型的假设上来。通常统计模型的假设包括如下几种:
- 关于模型关系的假设
- 线性关系的假设。
- 关于解释变量的假设
- 确定性假设,即解释变量不是随机的。
- 不相关假设,解释变量与随机项不相关。
- 无共线假设,解释变量之间不存在多重共线性。
- 关于随机项的假设
- 0均值假设,即\(E(\mu_i)=0\)
- 同方差假设,即 \(Var(\mu_i)=\sigma\)
模型假设很重要,因为在模型的构建、估计和预测都是基于这些假设,如果假设条件跟实际的数据不相符,那么得到的结果无论多好都是错误的。因此,模型估计之后,需要对得到的结果进行检验,如果检验的结果与假设不相符,就要对模型好好检查了。
由此我们可以看出,多元线性回归的基本任务就是:
构建模型 ⇒ 参数估计 ⇒ 模型检验 ⇒ 模型预测