上一篇文章介绍了统计学中的单变量线性回归及其在Excel中的实际操作。 本文介绍多元线性回归分析。
线性回归分析是统计学中非常重要的统计分析方法。 从处理的变量数量来看,如果研究两个变量之间的关系,则称为线性回归分析。 如果研究两个或多个变量之间的关系,则称为多元线性回归分析。
一个例子
某大型商业银行在多个地区设有分支机构,业务主要涉及基础设施建设、国家重点工程建设、固定资产投资等项目贷款。 近年来,该行贷款金额稳步增长,但不良贷款金额也有较大比例增长,这给银行业务发展带来了较大压力。 为了明确不良贷款形成的原因,管理者希望利用银行业务的相关数据做一些定量分析,以找到控制不良贷款的方法。 下表为该行25家分行的相关业务数据。
以不良贷款为y,其他变量为x,贷款余额x1,累计应收贷款x2,贷款项目数x3,固定资产投资额x4,建立线性回归方程。
多元线性回归方程和最小二乘法
多元线性回归方程为:
需要求出方程的常数项和回归系数,一般采用最小二乘法求解。
一变量线性回归方程是在空间直角坐标系中可以画出的一条直线。 多元线性回归则不同。 为了更形象地理解,这里考虑二元回归。 二元回归方程是三维空间中的一个平面,如下图所示。
现在我们需要找到一个平面来拟合空间中的观察点。 求多元线性回归方程的方法仍然是最小二乘法。 如果你对其数学原理和计算不感兴趣,可以不用管它,因为它通常是通过Excel、SPSS等工具进行回归分析,这些工具可以直接给出结果!
评估回归结果
1. 拟合优度
与一元线性回归类似,多元线性回归也使用多个确定系数来衡量回归方程的拟合优度。
注意,这里是多重决定系数,在线性回归分析中称为决定系数。
与单次线性回归类似,多元线性回归也有误差平方和。
总平方和 (SST) = 回归平方和 (SSR) + 残差平方和 (SSE)
多重决定系数的定义:
由于多元线性回归涉及多个自变量,自变量数量的增加会影响多重决定系数,因此需要调整的多重决定系数定义如下:
说明:为什么需要多个决定系数? 一个流行的解释是,自变量越多,提供的信息越多,回归方程就越准确。 但是,它违反了简单性原则,所以不能盲目增加自变量。
2.显着性检验
与一元线性回归类似,多元线性回归中的显着性检验也包括以下两个方面:线性关系检验和回归系数检验。
不同的是,在线性回归中,线性关系的检验相当于回归系数的检验,因为只有一个自变量。
多元线性回归中,有多个自变量,两者不再等价,因为线性关系的检验反映的是整体情况。 只要自变量和因变量存在显着的线性关系,就可以通过检验,而回归系数的检验则需要对每个回归系数分别进行检验。 经常会出现一些自变量未能通过检验的情况。 这也是后面要提到的多重共线性问题。
阐明:
线性关系检验主要关注F分布的P值,回归系数检验主要关注t分布的P值。 具体理论这里省略,因为Excel可以直接给出对应的P值。 判断的原则是P值越小越好。 ,一般小于0.05即可满足要求。
实际操作:使用Excel进行多元线性回归分析
在数据分析中选择回归:
在Y值输入区域中,选择“不良贷款”。 在“列”中,使用默认的 95% 置信水平,对于残差部分,选中“残差”、“残差图”、“线性拟合图”并确认。
得到如下分析结果:
在上面的结果中,决定系数和显着性检验的结果显示在黄色区域中。
由上可以看出,多重判定系数为0.798,调整后的多重判定系数为0.71,表明两者之间存在较强的线性关系。
线性关系检验,显着性水平远小于0.05,通过显着性检验。
在回归系数检验中,有4个回归系数。 只有第一个回归系数的显着性水平小于0.05,才能通过显着性检验; 其余3个回归系数显着性水平大于0.05,无法通过显着性检验。 这意味着以下三个自变量对不良贷款的预测作用不大。
此外,第四个回归系数“本年固定资产投资”为负,表明本年固定资产投资与不良贷款呈负相关。 事实上,从常识来看,今年固定资产投资越大,不良贷款也越大。 (这可以通过对固定资产投资和不良贷款进行线性回归分析来验证)。 这是由多重共线性问题引起的。 接下来我们来解释一下多重共线性问题。
多重共线性问题
1.什么是多重共线性?
当模型中两个或多个自变量相互相关时,就称回归分析中存在多重共线性问题。
2. 多重共线性会带来哪些问题?
(1)回归分析结果混乱:如上例,线性关系显着性检验可以通过,但其中有3个回归系数未通过显着性检验。
(2)对回归系数符号的影响:如上例,今年固定资产投资额与不良贷款呈负相关,与实际情况相矛盾。
3. 如何识别多重共线性?
比较常用的是VIF(·),即方差扩展因子。
一般认为,当VIF大于10时,存在严重的多重共线性。
解决多重共线性问题:逐步回归
解决多重共线性问题的核心:建模前,选择变量,使进入模型的自变量尽可能不相关。
选择自变量的原则:在回归模型中引入一个或多个自变量是否能够显着降低残差平方和(SSE)。 常用的选择变量的方法主要有:前向回归、后向回归、逐步回归、岭回归等。
正向选择:从零开始,不断增加自变量,直到SSE无法增加。
向后选择:从包含所有变量开始,继续减少自变量,直到 SSE 无法增加。
逐步回归:结合以上两种方法筛选自变量。
由于Excel无法完成逐步回归,下面使用SPSS进行逐步回归。
逐步回归法SPSS实操
使用SPSS的逐步回归分为以下三个步骤:
1. 分析-回归-线性
2.添加自变量和因变量并选择逐步回归
3、根据指标VIF进行筛选,从后到前选择合适的型号。
具体操作如下:
1. 分析-回归-线性
2.添加自变量和因变量并选择逐步回归
在窗口中勾选“共线性诊断”
3、根据指标VIF进行筛选,从后到前选择合适的型号。
获得了两个模型。 上表的最后一列是VIF。 一般来说,当VIF大于10时,模型存在严重的多重共线性问题。 这里选择第二个型号就可以了。
从上表可以看出,第二个模型引入了两个自变量,分别是各项贷款余额和本年固定资产投资额。 表的第二列给出了线性回归方程的常数项和回归系数。
写出多元线性回归方程:
y=-0.443+0.050*x1-0.032*x2
注:上式中,y代表不良贷款,x1代表各项贷款余额,x2代表本年固定资产投资额。
总结:
多元线性回归涉及多重共线性问题,一般采用逐步回归来筛选变量。 这里使用SPSS进行逐步回归。
您在日常工作中使用过多元线性回归吗? 欢迎留言评论!