多元线性回归分析与SPSS实操

 2024-02-17 03:01:31  阅读 0

上一篇文章介绍了统计学中的单变量线性回归及其在Excel中的实际操作。 本文介绍多元线性回归分析。

线性回归分析是统计学中非常重要的统计分析方法。 从处理的变量数量来看,如果研究两个变量之间的关系,则称为线性回归分析。 如果研究两个或多个变量之间的关系,则称为多元线性回归分析。

一个例子

某大型商业银行在多个地区设有分支机构,业务主要涉及基础设施建设、国家重点工程建设、固定资产投资等项目贷款。 近年来,该行贷款金额稳步增长,但不良贷款金额也有较大比例增长,这给银行业务发展带来了较大压力。 为了明确不良贷款形成的原因,管理者希望利用银行业务的相关数据做一些定量分析,以找到控制不良贷款的方法。 下表为该行25家分行的相关业务数据。

spss的回归分析f值是什么_回归分析spss解读_spss回归分析数据解读

以不良贷款为y,其他变量为x,贷款余额x1,累计应收贷款x2,贷款项目数x3,固定资产投资额x4,建立线性回归方程。

多元线性回归方程和最小二乘法

多元线性回归方程为:

需要求出方程的常数项和回归系数,一般采用最小二乘法求解。

一变量线性回归方程是在空间直角坐标系中可以画出的一条直线。 多元线性回归则不同。 为了更形象地理解,这里考虑二元回归。 二元回归方程是三维空间中的一个平面,如下图所示。

回归分析spss解读_spss回归分析数据解读_spss的回归分析f值是什么

现在我们需要找到一个平面来拟合空间中的观察点。 求多元线性回归方程的方法仍然是最小二乘法。 如果你对其数学原理和计算不感兴趣,可以不用管它,因为它通常是通过Excel、SPSS等工具进行回归分析,这些工具可以直接给出结果!

评估回归结果

1. 拟合优度

与一元线性回归类似,多元线性回归也使用多个确定系数来衡量回归方程的拟合优度。

注意,这里是多重决定系数,在线性回归分析中称为决定系数。

与单次线性回归类似,多元线性回归也有误差平方和。

总平方和 (SST) = 回归平方和 (SSR) + 残差平方和 (SSE)

回归分析spss解读_spss回归分析数据解读_spss的回归分析f值是什么

多重决定系数的定义:

由于多元线性回归涉及多个自变量,自变量数量的增加会影响多重决定系数,因此需要调整的多重决定系数定义如下:

说明:为什么需要多个决定系数? 一个流行的解释是,自变量越多,提供的信息越多,回归方程就越准确。 但是,它违反了简单性原则,所以不能盲目增加自变量。

2.显着性检验

与一元线性回归类似,多元线性回归中的显着性检验也包括以下两个方面:线性关系检验和回归系数检验。

不同的是,在线性回归中,线性关系的检验相当于回归系数的检验,因为只有一个自变量。

多元线性回归中,有多个自变量,两者不再等价,因为线性关系的检验反映的是整体情况。 只要自变量和因变量存在显着的线性关系,就可以通过检验,而回归系数的检验则需要对每个回归系数分别进行检验。 经常会出现一些自变量未能通过检验的情况。 这也是后面要提到的多重共线性问题。

阐明:

线性关系检验主要关注F分布的P值,回归系数检验主要关注t分布的P值。 具体理论这里省略,因为Excel可以直接给出对应的P值。 判断的原则是P值越小越好。 ,一般小于0.05即可满足要求。

实际操作:使用Excel进行多元线性回归分析

在数据分析中选择回归:

spss回归分析数据解读_回归分析spss解读_spss的回归分析f值是什么

在Y值输入区域中,选择“不良贷款”。 在“列”中,使用默认的 95% 置信水平,对于残差部分,选中“残差”、“残差图”、“线性拟合图”并确认。

spss回归分析数据解读_spss的回归分析f值是什么_回归分析spss解读

得到如下分析结果:

在上面的结果中,决定系数和显着性检验的结果显示在黄色区域中。

由上可以看出,多重判定系数为0.798,调整后的多重判定系数为0.71,表明两者之间存在较强的线性关系。

线性关系检验,显着性水平远小于0.05,通过显着性检验。

在回归系数检验中,有4个回归系数。 只有第一个回归系数的显着性水平小于0.05,才能通过显着性检验; 其余3个回归系数显着性水平大于0.05,无法通过显着性检验。 这意味着以下三个自变量对不良贷款的预测作用不大。

此外,第四个回归系数“本年固定资产投资”为负,表明本年固定资产投资与不良贷款呈负相关。 事实上,从常识来看,今年固定资产投资越大,不良贷款也越大。 (这可以通过对固定资产投资和不良贷款进行线性回归分析来验证)。 这是由多重共线性问题引起的。 接下来我们来解释一下多重共线性问题。

多重共线性问题

1.什么是多重共线性?

当模型中两个或多个自变量相互相关时,就称回归分析中存在多重共线性问题。

2. 多重共线性会带来哪些问题?

(1)回归分析结果混乱:如上例,线性关系显着性检验可以通过,但其中有3个回归系数未通过显着性检验。

(2)对回归系数符号的影响:如上例,今年固定资产投资额与不良贷款呈负相关,与实际情况相矛盾。

3. 如何识别多重共线性?

spss回归分析数据解读_spss的回归分析f值是什么_回归分析spss解读

比较常用的是VIF(·),即方差扩展因子。

一般认为,当VIF大于10时,存在严重的多重共线性。

解决多重共线性问题:逐步回归

解决多重共线性问题的核心:建模前,选择变量,使进入模型的自变量尽可能不相关。

选择自变量的原则:在回归模型中引入一个或多个自变量是否能够显着降低残差平方和(SSE)。 常用的选择变量的方法主要有:前向回归、后向回归、逐步回归、岭回归等。

正向选择:从零开始,不断增加自变量,直到SSE无法增加。

向后选择:从包含所有变量开始,继续减少自变量,直到 SSE 无法增加。

逐步回归:结合以上两种方法筛选自变量。

spss的回归分析f值是什么_回归分析spss解读_spss回归分析数据解读

由于Excel无法完成逐步回归,下面使用SPSS进行逐步回归。

逐步回归法SPSS实操

使用SPSS的逐步回归分为以下三个步骤:

1. 分析-回归-线性

2.添加自变量和因变量并选择逐步回归

3、根据指标VIF进行筛选,从后到前选择合适的型号。

具体操作如下:

1. 分析-回归-线性

2.添加自变量和因变量并选择逐步回归

spss回归分析数据解读_spss的回归分析f值是什么_回归分析spss解读

在窗口中勾选“共线性诊断”

spss的回归分析f值是什么_spss回归分析数据解读_回归分析spss解读

3、根据指标VIF进行筛选,从后到前选择合适的型号。

spss回归分析数据解读_spss的回归分析f值是什么_回归分析spss解读

获得了两个模型。 上表的最后一列是VIF。 一般来说,当VIF大于10时,模型存在严重的多重共线性问题。 这里选择第二个型号就可以了。

从上表可以看出,第二个模型引入了两个自变量,分别是各项贷款余额和本年固定资产投资额。 表的第二列给出了线性回归方程的常数项和回归系数。

写出多元线性回归方程:

y=-0.443+0.050*x1-0.032*x2

注:上式中,y代表不良贷款,x1代表各项贷款余额,x2代表本年固定资产投资额。

总结:

多元线性回归涉及多重共线性问题,一般采用逐步回归来筛选变量。 这里使用SPSS进行逐步回归。

您在日常工作中使用过多元线性回归吗? 欢迎留言评论!

标签: 回归 线性 系数

如本站内容信息有侵犯到您的权益请联系我们删除,谢谢!!


Copyright © 2020 All Rights Reserved 京ICP5741267-1号 统计代码