1. 线性回归理论
1)线性回归的基本概念
线性回归是一种引入自变量和因变量之间线性相关性的监督学习算法,分为单线性回归和多元线性回归。 单变量线性回归是自变量和因变量之间的回归,可以视为多距离线性回归的特例。 线性回归可用于预测和分类。 从回归方程中,我们可以看到自变量和因变量的相互影响。
线性回归模型如下:
线性回归的模型假设如下:
(1)误差项的平均值为0,误差项与解释变量线性无关。
(2)误差项独立同分布,即各误差项相互独立且各误差项的方差相等。
(3)解释变量之间的线性相关
(4) 正态性假设,即误差项服从正态分布
上述假设是建立回归模型的基本条件,因此必须对回归结果进行一一验证。 如果不满足假设,则必须进行相关修正。
2)求解模型参数
(1)矩估计
一般来说,总体的参数是通过样本矩来估计的。 通常,样本的一阶原点矩用于估计总体均值,二阶中心矩用于估计总体方差。
(2) 最小二乘估计
一般最小二乘估计适用于因变量连续的变量。 最常用的方法是普通最小二乘法(Least,OLS)。 其原理是所选的回归模型应使所有观测值的残差平方和等于最小值。 预测值用对应的实际值、残差的平方和来表示,最小二乘估计就是找到参数的值,使得L最小。 线性回归找到的参数值是唯一的。
(3)最大似然估计
最大似然估计是基于概率的思想。 它要求样本的概率分布是已知的。 参数估计的价值在于最大化大量样本的概率。 它是通过似然函数来衡量的。 似然函数是每个样本的密度。 对于函数的乘积,取对数方便求解,加上负号求解最小值,得到参数的估计结果。
3)模型的优缺点
优点:结果易于理解,计算不复杂
缺点:不擅长拟合非线性数据
2. 线性回归的一个小例子
数据来自网络爬虫。 武汉市商品房价格为因变量,几个相关关键词的百度指数搜索量为自变量。
由于本文有98个自变量,因此第一步是选择自变量。 首先,通过相关系数矩阵过滤掉不相关的变量。 然后根据相关系数矩阵选择变量。 一般选择相关系数值大于0.3的变量进行回归分析。 ,由于本文变量较多,我们先手动筛选,然后利用相关系数进行选择。 本文选取相关系数大于0.55的变量进行回归分析。
分析相关系数后,选取8个变量进行下一步分析。 分析代码如下:
# -*- : utf-8 -*-
####
系统
(系统)
系统('utf-8')
。 作为PLT
numpy 作为 np
作为PD
.api 作为 sm
数据 = pd.('Hdata.csv')
打印数据
= np.数组(数据)
######相关性分析
X = [:,1:98]
y = [:,0]
cor = np.(,=0)[:,0]
######输出相关矩阵的第一列
印刷公司
#######过滤数据读取
数据1 = pd.('.csv')
= np.数组(数据)
######过滤变量######
X1 = [:,1:8]
Y1 = [:,0]
est = sm.OLS(Y1,X1).fit()
打印估计()
10
11
12
13
14
15
16
17 号
18
19
20
21
22
23
24
25
26
贴出线性回归的结果如下:
最小二乘法
=================================================== =====================
深度:y R-:0.978
型号:OLS 调整型 R-:0.974
: 最低 F-: 287.5
日期:2017 年 4 月 8 日,星期六 概率 (F-):9.35e-36
时间:15:15:14 日志-:-442.82
编号:53 AIC:899.6
Df:46 BIC:913.4
Df 型号:7
类型:
=================================================== =====================
coef std err t P>|t| [95.0% 浓度国际]
-------------------------------------------------- --------------------------
x1 -0.3691 0.494 -0.747 0.0459 -1.364 0.626
x2 0.3249 0.353 0.920 0.0362 -0.386 1.036
x3 1.0987 0.837 1.312 0.0196 -0.587 2.784
x4 0.7613 0.790 0.964 0.0340 -0.829 2.351
x5 -1.5766 1.099 -1.435 0.0158 -3.789 0.636
x6 -0.1572 1.077 -0.146 0.0885 -2.325 2.011
x7 3.2003 1.603 1.997 0.052 -0.026 6.427
=================================================== =====================
: 0.413 - : 1.748
概率(): 0.814 - 贝拉 (JB): 0.100
偏差:0.097 概率(JB):0.951
: 3.089 条件。 95.5 号
=================================================== =====================
10
11
12
13
14
15
16
17 号
18
19
20
21
22
23
24
25
26
27 号
从回归分析结果可以看出,模型的拟合优度为R-=0.978,表明模型的拟合效果非常好。 拟合效果的好坏是根据其大小来判断的。 通过F统计量可以看出整体模型的意义。 结果显示的F统计量对应的P值显着小于0.05(0.05为显着性水平,也可以选择0.01),说明模型整体显着,其显着性表明被解释变量是否可以由这些解释变量来解释。 F检验是对整体的检验。 通过 F 检验并不意味着每个解释变量都显着。 每个变量的显着性取决于 t 检验统计量的值。 t检验统计量对应的P值小于0.05(0.01或0.1也可以,视情况和分析而定,一般选择0.05)视为显着。 从结果可以看出,变量X6和X7的p大于0.05,这意味着这两个变量对被解释变量的影响并不显着,需要消除。 但如果你只关心预测,则不需要消除它。 但如果要研究解释变量对被解释变量的影响程度,还需要进一步研究。 接下来看DW的值。 DW值为1.748,表明模型不存在自相关。 查看 JB 检验统计量的值,JB 检验统计量检验正态性假设。 JB 值对应的 p 值为 0.951,显着大于 0.05。 可以认为模型满足正态性假设。 本文不会解释参数的实际含义。
判断DW值相关性的依据如下:
当DW=0时,残差序列具有完全正自相关,
当DW=(0,2)时,残差序列具有正自相关性,
当DW=2时,残差序列无自相关,
当DW=(2,4)时,残差序列具有负自相关性,
当DW=4时,残差序列存在完全负自相关。
构建模型的一般步骤简述如下:
(1) 根据数据的表示选择合适的模型
(2) 为所选模型选择合适的参数估计方法
(3) 检查参数结果
(4) 解释结果