使用逻辑回归分析的条件是什么?

 2024-03-03 12:06:06  阅读 0

Logit回归分析用于研究X对Y的影响,对数据类型没有要求,并根据Y选项的数量,采用相应的数据分析方法。 Logit回归分析一般可以分为三类,即二元Logit回归、多分类Logit回归和有序Logit回归。 三种Logit回归的区别如下:

逻辑回归or_逻辑回归值域_逻辑回归 or值

1.二元logit分析

逻辑回归or_逻辑回归值域_逻辑回归 or值

1.基本说明

二元Logit回归分析用于研究X对Y的影响,其中X通常是定量数据(如果X是分类数据,一般需要虚拟(dummy)变量设置)

Y为二元分类数据,(Y的个数只能为0和1),如愿意和不愿意、是和否等。

2.数据处理

(1) 如果X是分类数据,例如性别或受教育程度等,则需要先将它们作为虚拟变量进行处理,并使用“数据处理”-“生成变量”功能。 操作如下:

逻辑回归or_逻辑回归 or值_逻辑回归值域

(2)因变量Y只能包含数字0和1。如果因变量的原始数据不是这样的,则需要进行数据编码。 将其设置为0和1。使用“数据处理”-“数据编码”功能。 操作如下:

逻辑回归 or值_逻辑回归值域_逻辑回归or

3.上传数据

(1)登录账户后,进入页面,点击右上角“上传数据”,通过“点击上传文件”上传处理后的数据。

上传数据

(2) 拖放分析项

在“高级方法”模块中选择“二元Logit”方法,将Y分类变量放置在上部分析框中,将X分类/定量变量放置在下部分析框中,然后单击“开始分析”。

逻辑回归值域_逻辑回归or_逻辑回归 or值

您可以勾选“保存残差和预测值”来保存残差和预测值以供进一步分析。

4. 分析前提示

(1)如果X是分类数据,可以考虑使用交叉卡方分析来研究X和Y之间的关系。(2)如果关系太多,则将最终具有差分关系的X放入二元中logit回归模型,这样X就会少一些,而且X和Y都存在差异关系,更有可能存在影响关系。 这时,二元Logit回归模型的预测准确率会更高。 如果示例中自变量X较少且模型本身并不复杂,则可以忽略此步骤,直接进行二元回归分析。

5.分析

背景:研究影响用户购买某品牌笔记本电脑的因素,其中0代表否,1代表是(仅用于案例分析)。

(1)二元Logit回归分析的基本总结

逻辑回归or_逻辑回归值域_逻辑回归 or值

分析结果来自

以价格、品牌偏好和性能为自变量,是否购买某品牌笔记本电脑为因变量,进行二元Logit回归分析。 从上表可以看出,共有265个样本参与分析,无缺失数据。

逻辑回归值域_逻辑回归or_逻辑回归 or值

(2)二元Logit回归模型似然比检验结果

逻辑回归值域_逻辑回归or_逻辑回归 or值

分析结果来自

逻辑回归值域_逻辑回归 or值_逻辑回归or

首先,分析模型的整体有效性。 从上表可以看出:这里模型检验的原始假设是:是否放入自变量(价格、品牌偏好、性能),两种情况下模型质量相同; 这里的p值小于0.05,说明拒绝了原来的假设,即本次构建模型时,放入的自变量是有效的,本次构建的模型是有意义的。

(3)二元Logit回归分析结果总结

逻辑回归or_逻辑回归 or值_逻辑回归值域

从上表可以看出,以价格、品牌偏好、性能为自变量,以是否购买某品牌笔记本电脑为因变量进行二元Logit回归分析。 模型公式为:ln(p/1-p) =-9.900 + 3.663*价格-2.156*品牌偏好 + 4.090*性能(其中p代表购买某品牌笔记本电脑的概率为1,1-p表示购买某品牌笔记本电脑的概率为0)。 最终详细分析显示:

价格的回归系数值为3.663,在0.05水平上显着(z=2.419,p=0.016),这意味着价格对于是否购买某品牌笔记本电脑会产生显着的正向影响。 而优势比(OR值)为38.964,这意味着当价格上涨一个单位时,是否购买某品牌笔记本电脑的变化(增加)为38.964倍。

品牌偏好的回归系数值为-2.156,但不显着(z=-1.583,p=0.113>0.05),这意味着品牌偏好不会对是否购买某个品牌的笔记本电脑产生影响。

性能的回归系数值为4.090,在0.05水平上显着(z=3.346,p=0.001),这意味着性能对于是否购买某品牌笔记本电脑会产生显着的正向影响。 而优势比(OR值)为59.750,这意味着当性能增加一个单位时,是否购买某品牌笔记本电脑的变化(增加)为59.750倍。

综合分析表明,价格和性能会对是否购买某品牌笔记本电脑产生显着的正向影响。 不过,品牌偏好不会对是否购买某个品牌的笔记本电脑产生影响。

此外,Logit回归将提供三个R平方值(分别为R-、Cox & Snell R-和R-)。 这三个R平方值都是伪R平方值。 该值越大越好,但效果不太好。 表达模型的拟合程度意义相对较小,大多数情况下这三个指标的值都会极小。 研究人员无需过多关注这三个指标值。 一般而言,可以报告任何一项 R 平方值指标。

(4) 二元logit回归预测精度总结

逻辑回归 or值_逻辑回归值域_逻辑回归or

分析结果来自

逻辑回归or_逻辑回归 or值_逻辑回归值域

模型拟合的好坏是通过模型预测的准确性来判断的。 从上表可以看出,研究模型的总体预测准确率为96.23%,模型拟合良好。 当真实值为0时,预测准确率为96.30%; 另外,当真实值为1时,预测准确率为96.15%。

(5)-体能测试

-拟合优度检验用于分析模型的拟合优度。 从上表可以看出:这里模型检验的原始假设是:模型拟合值与观测值一致; 这里的p值大于0.05(卡方值为3.109,p=0.927>0.05),说明接受了原来的假设,也就是说这个模型通过了HL检验,模型有很好的优良性适合。

(6)模型预测

逻辑回归值域_逻辑回归 or值_逻辑回归or

通过将价格、品牌偏好和性能输入到模型中,它可以预测消费者是否会购买某个品牌的笔记本电脑。

(7) 模型结果图

逻辑回归值域_逻辑回归or_逻辑回归 or值

您可以更直观地看到自变量和因变量之间的关系。

(8)

分析结果来自

显示具体的回归系数值和相应的置信区间,直观地检查数据的显着性。 如果置信区间包含数字0,则表示该项不显着。 如果置信区间不包含数字0,则表示该项显着。 。

6.其他说明

(1)二元logit回归提示数据质量异常?

如果出现此提示,建议按照以下步骤检查。

第一:对所有分析项(所有X和Y一起)做相关性分析,看看是否有相关系数很低或很高的项; 如果很低(比如小于0.1),则说明根本不存在相关性,如果很高(比如大于0.8),则说明共线性问题很严重。 只要去掉这样的自变量,再分析即可;

第二:检查因变量Y的分布。因变量Y只有0和1两个数字,如果分布严重不均匀(例如100个样本中只有5个样本为0,95个样本为1),则可能存在成为一名模特。 无法收敛,最终无法输出结果;

第三:将虚拟变量放入自变量中。 例如,学历有5个项目,虚拟变量出来是5个项目,将5个项目全部放入模型中,肯定会出现错误;

第四:分析样本量太小。 例如,分析项目有10个,但分析样本量只有20个。

(2)Y值只能是0或1?

二元回归研究的影响 如果不是这样的话,就会出现这样的提示。 可以用频率分析来查看,用数据处理-数据编码功能处理成0和1。

(3)粗OR和OR值?

在 中执行二元 Logit 回归。 如果输入 OR 值。

2.多类别logit分析

逻辑回归 or值_逻辑回归值域_逻辑回归or

1.基本说明

只要是logit回归,就研究“云南省”的影响,3代表“四川省”,4代表“陕西省”。 数值仅代表不同类别,数值不具有比较意义,因此应采用多类Logit回归分析。

2. 数据要求及处理

如果因变量Y类别较多,比如10个,建议合并类别,尽量减少类别数量,以利于后续分析。 本步骤可以通过数据处理模块的数据编码功能来完成。

如果自变量有关虚拟(dumb)变量的问题,请查看:(虚拟(dumb)变量帮助手册)。 事实上,在对分类数据进行影响关系研究时,通常会处理虚拟虚拟变量。

3.上传数据

(1)登录账户后,进入页面,点击右上角“上传数据”,通过“点击上传文件”上传处理后的数据。

(2) 拖放分析项

在“高级方法”模块中选择“多重分类Logit”方法,将Y分类变量放在上方分析框中,将X分类/定量变量放在下方分析框中,然后单击“开始分析”。

逻辑回归 or值_逻辑回归or_逻辑回归值域

您可以勾选“保存预测类别”来保存预测值以供进一步分析。

4.分析

背景:研究影响手机偏好的因素(仅案例分析)。

(1)多类回归分析的基本总结

逻辑回归值域_逻辑回归or_逻辑回归 or值

以年龄、教育程度和性别为自变量,手机品牌偏好为因变量,进行多类Logit回归分析。 从上表可以看出,共有1847个样本参与了分析。

(2)多元分类回归模型似然比检验

逻辑回归or_逻辑回归值域_逻辑回归 or值

分析结果来自

逻辑回归值域_逻辑回归or_逻辑回归 or值

分析建议来自

这里模型检验的原始假设是:无论是否放入自变量(年龄、教育程度、性别),模型质量都是相同的; 这里的p值小于0.05,说明拒绝了原来的假设,也就意味着本次建立模型时,放入的自变量是有效的,本次模型构建是有意义的。

(3)多元分类回归分析结果总结

逻辑回归值域_逻辑回归 or值_逻辑回归or

年龄和性别的p值可以在上表中看到。

女性回归系数值为0.309,在0.05水平上显着(z=2.127,p=0.033)

与华为手机相比,年龄回归系数值为-0.437,在0.01水平上显着(z=-6.076,p=0.000

金立手机分析结果显示,女性更青睐华为手机,且年龄越大的用户越青睐金立手机。

逻辑回归 or值_逻辑回归值域_逻辑回归or

此外,Logit回归将提供三个R平方值(分别为R-、Cox & Snell R-和R-)。 这三个R平方值都是伪R平方值。 该值越大越好,但效果不太好。 表达模型的拟合程度意义相对较小,大多数情况下这三个指标的值都会极小。 研究人员无需过多关注这三个指标值。 一般而言,可以报告任何一项 R 平方值指标。

(4) 预测精度总结

逻辑回归值域_逻辑回归or_逻辑回归 or值

模型拟合的好坏是通过模型预测的准确性来判断的。 从上表可以看出,研究模型的整体预测准确率为49.49%,模型拟合程度一般。

5.其他说明

(1) 提示“Y的选项太少或太多”?

如果出现此提示,则说明因变量Y的选项不满足多类logit回归分析的要求。 通常,因变量 Y 的类别数应在 3 到 8 之间。

1)研究人员可以使用频数分析功能查看因变量Y的选项数量;

2)如果选项太多,需要合并等,可以使用【数据处理->数据编码】功能。

(2)参考项或参考项设置问题?

进行多类别Logit时,默认以第一项[即编号最小的项]作为参考项。 如果需要更改,可以使用【数据处理->数据编码】功能进行设置,将参考项的编号设置为最小,如下图(原来使用1作为参考项)参考项,现在改为3作为参考项,只需将3设置为最小数值0即可。当然,你也可以设置其他较小的值(例如-1):

逻辑回归or_逻辑回归 or值_逻辑回归值域

3.有序logit分析

逻辑回归 or值_逻辑回归or_逻辑回归值域

1.基本说明

只要是logit回归,它研究的影响如果你满意,就可以使用有序logit回归分析。

2.上传数据

(1)登录账户后,进入页面,点击右上角“上传数据”,通过“点击上传文件”上传处理后的数据。

(2) 拖放分析项

在“高级方法”模块中选择“有序Logit”方法,将Y分类变量放置在上部分析框中,将X分类/定量变量放置在下部分析框中,然后单击“开始分析”。

逻辑回归 or值_逻辑回归值域_逻辑回归or

3、参数选择

(1) 连接功能选择

逻辑回归or_逻辑回归 or值_逻辑回归值域

优先

逻辑回归 or值_逻辑回归or_逻辑回归值域

(2) 并行度测试选择

逻辑回归值域_逻辑回归or_逻辑回归 or值

用于测试回归方程是否相互平行。 如果并行性测试不满足(或者出现异常),建议使用多类Logit回归。

4.分析

背景:研究人们幸福感的影响因素,包括性别、年龄、教育程度和年收入水平,共四个对幸福水平的潜在影响因素。

(1)因变量频率分布的序数回归分析

逻辑回归or_逻辑回归值域_逻辑回归 or值

分析结果来自

该有序logit回归模型以性别(以女性为参考项)、年龄、受教育程度、年收入水平为自变量,幸福水平为因变量进行有序回归分析。 从上表中我们可以看出,幸福感水平分为三类。 品类上,分布较为均匀,其中比较快乐的品类占比低至20.70%。

(2)序数回归模型并行性测试

逻辑回归 or值_逻辑回归or_逻辑回归值域

首先,测试模型的并行性。 从上表中我们可以看出,并行性检验的原假设是回归方程相互平行。 分析表明,接受原假设(χ2=1.858,p=0.762>0.05),这意味着该模型通过了平行检验。 模型分析结论可信,可继续进一步分析。

如果并行性测试未通过,则提供以下建议:

1)切换到多类logit回归; 改变方法,因为一般可以用有序logit回归分析的数据也可以用多类logit回归分析;

2)切换为线性回归; 考虑改用线性回归分析进行尝试;

3)改变连接功能; 选择更适合的连接功能;

4)对因变量的类别选项等进行一些合并处理,使用数据处理->数据编码功能。

一般来说,有序logit回归具有一定的鲁棒性,即当并行性检验对应的p值接近0.05时,可以认为有序logit回归分析的结果是可以直接接受的。

(3)序数回归模型似然比检验

逻辑回归 or值_逻辑回归or_逻辑回归值域

首先,分析模型的整体有效性(模型似然比检验)。 从上表我们可以看出:这里模型检验的原始假设是:是否将自变量(年龄、年收入水平、受教育程度、男性性别)分成两种情况下模型质量是相同的; 分析表明原假设被拒绝 (chi=62.510, p=0.000

补充说明:还提供了AIC和BIC这两个指标值。 如果有多个模型,想要比较模型之间的优缺点,可以使用这两个指标。 这两个指标越小越好。 具体的智能分析和分析建议可以直接查看。

(4)有序回归模型分析结果总结

逻辑回归 or值_逻辑回归值域_逻辑回归or

逻辑回归 or值_逻辑回归or_逻辑回归值域

(5)序数回归模型预测精度

逻辑回归值域_逻辑回归 or值_逻辑回归or

分析结果来自

模型拟合的好坏是通过模型预测的准确性来判断的。 从上表可以看出,研究模型的整体预测准确率为55.65%,模型拟合较差。 建议剔除不相关的自变量,或者重新处理自变量的数据编码组合后再进行分析,以获得更好的分析结果。 同时可以考虑使用多类别logit回归进行分析。

(6) 模型结果图

逻辑回归or_逻辑回归 or值_逻辑回归值域

您可以更直观地看到自变量和因变量之间的关系(基于回归系数)。

(7)

逻辑回归or_逻辑回归 or值_逻辑回归值域

分析结果来自

显示具体的回归系数值和相应的置信区间,直观地检查数据的显着性。 如果置信区间包含数字0,则表示该项不显着。 如果置信区间不包含数字0,则表示该项显着。 。 您可以查看年龄、年收入水平、教育水平和性别的 OR 值和 95% CI。

5.其他说明

(1)OR值的含义

OR value = exp(b) value,即回归系数的指数幂。 该值经常用于医学研究。 实际含义是X增加1个单位时Y的增加量。 如果只研究影响关系,这个值意义不大。

(2)z值的含义是什么?

z值=回归系数/标准误差。 该值是中间过程值,无意义。 您只需要查看 p 值即可。 有些软件会提供wald值(但不会提供z值,没有实际意义)。 Wald 值 = z 值的平方。

4. 总结

本文包括二元logit回归步骤分析、多分类logit回归步骤分析、有序logit回归步骤分析。 在做二元logit回归分析时,可以先分析p值。 如果该值小于0.05,则说明存在影响关系。 然后你可以详细研究影响关系,比如是正面影响还是负面影响等; 另外,还可以编写二元Logit回归分析的模型构建公式,以及模型的预测精度等。

要分析多类Logit回归分析模型的具体情况,首先分析p值。 如果这个值小于0.05,说明X对Y有影响。那么我们可以详细研究影响关系,比如是正面影响还是负面影响。 人际关系等; 另外,还可以编写回归模型构建公式,以及模型的预测精度等。

在进行有序Logit回归分析时,首先进行模型并行性测试。 如果p值大于0.05,则表示满足并行性测试。 如果p值小于0.05,则表示不满足并行性测试。 这种情况下,建议使用多类Logit回归分析; 并行性测试完成后,就可以详细研究影响关系,比如是正面影响还是负面影响等; 此外,还可以编写有序logit回归分析的模型构建公式,以及模型率的预测精度等。

标签: 回归 模型 变量

如本站内容信息有侵犯到您的权益请联系我们删除,谢谢!!


Copyright © 2020 All Rights Reserved 京ICP5741267-1号 统计代码