逻辑回归是分类数据统计分析的重要方法。 它是研究多水平(包括两水平)响应变量与其影响因素(又称自变量)之间关系的回归分析。
下面简单解释一下几个概念:
1、分类数据是指获取的数据是分类的,不完全连续的; 可分为有序分类和无序分类。 有序分类如疾病的预后(未好转、好转、痊愈),无序分类如研究对象。 职业(工人、农民、知识分子等)。
2.响应变量就是我们常说的因变量。 顾名思义,它是由于其他因素的变化而变化的量。 例如,在研究影响某种疾病预后的因素时,这里的预后就是因变量。
3、自变量(影响因素),通俗地说,就是不因他人变化而变化的量。 例如,在上面的例子中,某种疾病预后的影响因素是自变量,比如患者的年龄、疾病阶段、治疗方法等。
下面我们讨论逻辑回归的常见问题。
1. 为什么有无条件逻辑回归和条件逻辑回归?
根据研究设计的不同,逻辑回归可以分为两类:针对群体数据的无条件逻辑回归和针对配对数据的条件逻辑回归。 组数据意味着组之间是相互独立的。 没有针对每种情况的具体控制。 它与配对数据相关。 配对数据是指在研究设计之初就根据性别、年龄等潜在影响因素对病例和对照进行配对。 可以是一种情况下有一个控件,也可以是一种情况下有n个控件。 对于分组数据,采用无条件逻辑回归; 对于配对数据,使用条件逻辑回归。 两者之间有明显的区别。
根据因变量的类别数,无条件逻辑回归可以分为两类:二元逻辑回归和多类别逻辑回归。 二元类别是指因变量只有两个类别(例如是否发生出血),多类别类别是指因变量只有两个类别(例如是否发生出血)。 变量有三类或三类以上(例如根据出血量分为轻度、中度和重度出血)。
实际工作中,最常用的是“二类别无条件逻辑回归”,即因变量分为两类,研究设计不是病例对照配对设计,而是常规的分组设计。
2. 逻辑回归需要多大的样本量?
在实际工作中,经常会遇到仅使用20-30名患者的数据进行逻辑回归,因此回归结果可能样本量不足。 那么逻辑回归的计算需要多少样本量呢?
对于确定逻辑回归的样本量,有一些计算公式和工具表可供参考。 一般认为,无条件逻辑回归的样本量应为自变量数量的5-10倍。 也就是说,如果包含5个自变量,则样本总数应大于25-50人。 更严格的要求是,因变量的各个水平中,例数最少的水平的样本数也应是自变量数的5-10倍。 例如,有200名研究对象,其中40名患病,160名未患病。 如果要研究疾病的影响因素,逻辑回归可以包含的自变量数量为40/10=4。 有教材还指出,根据经验,无条件逻辑回归每组人数至少应为30-50人(摘自《医学统计学》第三版第293页,人民卫生出版社,主编孙振秋) 。
对于条件逻辑回归,配对组的数量不应为
逻辑回归的所有统计推断都是基于大样本,因此需要足够的样本量来支持其回归结果的可信度。
3、如何判断逻辑回归模型的拟合程度?
通常我们在分析自己的数据时,会遇到不同的分析方法会产生不同的逻辑回归结果。 那么哪个结果更好呢? 或者说我们能在多大程度上证明我们在逻辑回归中找到的影响因素是正确的? 这就需要我们对逻辑回归模型的拟合效果做出一定的判断。
常见的逻辑回归模型效果判断指标包括对数似然值、伪判定系数、模型预测精度和ROC曲线。
详情如下:
(1) 对数似然值。 逻辑回归通过最大似然法求解。 最大似然值在0到1之间。-2倍的对数似然值可以用来表示模型的模拟。 值越小,越接近0,表明模型拟合效果越好;
(2)伪决定系数。 与线性回归一样,逻辑回归也有一个决定系数,称为伪决定系数。 它是根据似然函数计算的。 其值越接近 1,回归拟合越好。 SPSS结果中有两个伪决定系数,即Cox和Snell于1989年提出的伪决定系数(取值范围为0≤R2
(3)模型预测的准确性。 显然,因变量预测结果的准确性也可以反映模型的效果。 SPSS在回归过程中会提供模型预测的列联表,这也是判断模型拟合质量的依据之一。 同时,用户还可以在SPSS中自定义模型预测的概率标准(默认为0.5)。
(4)ROC曲线。 获得每个研究对象的预测概率后,我们可以制作一条ROC曲线来判断当使用不同的预测概率值时,预测精度会如何变化。
4. 使用SPSS进行逻辑回归分析时的注意事项
(1)自变量和因变量的变量名称最好采用英文。 做逻辑回归时,如果自变量或因变量的变量名含有汉字或括号,则逻辑回归结果可能相差很大,而且错误可能莫名其妙,而且不同版本的SPSS的错误形式也不同。 建议在所有统计分析中,变量名称需要修改为英文格式。
(2)当自变量中有多个分类名义变量时,应设置为虚拟变量进行处理。
(3) 如果一个连续自变量能够将两组因变量完全分开(例如,当病例组中自变量的最小值大于对照组中自变量的最大值时),则自变量不应包含在回归方程中。
(4)如果某组因变量中的某个分类自变量的值完全一致(例如,案例组中的某个自变量的值都为1,而对照组中的自变量范围为 0 到 1 ),该自变量不应包含在回归方程中,否则该自变量的 p 值特别大,不会从方程中删除,并且 OR值接近于 0 或无穷大。
硕士、博士招生信息汇总
↓↓↓ ↓
【加群】今天认识一群同城的高学历朋友
关于我们
管理世界 [ID:]
商管世界公众号由大数据和金融团队打造,所有推送文章均经过人工智能筛选。
100万+管理者的选择。
《经管世界》成立了专门团队,专门收集整理学术会议、论文征集等信息,并第一时间推送至公众号。 更多相关编译信息,请回复公众号关键词征文获取。