编者注:统计分析的陷阱真是防不胜防。 t检验学了这么久,为什么还有这么大的坑在等着我们! 快来一起填坑吧!
►►►►
我们之前系统梳理过t检验的内容,对t检验有了清晰的认识。 当你掌握了t检验之后,你可能会认为你已走遍世界,无所畏惧。 当你有这个想法的时候,小心掉入新的坑。
我们先邀请我们的蓝精灵朋友来看看有哪些坑是我们不能掉的。
蓝精灵食堂里有三位包子师傅,康师傅(做馒头而不是牛肉面)、王师傅和格格巫。 蓝精灵们感觉吃的包子有时大有时小,所以我想知道这种差异是否是由于它们是由不同的包子师傅制作的。
有了上次抓格格巫偷工减料的经验,兰笨笨自信地跳了出来,表示只要用t检验就可以知道到底是怎么回事。
为了帮助大家理清思路,蓝笨笨分析道:
“我们的零假设应该是,三位厨师制作的包子的平均质量没有差异。替代假设是,至少一位厨师制作的包子的质量与其他厨师不同。”
于是蓝笨笨提出从每位厨师做的包子中随机抽取20个样品。 为了方便起见,将康师傅的包子样品分为A组,王师傅的包子样品分为B组,格格巫的包子样品分为C组。
兰笨笨继续说道,如果原假设正确,那么分别对A组和B组、B组和C组、A组和C组的馒头样本进行t检验,应该没有统计学意义,即p值均应小于0.05; 如果任何组之间存在显着差异,则可以拒绝原假设。
乍一看,蓝笨笨的建议确实有道理。 但它的推理陷入了一个陷阱,这个陷阱隐藏在p值的含义中——我们使用p值小于0.05作为统计显着性的阈值,以控制第一类错误,也称为假阳性错误(也就是说,检测到显着差异(当实际上没有显着差异时)的概率在 5% 以内。
换句话说,即使两组数据没有差异,也只是由于随机抽样带来的误差。 经过100次实验,5次即可检测到显着差异。
想象一下这样的情况,A、B、C三组实际上是从康师傅做的馒头中随机抽取的样本。 理论上,除了随机抽样导致样本出现一些随机波动外,没有本质区别。 当我们对A、B、C组进行两两比较时,理想的结果应该是没有统计学意义。 如果有的话,那就是误报。
我们来推理一下假阳性的概率(即,AB、BC 和 AC 的两两比较中至少有一个测试结果显着不同)。
按照惯例,我们使用小于 0.05 的 p 值作为单个 t 检验的显着性阈值。 然后,根据 p 值的定义,每次检验有 5% 的概率检测到两组之间的显着差异。 经过3次比较,至少有一组出现显着差异的概率接近5%的三倍,即15%(更准确的数字应该是1-(1-5%)3=14.3%)。
这种使用同一组数据进行多次检验以确定是否拒绝原假设的过程称为多重比较()。
从上面的计算可以看出,当对A、B、C三个组进行多重比较以确定是否存在至少一个不同组时,I类错误的概率会累积,从而导致从a、b、c三个组中出现误报的概率单次测试。 5%上升至15%。 很多时候会出现3组以上的情况。 这是因为可以两两组合测试的情况更多,误报的概率会更高。
►▷►►
我们再举一个例子,帮助大家直观地理解使用多个测试的问题。
蓝精灵正在玩投掷钢球的游戏。 如果将同一个钢球投掷十次,则只有一次观察到球朝上。 观察这样的结果后,显然我们不太可能认为钢球两面朝上。 概率是一样的。
对于感兴趣的读者,这里是 p 值的计算:
根据原价,正面朝上的概率为 0.5,p 值为十次中只出现一次或根本不出现的概率:
由于 p 值小于 0.05,因此拒绝拾取器两侧朝上的概率相等的原假设。
现在有一百个钢镐,需要检查所有钢镐是否正常——即两边朝上的概率相等。 即使所有的钢骰子都正常,如果每个钢骰子掷十次,也难免会有一部分钢骰子只单挑一次的概率,但这并不意味着这100个钢骰子就会翻转。头。 里面确实有异常的钢铁挖掘机。
上面的例子也表明,多次测试导致误报概率增加并不是t检验独有的问题。 事实上,只要涉及到对同一组数据多次使用统计检验来否定同一个原假设,无论具体采用何种检验方法。 任何事情几乎总是会导致误报的增加。 如果忽略多次测试,往往会导致发现的“意义”实际上并不显着,从而得出错误的结论。
►►▷►
如何修正多次测试得到的结果? 最简单粗暴的方法就是校正,即使用比平时更严格的p值来控制实验中的假阳性。
具体操作是,如果进行n次测试,则p值阈值从正常降低到0.05至0.05/n。
纠正的原理其实很简单,就是3次测试中至少有1次误报的概率小于每次测试中误报概率的总和。 从下面的维恩图可以清楚地看出这一点。
图1 每个彩色圆圈的面积代表测试中出现误报事件的概率。 三个圆圈覆盖的区域代表至少一个误报事件的概率。 显然比右边的面积要小。 通过要求右侧每个圆小于 0.05/3,校正可确保左侧总面积之和小于 0.05。
从上面的维恩图也可以看出,当左边的圆圈开始更多地重叠时,即三个测试都出现误报时,左边的概率会比上面单个概率的总和小很多。正确的。 因此,可以看出,修正是一种相对保守的做法。 虽然可以保证整体结论中误报的概率一定小于0.05(对应上图右侧三个区域的总和),但实际的显着性阈值可能远低于0.05 (对应于左侧面积的总和)。
根据以往统计功效的研究,显着性阈值越低,统计功效越低。 因此,尽管存在显着差异,但使用校正更有可能导致数据检测不到。
►►►▷
因为我们想要避免误报的陷阱,但也不想错过发现重要结果的机会。 有什么办法可以两全其美吗?
其实,要检验三组或多组数据的均值是否相同,有一个特殊的统计检验利器——方差分析(英文ANOVA,代表Of)。
回到上一期测试食堂三位厨师做的包子是否一致,方差分析的零假设是随机选取的三组包子A、B、C的平均值三个厨师是平等的。
如果是这样的话,那么单个包子样本的平均值和三组包子混合在一起的平均值应该相等。
换句话说,如果零假设为真,知道是哪位厨师做的包子并不能让我们更准确地估计包子的质量,因为三个厨师做的包子大小都是一样的。
另一方面,如果三个师傅做的包子差异很大,比如康师傅的包子各接近两两,王师傅和格格巫的包子都在一两左右,那么显然可以知道哪个是哪一个。师傅做的包子。 更准确地预测面包质量。
方差分析是通过检验包子组的信息(即哪个厨师做的)是否可以帮助更准确地预测包子的质量,来确定不同组之间是否存在统计显着性。 详细的计算方法请听下一章。 分解。
在比较三组或更多组数据时,为什么方差分析优于 t 检验?
由于t检验需要对两两组合进行多次检验,因此需要处理误报问题,而方差分析只需一次检验即可验证结论。
方差分析在实际应用中有着广泛的应用。 例如,研究几条不同生产线生产的相同零件是否会存在显着差异,同一种药物对不同年龄段的人是否会产生不同的作用,居住在同一城市的几个不同地区的人是否会患上某种疾病。某些疾病。 概率一样吗?
五年行医+三年模拟
每日精选问题