精确回归不连续性(RD)理论和评估

 2024-03-20 05:06:20  阅读 0

目录

3. 数学原理

4. 型号特点

1. 断点回归(RD)模型概述

断点回归 (RD) 是一种样本选择和数据生成的机制。 通过这种机制,构建局部随机实验,在反事实下做出因果推断。

不连续性回归设计是一个准自然实验。 其基本思想是,存在一个连续变量,可以决定个体在某个临界点两侧接受政策干预(或接受治疗)的概率。 由于x在临界点的两侧,两侧是连续的,因此准自然实验的个体值是随机的。 断点回归使用接近该断点的样本值来有效估计治疗效果。

更直接的说,就是处理变量在某一点有断点,使得断点左右两侧被处理的概率不同,从而影响结果。 断点回归包括精确断点回归和模糊断点回归。

精确断点回归(Sharp,SRD):特点是在断点x=c处,个体的处理概率从0跳到1。

模糊断点回归(Fuzzy,FRD):特点是在断点x=c处,个体的处理概率从a跳到b,其中 0 2. 问题求解 2.1 问题介绍

现在我们来解决一个问题:是否上大学对最终工资的影响。 假设能否上大学完全取决于高考成绩是否超过500分。

在经济学中,我们经常评估某个项目或政策实施后的效果,例如政府推出的就业培训计划。 这类研究称为“项目效果评估”,项目效果也称为治疗效果。 上述问题显然是“上不上大学”这一处理的效果。 需要分别获得不记得上过大学和上过大学这两个潜在结果。

衡量治疗效果的常用测量方法包括:倾向评分匹配(Score,PSM)、双重差分(-in-,DID)和不连续性回归(RD)。

2.2 PSM 不适用

倾向得分的重叠假设:对于任何可能的 x 值,都存在。 这意味着治疗组和对照组的两个子样本在倾向得分上存在重叠,这也是样本匹配的前提。 重叠假设确保治疗组和对照组的倾向得分范围具有相同的部分,如图2.1所示。

图2.1 倾向得分常用取值范围

在本研究问题中,处理变量是一个连续变量的确定性函数,给定(高考分数),(是否接受大学教育)唯一确定为0或独立,满足倾向分数的可忽略性原则上匹配。

但本题是否接受处理,完全取决于高考成绩是否超过500分,而不是任何可能的值,都会按照 的概率进行处理。 该问题中对照组和治疗组之间没有交集,不满足倾向得分匹配的“重叠假设”。 因此,倾向得分匹配方法不能用来估计此类问题的治疗效果。

2.3 DID不适用

让我们看看双重差分模型的隐含假设:

(1)平行趋势条件:在没有政策干预的情况下,治疗组和对照组的结果效果趋势相同。 也就是说,在政策干预之前,治疗组和对照组的结果效果趋势是相同的;

(2)个体稳定性条件:政策干预值影响治疗组,不会对对照组产生交互效应,即政策干预不会产生溢出效应;

(3)线性形式条件:潜在结果变量与治疗组和时间变量满足线性关系。

如果我们使用双重差分模型来解决问题,我们会注意到第一个假设:治疗组和对照组在治疗前具有相同的结果效应趋势。 思考一个问题:在接受大学教育之前,未来收入的趋势是否一致? 答案是否定的! 高考成绩并不能绝对反映一个人的智商,但高考成绩较高的人往往更大程度上体现了一个人的勤奋程度。 我们通常认为,这类人的特征对未来的收入有积极的影响。 通俗地说,对于高考成绩在录取分数线以上的人来说,即使这种人没有接受过大学教育,但这类人的其他特征也会使其未来的收入与高考分数线以上的人有所不同。低于入场线。 显着差异。 此时,双重差分模型不再适用。

针对这种断点明显的问题,我们将研究一种新的模型来估计治疗效果——断点回归模型。

根据可测变量选择的特殊情况,有时处理变量D_i完全取决于某个连续变量是否超过某个断点(点)。 用于对组进行分组的变量称为“分组变量”( 、 、 )。 此时处理变量是一个函数,记为。 由于在 中的某个时刻存在断点 (),因此这提供了估计 的因果影响的机会。 这类问题需要使用断点回归的思想来解决。 具体的数学原理将在下一节详细介绍。

3. 数学原理 3.1 回归思想

对于是否接受大学教育对未来工资的影响,假设是否上大学完全取决于高考成绩是否超过500分。 如果你的得分超过500分,你就会被处理,概率为1; 如果你的高考成绩低于500分,你将无法接受大学教育,被处理的概率为0。适合精确断点回归,我们将利用精确断点回归模型来解决这个问题问题。 下面详细介绍精确断点回归的相关原理和思路。

由于治疗效果是一个随机变量,所以我们常常关心它的期望值,即“平均治疗效果”(,缩写为ATE),ATE。

处理变量是连续变量的确定性函数,在给定情况下唯一确定,用 表示。 既然这里有一个断点,那么对于高考成绩为498分、49.95万分、501分的考生来说,可以认为他们在各方面(包括可观察变量和不可观察变量)不存在系统性差异。 他们高考成绩的细微差别只是“上帝之手”随机抽样的结果(考试成绩本身就含有一个随机因素——“运气”),导致分数500或501的考生进入了高考。大学成绩为498或499的考生失败(进入对照组)。 因此,由于制度原因,如果将邻里间高考成绩的考生随机分组,则可以一致地估计邻里内当地的平均处理效果(Local,LATE),即:

其中, 和 分别表示从500的左右两侧取极限(即右极限和左极限)。 在上式的最后一步推导中,假设条件期望函数 和 是连续函数,因此它的极限值等于函数的值。

更一般地,断点可以是某个常量,分组规则是:

假设实验前,结果变量与以下线性关系:

不失一般性,假设处理效果为正,则 和 之间有一个向上跳跃的断点,见图3.1。 由于附近个体各方面不存在系统性差异,因此条件期望函数()在这里跳跃的唯一原因只能是治疗效果。 基于这个逻辑,这个跳跃可以被认为是 的因果效应。

图3.1 不连续性回归示意图。 我们知道,在方程中引入虚拟变量的作用是在不同的子样本中产生不同的截距项。 因此,为了估计这种跳跃,方程(3.3)可以重写为:

在上面的公式中,变量被归一化,使得断点为 0。引入交互作用项是为了允许断点两侧的回归斜率可以不同。 对方程进行 OLS 回归,结果是 处的局部平均治疗效果 (LATE) 的估计量。

由于这种回归有断点,所以称为“断点回归”或“断点回归设计”。 由于断点附近似乎存在随机分组,因此断点回归被认为是具有很强内在性的准实验。 可以通过检查协变量的分布在断点两侧是否不同来测试随机性属性。 然而,断点回归仅推断断点处的因果关系,不能推广到其他样本值,因此外部有限性有限。

3.2 考虑高阶项

使用方程(3.4)来估计精确的断点回归存在两个问题。 首先,如果回归函数包含高阶项,例如二次项,则会导致遗漏变量偏差。 其次,由于断点回归是局部随机实验,原则上只应使用断点附近的观测值,但方程(3.4)使用整个样本。 为了解决这两个问题,可以在式(3.4)中引入高阶项(如二次型),其限定值范围为:

其中, 是 LATE 的估计量,可以使用鲁棒标准误来控制可能的异方差。

3.3 非参数回归

上式没有确定值,仍然取决于具体的函数形式。 为此,请转向非参数回归。 与之前的参数回归相比,非参数回归的优点是不依赖于具体的函数形式,通过最小化均匀平方误差(MSE)来选择最优带宽。

直观上,值越小,偏差(bias)越小,但可能有极少数点非常接近,导致方差较大; 反之,值越大,方差越小,但由于包含距离较远的点,方差会更小。 偏差变大。

最简单的非参数方法是比较两个区间 和 的均值。

然而,这种方法缺乏效率,并且需要在两个时间间隔内进行更多观测。 另一种非参数方法是核回归( ),它使用核函数计算权重,并对带宽范围内的观测值进行加权平均。 然而,核回归的边界性质并不理想,我们关心的恰恰是回归函数在端点处的值。 为此,一般建议使用局部线性回归,即最小化目标函数:

其中,就是核函数。 局部线性回归的本质是在邻域内进行加权最小二乘估计。 这个权重是通过核函数计算出来的。 点越近,权重越大。 对于断点回归,比较常用的核函数是三角核( )和矩形核( ,即均匀核)。 如果使用矩形核,则是标准的OLS回归,相当于上面的参数回归。 该估计器也称为“局部 Wald 估计器”(local Wald)。

3.4 带宽选择

让我们检查一下最佳带宽的选择。 那就记住吧。 和(2009)提出通过最小化断点处两个回归函数的均方误差来选择最佳带宽:

3.5 是否包含协变量

此外,还可以将影响结果变量y_i的其他协变量添加到方程(3.5)或(3.7)中,这可以通过Stata命令rd的选项“cov()”来实现。

由于断点回归可以被视为局部随机实验,因此是否包含协变量 w_i 并不影响断点回归估计器的一致性。 添加协变量的好处是,如果这些协变量对被解释变量有解释力,则可以减小扰动项的方差,使估计更加准确。

但如果添加的协变量是内生变量且与扰动项相关,则会干扰LATE的估计。

如果 x=c 处协变量的条件密度函数也出现跳跃,则将其全部归因于该项目的治疗效果是不合适的。

事实上,不连续回归的隐含假设是协变量w_i的条件密度函数在x=c处是连续的。 为了检验这个假设,可以将每个变量作为被解释变量,进行断点回归来考察其分布在x=c处是否发生跳跃; 这可以通过 Stata 命令 rd 的选项“cov()”来实现。

3.6 “内生分组”问题

如果个体事先知道分组规则,并且可以通过自己的努力完全控制分组变量,则可以选择加入治疗组或对照组,导致在断点附近进行内生分组而不是随机分组,从而导致断点回归失败。 对于内生分组,个体会选择进入断点两侧,导致断点两侧分布不均匀,即分组变量的密度函数在断点处不连续,左右极限不连续。平等的。 (2008)提出检验以下原假设:

通过计算和标准误差,我们可以检验密度函数在所有位置是否连续。 内生分组也可能是两边协变量分布不均匀造成的; 因此,有必要检验协变量的条件密度函数的连续性。

3.7 稳健性检验

由于断点回归有不同的操作选项,因此一般建议在实验中同时报告以下情况,以保证鲁棒性。

(1)报告三角核和矩形核的局部线性回归结果(后者相当于线性参数回归);

(2) 报告使用不同带宽的结果(例如最佳带宽及其一半或两倍带宽);

(3) 报告有和没有协变量的情况;

(4)模型设定检验,包括检验分组变量的条件密度函数在断点处是否连续。

4. 型号特点 4.1 优点

(1)当无法进行随机实验时,如受到成本预算、道德观念等因素限制时,间断回归就可以发挥作用;

(2)不连续性回归设计被誉为“优于所有其他已知的因果推理方法”,因为它的回归结果与随机实验的结果相差不大。

4.2 缺点

(1)工具变量法存在局限性,特别是很难满足排它性条件,即很难保证工具变量仅通过影响关键解释变量来影响被解释变量,在求解过程中存在一定的困难。寻找适当的工具变量;

(2)使用断点回归时,如果其他协变量出现“中断”,并不清楚是其他变量引起的还是我们关心的强制变量引起的;

(3)断点回归衡量的是临界值附近的局部平均效应,而不是整体平均效应,难以推广到整体研究;

(4)严格的非混淆假设。 不连续性回归方法假设研究对象是同质或接近同质的,即如果将置于对照组的个体置于实验组中,其效果将与置于实验组中的个体相同,但在实践中很难保证,如果出现异质响应,估计结果就会有偏差。

本文编译:严力、邓胜丹、陈文、牟亦男

标签: 断点 协变量 高考

如本站内容信息有侵犯到您的权益请联系我们删除,谢谢!!


Copyright © 2020 All Rights Reserved 京ICP5741267-1号 统计代码