对于线性回归,如果要求回归估计具有一些良好的性质,例如无偏性,则需要添加一些假设。 例如,为了实现无偏估计,我们通常需要添加高斯马尔可夫条件:
A1。 参数线性度
A2。 随机抽样样本
A3。 误差的条件平均值为 0
A4。 不存在完全共线性
A5。 同方差假设
加上上述误差项服从正态分布的条件,我们得到了经典线性回归模型的六大假设。 保证了估计的良好特性。
现在让我们考虑这些条件。 它们真的很容易实现吗?
我们先从假设A4开始分析,该假设更容易满足:完全共线性的结果是最小二乘结果不唯一。 所以这里要求的是数据相关性不能为1,但并不代表不能有相关性。 完全共线性的原因无外乎以下三个: 1.在处理的数据中错误地包含了一系列已建立线性关系的因变量(但实际上,这个相关性仍然没有达到1,但会影响回归的效果会进一步影响你的解释)2.虚拟变量处理不当导致的错误。 当用r个虚拟变量来表示离散变量的值时,多重共线性是不可避免的(这是真正的完全共线性,因为离散变量表达了所有情况)3.样本量太小,无法识别。 这只能通过增加样本量来解决问题。
我们再看一下A2。 我们使用数据收集方法的先验知识来确定最优性。 不知道是否也可以通过残差的独立性看出。 R 的 car 包提供了独立测试(- () 来测试)。 该检验适用于与时间无关的数据,但不适用于非聚类数据。
看A3说的是误差项不包含任何关于自变量的信息。 这对于解释非常重要。 还可以证明,均值为 0 的条件始终可以通过适当的变换来实现。
A1和A5并不是那么容易达到的。 尽管它们对无偏性的影响不大,最小二乘估计量仍然是无偏且一致的(对应),但其有效性受到影响。
那么,我们现在的问题是如何判断这两个假设是否成立?
2. 异方差线性回归
关于异方差性,我们必须注意这样一个事实:即使误差具有一致的方差,最小二乘残差仍然具有不相等的方差。 我们可以通过根据拟合值绘制学生残差的散点图(主要是排除一些异常值,使数据更加稳定)来识别这一点。当然,我们也有Pagan检验等统计方法
在R中,扩展包中的-Pagan测试。 或者使用car包中的ncv.test()函数。 两者的工作原理相同。回归后,我们可以将 () 函数应用于拟合模型
()
这将得到“”()测试结果。 如果我们想和其他软件结论(包括ncv.test())保持一致,可以设置=FALSE
我们看一个例子:以下数据取自的《计量经济学导论》,保留原始数据名称。
()
()
()
-异教测试
数据:
BP =5.5756, df = 5, p-value = 0.3497 #从这里可以看出数据不存在异方差