R语言中几个假设的检验和回归分析

2024-03-18 02:08:25 阅读 0

1.从线性回归的假设出发

对于线性回归，如果要求回归估计具有一些良好的性质，例如无偏性，则需要添加一些假设。例如，为了实现无偏估计，我们通常需要添加高斯马尔可夫条件：

A1。参数线性度

A2。随机抽样样本

A3。误差的条件平均值为 0

A4。不存在完全共线性

A5。同方差假设

加上上述误差项服从正态分布的条件，我们得到了经典线性回归模型的六大假设。保证了估计的良好特性。

现在让我们考虑这些条件。它们真的很容易实现吗？

我们先从假设A4开始分析，该假设更容易满足：完全共线性的结果是最小二乘结果不唯一。所以这里要求的是数据相关性不能为1，但并不代表不能有相关性。完全共线性的原因无外乎以下三个： 1.在处理的数据中错误地包含了一系列已建立线性关系的因变量（但实际上，这个相关性仍然没有达到1，但会影响回归的效果会进一步影响你的解释）2.虚拟变量处理不当导致的错误。当用r个虚拟变量来表示离散变量的值时，多重共线性是不可避免的（这是真正的完全共线性，因为离散变量表达了所有情况）3.样本量太小，无法识别。这只能通过增加样本量来解决问题。

我们再看一下A2。我们使用数据收集方法的先验知识来确定最优性。不知道是否也可以通过残差的独立性看出。 R 的 car 包提供了独立测试（- () 来测试）。该检验适用于与时间无关的数据，但不适用于非聚类数据。

看A3说的是误差项不包含任何关于自变量的信息。这对于解释非常重要。还可以证明，均值为 0 的条件始终可以通过适当的变换来实现。

A1和A5并不是那么容易达到的。尽管它们对无偏性的影响不大，最小二乘估计量仍然是无偏且一致的（对应），但其有效性受到影响。

那么，我们现在的问题是如何判断这两个假设是否成立？

2. 异方差线性回归

关于异方差性，我们必须注意这样一个事实：即使误差具有一致的方差，最小二乘残差仍然具有不相等的方差。我们可以通过根据拟合值绘制学生残差的散点图（主要是排除一些异常值，使数据更加稳定）来识别这一点。当然，我们也有Pagan检验等统计方法

在R中，扩展包中的-Pagan测试。或者使用car包中的ncv.test()函数。两者的工作原理相同。回归后，我们可以将 () 函数应用于拟合模型

()

这将得到“”（）测试结果。如果我们想和其他软件结论（包括ncv.test()）保持一致，可以设置=FALSE

语言模型的参数估计_模型估计参数语言怎么写_模型估计参数语言有哪些