使用线性回归时,您可能遇到过概率图 - 图 (-)。 拟合模型后,我们应该检查回归的残差是否服从正态分布。 并且可以通过如下图的QQ图来直观地验证。
QQ图表示例
概率函数曲线的一些定义
为了充分理解概率图的概念,我们可以快速浏览一下概率论中的一些定义:
高斯分布 PDF
CDF的一般公式,X-随机变量,x-评估点
下图显示了从标准正态分布以及PDF和CDF中提取的随机变量的分布。
在本文中我将使用另外两个案例进行比较:
我采用偏态正态分布,并通过调整 alpha 参数(同时将比例和位置保留为默认值)来控制分布的偏度。 随着 alpha 的绝对值增加,skew 的绝对值也增加。 下面我们可以通过查看从分布中提取的随机变量的直方图来检查分布的差异。
概率图
我们使用概率图直观地比较来自不同数据集的数据。 可能的比较包括:
当我们将观测数据与特定理论分布的数据进行比较时,最常见的概率图是中间的概率图。 我将使用这种变体来解释下面的特定类型的图,但是,它也可以应用于其他两种情况。
PP图
简而言之,PP 图 (-) 是一种可视化效果,绘制了两个分布(经验分布和理论分布)相对的 CDF。
用于比较 N(0,1) 与标准正态的完美匹配随机数的 PP 图示例
有关 PP 图的一些关键信息:
N(1,2.5) 与 N(5,1) 比较得出的随机变量
QQ图
与 PP 图类似,图 (-) 允许我们通过比较分位数来比较分布。
QQ图的一些关键信息:
中的示例
我使用一个库来创建类的概率图。
PP图
当我开始使用 PP 创建一些 PP 图时,我注意到一个问题:因为我正在将 N(1,2.5) 的随机抽取与标准法线进行比较,所以这些图完全吻合,但它们不应该吻合。 我试图研究这个问题,并找到了一篇关于 的文章,它解释了为什么当前的实现总是尝试估计理论分布的位置和尺度参数,即使我们提供了一些值。 所以在上面的例子中,经验数据来自正态分布,而不是我们指定的。
这就是为什么我编写了一个函数,直接将经验数据与提供参数的理论分布进行比较。
我们首先尝试使用从 N(1,2.5) 到 N(0,1) 的随机抽取来与 pp 图进行比较。 我们看到,在 的情况下,它是完美拟合,因为该函数估计正态分布的位置和尺度参数。 当检查 pp 图的结果时,我们发现分布存在显着差异,这也可以在直方图上观察到。
N(1,2.5) 和标准正态的 PP 图
我们还尝试解释 PP 图的形状。 为此,我将再次显示图表和直方图。 沿 x 轴的水平移动是由于分布不完全重叠而引起的。 当该点高于参考线时,表示理论分布的CDF值高于经验值的CDF值。
下一个案例是将偏态正态值的随机抽取与标准正态值进行比较。 我们看到的图意味着它不是完美匹配,因为它使得很难找到正态分布的位置和尺度参数来解释所提供数据的偏度。 该图还表明,标准正态分布的 CDF 值始终高于考虑的正态分布偏差的 CDF 值。
偏态正态 (alpha = 5) 与标准正态的 PP 图
注意:我们还可以使用“完美契合”。 为此,我们需要指定 中的理论分布并传递一个附加参数 = (5,) 来指示 alpha 值。
QQ图
我们首先将偏斜正态分布与标准正态分布(使用的默认设置)进行比较。
偏态正态 (alpha = 5) 和标准正态的 图
首先可以观察到的是,这些点形成曲线而不是直线,这通常表明样本数据存在偏度。 解释该图的另一种方法是查看分布的尾部。 在这种情况下,所考虑的偏斜正态分布具有比标准正态分布预期的更轻的左尾和更重的右尾。 我们需要记住,偏移量的分布是变化的,因此这些结果符合我们的预期。
我还想快速浏览一下同一练习的其他两个变体。 在第一个中,我将理论分布指定为偏斜正态分布,并在 中传递 alpha = 5。 这导致了下图,我们在其中看到了线性模式。 然而,线条图案本质上是 45 度线,表明拟合良好。
偏态正态 (alpha = 5) 和标准正态 (alpha = 5) 的 图
第二种方法是比较两个经验样本:一个来自偏斜正态样本 (alpha = 5),第二个来自标准正态样本。 我设置 fit=False 来关闭位置、比例和 .
结果似乎与最初的方法一致。
使用股票收益的示例
我还想展示一个使用 图来评估微软股价是否服从正态分布的实际示例。 结论是尾部的质量一定比通常假设的要大。
MSFT 和 Norma 回归
进一步的实施细节
在qq图方法中,我们可以指定我们想要生成什么样的参考线。 类型有:
下面我对这三种方法进行了比较,我们可以看到它们非常相似。
处理 图时我们可以使用的另一个功能是使用非过剩概率而不是理论分位数。