算法题：降维（第二部分）——线性判别分析LDA

2024-03-09 03:02:38 阅读 0

本文更新了2个主题：

对于带有类别标签的数据，应该如何设计目标函数，才能在降维过程中不丢失类别信息？在这样的目标下我们应该如何解决这个问题呢？ LDA和PCA是经典的降维算法。如何从应用角度分析它们原理上的异同？从数学推导的角度来看，两种降维算法在目标函数方面有何区别和联系？

如果觉得有用，记得点赞哦。不喜欢就学不了~

--------------------------详细问题---------------------- ---- ----------

介绍：

LDA是一种监督学习降维技术，意味着其数据集的每个样本都有一个类别输出。这与PCA不同。 PCA是一种无监督降维技术，不考虑样本类别输出。以下图为例。根据PCA算法，数据应该映射到方差最大的方向，即y轴方向。但两种不同类别的数据会完全混合在一起，难以区分。因此，使用PCA算法进行降维再分类的效果会很差。但使用LDA算法，数据会被映射到x轴方向。

二维设计分割_二维最大类间方差(otsu)阈值分割方法_二维构成分割

LDA的思想可以用一句话概括，那就是“投影后类内方差最小，类间方差最大”。这意味着什么？我们需要将数据投影到低维度。投影后，我们希望每一类数据的投影点尽可能靠近，并且不同类别数据的类别中心之间的距离尽可能大。

刘峰：——LDA线性判别分析原理

喻喻喻喻：LDA线性判别分析

1. 对于有类别标签的数据，应该如何设计目标函数，才能在降维过程中不丢失类别信息？在这样的目标下我们应该如何解决这个问题呢？

LDA的任务是分类。因此，只要找到一个投影方向w，就可以尽可能地将投影样本按照原来的类别进行分离。

我们从一个简单的二分类问题开始，样本来自两个类别：C_1 和 C_2。这两个类别的均值是： \mu=\frac{1}{N_1}\sum_{x\in C_1}x 、 \mu =\frac{1}{N_2}\sum_{x\in C_2}x 。为了达到分类效果，我们希望投影后两个类别之间的距离尽可能大，即：(C_1,C_2)=||\tilde{\mu_1}-\tilde{\mu_2}| |_2^2 \ \

其中，\tilde{\mu_1},\tilde{\mu_2}表示两类中心在w方向的投影向量，\tilde{\mu_1}=w^\top\mu_1,\tilde{\mu_2 }=w ^\top\mu_2，因此，我们需要优化的问题是：

二维最大类间方差(otsu)阈值分割方法_二维设计分割_二维构成分割

当w方向与(\mu_1-\mu_2)一致时，距离达到最大值。例如，当下图中黄色和棕色类别的样本点降维时，如果遵循两个类别投影中心距离最大化的准则，则样本点将被投影到黑色线上以下。但本来可以线性划分，但是投影后，出现了一定程度的重叠，如图(a)所示，这显然不好。我们希望得到的投影结果如图(b)所示。虽然投影后两个类别中心之间的距离有所减小，但投影后样本的可区分性确实得到了提高。

仔细看，投影的样本点似乎更集中在每个类别中，也就是说每个类别内的方差比图a中的要小。这就是LDA的中心思想：最大化类间距离，最小化类内距离。

二维设计分割_二维构成分割_二维最大类间方差(otsu)阈值分割方法

我们将整个数据集的类内方差定义为每个类的方差之和，并将目标函数定义为类间距离与类内距离的比值。我们需要最大化的是：

二维构成分割_二维最大类间方差(otsu)阈值分割方法_二维设计分割

定义类间散度矩阵：

S_B=(\mu_1-\mu_2)(\mu_1-\mu_2)^\top\\ 类间散度矩阵： S_w=\sum_{x \in C_i}(x-\mu_i)(x-\mu_i)^ \顶部 \\

此时，J(w)可写为：

二维构成分割_二维设计分割_二维最大类间方差(otsu)阈值分割方法

然后，

由于我们现在正在解决二分类问题，因此 w^\top S_ww 和 w^\top S_Bw 是两个数字。我们令\=J(w)=\frac{w^\top S_Bw}{w^ \top S_ww} ，则有，S_Bw=\S_ww。

整理一下，得到，S_w^{-1}S_Bw=\w。

从这里可以看出，我们的最大化目标对应的是一个矩阵的特征值，所以这个问题就从LDA降维转化为求矩阵特征向量的问题。

J(w)对应矩阵S_w^{-1}S_B的最大特征值，投影方向就是该特征值对应的特征向量。也就是说，我们只需要求出样本的均值和类内方差，就可以立即得到最佳投影方向w

2.LDA和PCA是经典的降维算法。如何从应用角度分析它们原理的异同？从数学推导的角度来看，两种降维算法在目标函数方面有何区别和联系？

首先，将LDA扩展到多类别高维情况，以对应PCA中的求解问题。

假设有N个类别，最终需要将特征降维到d维。因此，我们需要找到一个d维投影超平面W=\left\{\,\,...,\\right\}，使得投影后的样本点满足LDA的目标，最大化类间距离，最小化类内距离。

回顾两个散度矩阵，当类别增加到N时，类内散度矩阵S_w=\sum_{x \in C_i}(x-\mu_i)(x-\mu_i)^\top仍然满足定义，而前面两个类问题的类间散度矩阵S_b=(\mu_1-\mu_2)(\mu_1-\mu_2)^\top在类别数增加后就不能遵循原来的定义了。下图展示了三类样本的分布情况。 \mu 表示这三个中心的均值（即所有样本的中心），S_{wi} 表示第 i 类的类内散度。于是定义一个新的矩阵S_{t}来表示全局总体散度，称为全局散度矩阵： S_t=\sum_{i=1}^{n}(x_i-\mu)(x_i-\mu) ^\顶部 \\

二维设计分割_二维最大类间方差(otsu)阈值分割方法_二维构成分割