你好! 大家好,我是“流水不急于争第一,但力争说话不休”的冲,18对非本科生,我在努力! 欢迎大家过来一起交流,学习数据分析。 希望我们能够一起努力学习,天天进步。 我们现在只是一个小小的社群动物~~
案例一主题:学生成绩的主成分分析与神秘关联分析
案例2主题:学生成绩的因素分析与神秘关联分析
案例1:目的和内容
学生的测试是评估学生的学习水平和能力。 当我们只想知道学生的学习水平时,我们可以用一张好的试卷来测试学生的学习水平分布。 但怎样才算一张好的试卷呢? 当然,学习水平好的学生会得到较高的分数,而学习水平差的学生会得到较低的分数。 也就是说,试卷能够真实反映学生学习水平差异的真实分布。 当你想要对学习状况进行整体比较时,可以使用主成分分析来找出主成分。 在本文中,学生的神秘分数连接主成分分析是由六个科目分数线性组合形成的新变量,它可以帮助我们看到学生在六个科目中的学习成绩的综合指标。 教师可以据此发现学生成绩的变化,及时有效地发现学习问题,帮助学生提高成绩,促进教学中的互学互鉴。 教师是人类的灵魂工程师。 少年强则国强,所以这个内容意义重大。
案例2:目的和内容
因子分析是主成分分析的延伸。 它也是一种将多个变量转化为少数综合变量的多元分析方法。 其目的是用有限数量的不可观测变量来解释原始变量之间的相关性。
因子分析的主要目的是: 1、减少分析变量的数量; 2.通过检测变量之间的相关性对原始变量进行分类。 即把相关性高的变量归为一组,用公因子来替代该组中的变量。 在本文中,将使用因子分析来帮助确定学生在这些科目中的表现之间的相关性是否确实可以用文科和理科来表征。
3 主成分分析步骤及结果
数据准备
数据包含52名学生6个科目的成绩
案例1 主成分分析
主成分分析实施流程示例
(1)对原始数据进行标准化,消除变量间大小和量纲的差异。
(2)求标准化数据的相关矩阵。 (ps:存放数据文件的路径各不相同,所以必须先使用setwd(“文件路径”)来设置路径)
(3)求相关矩阵的特征值和特征向量
(4)计算方差贡献率和累计方差贡献率
:方差comp.1到comp.6对应的方差就是它们的信息内容,也就是我们所说的特征值,对应的标准差就是方差的平方根。
of :方差比例
累计方差贡献率
(5) 确定主成分
如上图所示,使用两个主成分,累积方差贡献率变为约82.87,我们认为这已经是一个比较高的值了。
所以我们只使用前两个主要成分。
综合指标只需选择前两项即可
(6)利用原始指标的线性组合计算各分量的得分
(PS:数据中Y1、Y2、Y3、Y4、Y5、Y6这六门科目分别是数学、物理、化学、语文、历史、英语)
z1可以理解为文科平均情况减去理科平均情况。 值越大,文科成绩越好。 值越小,科学性越好。 z1描述了部分情况。
z2是一种相对均衡的情况,类似于我们常用的平均分,称为均衡表现。
四、讨论与分析
进一步探索一些典型学生的样本主成分值/分数
下面几行是6、7、45、30、49、26、33、8号学生的成绩。
红框:可以看到数据相当大。 可以说,以上就是文科减去理科的情况。 数字越大,文科越好。 数字越小,科学性越好。 所以 6、7、45 号学生应该是: 理科成绩比文科好。 如果你看一下原始数据,确实是这样。
蓝框:同样如此。 文科应该比理科好得多。 原始数据如下
绿框:从第二主成分指标来看,为负数。 因为第二主成分前面有负号,所以它越小,负值越大。 这意味着自己的分数应该相当高,均衡分数也应该相当高。 是的,看看原始数据
黄色框:可以看到是一个很大的整数,所以他的总分确实不高。
砾石图
另一种选择主成分数量更合适的方法
主成分总结
数据降维
通常我们会用比原始变量数量更少的主成分来描述尽可能多的数据差异,特别是当原始变量维数很高时,这样可以达到降维的目的。
建立综合指标
主成分分析主要用于构造综合指标来区分目标群体,例如构造顾客的各种消费行为的综合指标来对顾客进行分类。
4.因子分析步骤及结果
查看相关系数矩阵
猜测:一般来说前三个似乎相关性比较大,后三个相关性比较大。所以暂时将因子模型定位如下:
使用最大似然法来估计载荷矩阵:
是的,这意味着保留两个公因数。 如下图所示,可以看到累积方差贡献率为0.745
![在此插入图片描述](,pdGk,,j,,,t_70
通过自定义包尝试主成分方法:
可以看到,累积方差达到了82.87,比使用最大似然法估计的效果要好。 也许最大似然法是基于分布的,而分布并不是那么正态,所以后面会讨论主成分法。 分析。 如果主成分法不旋转,其载荷矩阵如下所示(如下图)。
可见,解释并不是那么明显。 我不知道每个因素意味着什么,所以我使用旋转因素的方法。
计算旋转因子载荷:
可以看到,旋转后,累积方差贡献率没有变化,但是两个因子的载荷发生了很大变化。 可以看到,第一公因数基本决定了Y4、Y5、Y6,第二公因数主要决定了Y4、Y5、Y6。 前三个,剩下的值很少,我们可以忽略它们,这告诉我们一个比较简单的方法
为了解释第一和第二个因素,第一个寻找最后三个变量的共同点,即语文、英语、历史和文科,第二个是数理化和科学。
在旋转的因子空间中,两个坐标轴都经过许多点,所有这些点都靠近坐标轴。
因子轮换的作用
旋转后,因子的含义变得更加清晰
所以通过我们的相关性和因子分析,我们基本上可以把我们的变量分为两类,一类是语文、历史、英语、文科(一定程度上),另一类是数学、物理、化学。 科学。 通过这个案例,通过其相关性以及学生在这些科目中的表现,可以得出结论,将科目划分为文科和理科是合理的。
计算样本因子得分
可以看出,有的学生文科很好,有的理科很好,有的很好,有的很差。
图纸展示
第一个横轴是文科,对应第一个公因子,第二个轴是y轴,也就是理科因子。
如上图所示,我们可以分析一些尖子生和差生的结论,以及他们对科目的偏向。
5、主成分分析与因子分析的综合比较讨论与分析
总结
专栏学习
01【数据分析实战项目】:无人智能售货机商业分析、在线课程智能推荐、学术前沿趋势分析
02【算法--数据挖掘】:机器学习--吃瓜教程!、集成学习、深度学习学术前沿趋势分析
03【天池数据挖掘大赛】:心电信号多类别分类、新闻推荐参赛参赛系统项目
04【数据分析】:Numpy数值计算基础、数据可视化基础、统计分析基础、数据预处理、-learn模型搭建
过去问题的亮点
01【数据分析师常见面试题】:基础知识测试、概率论与数理统计、数据挖掘、常用模型介绍、数据分析师必备技能等。
02【基于条件随机场模型的中文分词】:中文分析、代码实现
03【开源项目】:开源项目分数/数字挖掘学习路线
欢迎关注我,交流、学习和探索数据分析的世界,洞察数据! 努力接受社会的殴打吧~~
@翀-我的博客主页