大家好,我是老乔,这是超智星球的《超智能·统计学》系列课程。
统计归根到底主要就是这两件事,永远都是一样的。 我们提到统计学主要分为描述性统计和推论性统计。
在前面的十几篇文章中,我们已经涵盖了描述性统计的所有内容:
在本章中,我们将开始研究推论统计。 本文字数2717字,预计时长7分钟。
1 概率论与统计学
在学习之前,我们先回顾一下本系列开头的内容。 在超级智能星球统计系列的第一篇文章中,我们提到统计研究不确定性。 《超智能·挖掘》浅谈统计
不确定的问题,从另一个角度理解,就是概率问题。 从“研究概率问题”的角度来看,概率论与统计学密切相关。
两者都是研究随机现象的数量规律的学科。 两者的区别可以用一张图体现的淋漓尽致:
换句话说,概率论就是——我知道盒子里面有什么,我想知道我手里的球是什么样子的概率。 统计就是——我不知道盒子里面是什么样子,但是我已经知道我手里的球是什么样子,并且我想根据我手里的球的样子来推断盒子是什么样子。
这里,桶中的球可以称为群体。 你手中的球可以称为样本(样本量为1的样本)。
2总体
总体()是指客观存在的、在同一性质基础上组合的许多个体单位的整体。 它通常由被研究的个体组成。 例如:
* 在多个企业组成的群体中,每个企业都是一个个体;
* 在由多个家庭组成的人口中,每个家庭都是一个个体;
* 在由多人组成的群体中,每个人都是一个个体。
确定整体和个体,必须注意两个方面:
1.组成种群的个体必须是同质的,不同的个体不能混入种群中。
例如,在研究劳动者工资水平时,只有依赖工资的劳动者才能纳入统计人群范围。 同时,只能审查员工的工资收入,必须排除员工从其他来源获得的收入。 只有这样才能准确反映员工的薪资水平。
2、整体和个体是相对的,随着研究任务的变化而变化。
同一个人可以是一个群体或一个群体单位。 例如,如果要了解全国工业企业员工的工资收入,那么所有工厂就是合计,每个工厂就是个体。 如果目的是了解某个企业员工的工资收入,那么企业就成了整体,而每个员工的工资就是一个个体。
明确了上述一些基本概念后,我们可以将它们联系起来并进行观察,从而深入了解人群。 可见,统计总体具有同质性、数量大、差异性三个主要特征。
1、同质性:同质性是指总体中的每个单位必须具有一些共同的属性或象征价值。 例如,国有企业集团中每个企业的共同标志属性就是国家所有。 同质性是人口的基本特征。 只有个体单位同质化,统计才能通过对个体特征的观察和研究,总结和揭示总体的综合特征和规律。
2、大规模:大规模是指总体中包含足够数量的总体单位。 整体是由许多个体在一定的同一性质基础上组合而成的整体。 个别或几个单位不能构成整体。 整体的数量较多,可以使个别单位的一些偶然因素的影响——表现为数量高低之差——相互抵消,从而表现出整体的本质和规律性。
3、差异:差异是指各单位人口之间以一个或几个变量的质量标志或数量标志所表现出来的差异。 例如,某领域员工中,单位之间男女性别属性存在差异,20岁、21岁、22岁等年龄标记数值存在差异年龄,23岁,24岁,25岁,26岁等
3个样品
样本 () 是从总体中提取的元素的集合。 组成样本的元素数量称为样本量(),也称为样本量或样本水平。 从数学上来说,样本是总体的子集。
例如,为了了解某地区10岁至15岁儿童的血钙水平,随机抽取该地区3000名10岁至15岁儿童进行血钙检测,则:
* 总体而言,这是该地区所有10至15岁儿童的血钙检测值
*样本为选取的3000名儿童的血钙检测值
*样本量/样本数量/样本水平为3000例
样本是从总体中抽取的,并作为总体的代表,是部分单位的集合。 抽样时应注意以下问题:
1.样本的单位必须取自总体
2. 可以从总体中抽取多个样本
3.保证样本的客观性和代表性
选择样本的过程称为抽样,其基本要求是保证所选取的样本单位能够充分代表所有样本。 根据不同的对象,采样方法也不同。 后面我们会讲到抽样方法和抽样规模。
抽样的目的是根据样本提供的信息推断总体的特征。 例如,从一批灯泡中随机选择 100 个灯泡。 这100个灯泡构成一个样本,然后根据这100个灯泡的平均使用寿命推断出该批次灯泡的平均使用寿命。
4 我们再谈谈描述性统计和推论性统计
我们研究一个问题时,一般来说,如何全面收集数据的特点是综合调查,得到的是总体综合统计数据。 那么使用描述性统计的目的就是为了了解总体目的。
如果总体中包含的个体数据非常大,在人力、物力、财力、时间上进行如此全面的调查是不经济、不切实际的,可以采用抽样统计的方式来获取样本信息。 采用的方法是从样本中推断总体。 这就是推论统计想要解决的问题。
这两部分的核心区别在于我们观察到的样本是否等于总体。
样本=总体,那么就可以用描述性统计来描述我们所研究的现象。
样本≠总体,那么利用推论统计可以更准确地描述我们正在研究的现象。
推论统计还需要收集数据并执行必要的处理方法。 描述性统计方法是所有统计的基础。 这两个统计分支经常互换使用,并不是绝对孤立的。 逐渐发展出相互统一的关系。
事实上,近年来大数据的热门趋势是由于技术(传感器等)的发展。 我们可以获得足够的数据,可以近似等于全样本甚至整个样本,而不是之前的样本数据。 换句话说,这是一场由数据引发的革命。 驱动的变化。
5 本文总结
如果你看到这个,那我真的很高兴。 如果您觉得这篇文章有帮助。
本章我们从统计学和概率论的区别出发,介绍了总体和样本这两个基本概念,并进一步介绍了描述性统计和推论性统计的区别。
参考
1. 张向平,张金槐,谢宏伟。 关于样本量、预检验信息与贝叶斯决策风险的几点探讨[J]. 电子学报,2003,31(4):536-538。
2.【美】克什。 抽样调查。 北京:中国统计出版社,1997:25
3.楚泉子。 抽样方法。 三民书局,1993。
4.贾俊平,何晓群,金庸。 统计学(第四版):中国人民大学出版社,2009:7
5.王子坤。 概率论基础及其应用[M]. 北京师范大学出版社,2007。
6. 吴阳,陈兆荣. 统计数据。 合肥:安徽大学出版社,2013:13
7. 匿名。 人口与样本[J]. 检验医学与临床,2017(19):2093-2093。