了解中心极限定理(转载)

马克.吐温讽刺道:有三种避免讲zhenxiang的方式:谎言,该死的谎言和统计数据。这个笑话很中肯,因为统计信息频繁地看似一个黑匣子——了解统计定理怎样让通过数据取得结论变成可能,这是有难度的。但因为不论是喷气发动机可靠性还是安排我们平日看的电视节目的流程,数据分析,类似的任何事情中都扮演着重要角色,所以至少获取对统计基本理解是重要的。要了解其中一个重要概念是中心极限定理。

在这篇文章中,我们将解释中心极限定理,通过普通的例子,诸如掷骰子和美国职业棒球联赛球员生日来展示如何操作它。

定义中心极限定理
某典型课本对中心极限定理的定义如下:
当样本容量增加时,样本均值X的分布接近均值等于μ,标准差σ/√n

注:
μ是总体均值
σ是总体标准差
n是样本大小

换句话说,如果我们多次采用大小为n的独立随机抽样,那么当n足够大的时,样本平均值的分布就接近正态分布。

那么多大才是足够大呢?一般来说,样本容量大于或者等于30认为是足够大,此时中心极限定理起作用。如果总体分布越要接近正态分布,那么需要更多的样本来使用该定理。对于严重不对称的或者有几个模板的总体来说,也许要求更大的样本。
从一个总体中收集所有的数据是很难操作或者不可行的,统计学就是基于这个情况产生的。换种方式来做,我们可以从总体中获取数据的子集,然后对这个样本进行统计分析,以得到总体的结论。

举例来说,我们可以从工业生产流程中收集多个随机样本,然后使用各个样本的平均值来推断整个过程的稳定性。2个常用于解释总体的特征值分别是平均值和标准差。当数据遵循正态分布,均值表示分布的中心位置,标准差揭示分布情况。
想象你在获取你做过的考试结果,除了接收你自己的成绩以外,你也要知道你同辈的平均分,然而,如果考试成绩不符合正态分布,平均分就容易让人造成误解了。
中心极限定理是卓越的,因为它暗示,无论总体分布如何,样本均值的分布将接近正态分布。该定理也允许我们对样本均值或许采取的价值的可能变化范围做可能性声明。这是因为正态分布有一个有用的东西——经验法则。规则阐明:对于正态分布的数据,
68%的数据在μ左右的1个σ内下降
95%的数据在μ左右的2个
σ内下降
99.7%的数据在μ左右的3个σ内下降
观看定理运用
观看它怎样使用时得中心极限定理更容易理解,我们将运用该理论到骰子和生日中。

例子1:掷骰子

为了说明中心极限定理,骰子是理想的,如果你掷有6面的骰子,掷到1的概率是1/6,2的概率是1/6,3的概率是1/6,以此类推……骰子落在任何一面的概率与任意其他5面的概率相等。

在教室的情况下,我们用真实的骰子进行这样的实验。二者择一的,我们可以使用Minitab的计算表》随机数据》整数菜单来节省时间。为了获得一个

总体的准确表示,让我们掷500次。当我们用柱形图来注标数据时,我们看到——和预期一样——分布看起来相当平坦,这肯定不是正态分布。

让我们取更多样本,看那些样本的均值的柱形图有何变化。

这次我们将连续掷2次骰子,重复这样的操作500次,同样的,我们用计算表》随机数据》整数来为大家
“掷”骰子。那么我们可以用计算表组统计值来计算每对的平均值。

之后,我们可以创建这些平均值的直方图来观看他们分布的形状,虽然蓝色的标准曲线没有准确的代表直方图,柱形的轮廓看起来更像铃。

现在我们掷5次,计算掷5次的平均值,依旧重复500次,然后我们重复掷10次,然后30次。

每个平均值的直方图显示:随着样本大小,或者掷的次数增加,平均值的分布越来越接近正态分布。除此以外,样本平均值的方差随样本大小的增加而减少。

中心极限定理阐明,对于足够的大n,X接近正态分布的均值μ和标准差σ/√n。

一个6面骰子的总体均值是(1+2+3+4+5+6) /6 = 3.5,并且总体标准差是1.708。 因此,如果定理适用,三十次的平均值的均值应该约为3.5,以及标准差1.708/√30 = 0.31。 使用我们在Minitab中掷过的骰子, 30次平均值的均值,在表4中有描述,为3.49,标准差为0.30。这2个数值跟计算的近似值很接近。

例子2:生日

现在我们使用生日展示中心极限定理。你将回想到骰子的每边有同等的概率。与大众的信仰相反,出生在周日与出生在周一,或者一周中的其他一天有相同的机会是没有必要的,当前,在美国最普遍的生孩子的日子是周三——周三比平日多15.4%的婴孩出生。但从1990年到2006年,星期二是最普遍的生日。
为了用生日演示中心极限定理,我们首先需要收集一些生日。学生可以收集他们朋友、家人和同事的生日。我们将使用700多个美国职业棒球大联盟球员的生日。这些文件可以在mlb.com查到。
    当然,大多数生日信息不会包括一周的哪一天。但是使用Minitab的数据>摘录日期/时间>数字化。我们不难发现每名棒球运动员出生在哪一天。例如,Minitab可以告诉我们,杰特,他生日是1974年6月26日 ,是出生在周三的。

相当于周日,2相当于周一,以此类推,建立直方图。我们看棒球运动员总体的直方图,我们可以看到生日不遵循正态分布。并且周二(3)是最流行的一天。

就像我们做的骰子实验一样,现在我们将创建多个大小为2的样本,随机取2个队员,然后另外2个,等等。让我们总共取100个样本,从工作表数据中随机取队员生日,我们可以用试算表>随机数据>列取样。

然后让我们使用试算表>行统计对任意大小为2的样本计算平均生日。

我们将重复随机取样5名队员做平均值,然后10名队员,然后30名,对每组的平均值建立直方图。

在原始的700多名棒球运动员的直方图中,我们看到一个非正态分布,当我们看平均值的直方图时,我们看到马上就像正态分布,以及样本大

这个理论也许通常不能再统计界外被讨论,但这是一个重要的概念。我们可以通过骰子、生日、硬币上的日期、航班延误、循环周期所进行的论证来更容易的理解。

随着对中心极限定理以及其他统计概念更好的理解,求知欲强烈的学生将很快发现能够更容易区分谎言、该死的谎言、违背完备统计信息的真理。

(本文转载自网络)

发表评论

电子邮件地址不会被公开。 必填项已用*标注