当前位置：文档视界 › 统计学三大分布及正态分布的关系

统计学三大分布及正态分布的关系

统计学三大分布与正态分布的关系

[1]

张柏林 41060045 理实1002班

摘要：本文首先将介绍2χ分布，t 分布，F 分布和正态分布的定义及基本性质，

然后用理论说明2χ分布，t 分布，F 分布与正态分布的关系，并且利用数学软件MATLAB 来验证之.

1.三大分布函数[2]

1.12χ分布

2()n χ分布是一种连续型随机变量的概率分布。这个分布是由别奈梅(Benayme)、赫尔默特(Helmert)、皮尔逊分别于1858年、1876年、1900年所发现，它是由正态分布派生出来的，主要用于列联表检验。

定义：若随机变量12n ,,X X …X 相互独立，且都来自正态总体01N （，）

，则称统计量222

212n =+X X χ++…X 为服从自由度为n 的2χ分布，

记为22~()n χχ. 2χ分布的概率密度函数为

122210(;),2()200n x n x e x n f x n x --?≥??=Γ???

其中伽玛函数1

(),0t x x e t dt x +∞

--Γ=

，2χ分布的密度函数图形是一个只取非负值的偏态分布，如下图.

卡方分布具有如下基本性质：

性质1：22(()),(())2E n n D n n χχ==；

性质2：若221122(),()X n X n χχ==，12,X X 相互独立，则21212~()X X n n χ++；

性质3：2

n χ→∞→时，（

n ）正态分布；性质4：设)(~2

2n α

χχ，对给定的实数),10(<<αα称满足条

件:αχχα

χα

==>?+∞

)

22)()}({n dx x f n P 的点)(2

n α

χ为)(2n χ分布的水平α的上侧分位数. 简称为上侧α分位数. 对不同的α与n , 分位数的值已经编制成表供查

用.

2()n χ分布的上α分位数 1.2t 分布

t 分布也称为学生分布，是由英国统计学家戈赛特在1908年“student ”的笔名

首次发表的，这个分布在数理统计中也占有重要的位置.

定义：设2

~0~X N χ（，1），Y （n ），,X Y 相互独立，，则称统计量/T Y n

服从自由度为n 的t 分布，记为~()T t n .

t分布的密度函数为

()

(;)(1),.

()

t x n t

n n

nπ

=+-∞<<+∞

t分布的密度函数图

t分布具有如下一些性质：

性质1：()

f t是偶函数，

,()()

n f t t e

→∞→=

；

性质2：设)(

，对给定的实数),1

0(<

<α

α称满足条件；

>?+∞)()(

)}

(

{

P的点)(n

tα为)(n t分

布的水平α的上侧分位数. 由密度函数)(x

的对称性，可得).

(

)

(

tα

类似地，我们可

以给出t分布的双侧分位数

)

(

)

(

)}

(

)

(

)

(

/α

?+∞

∞

-n

显然有.

)}

(

{

;

)}

(

{

P对

不同的α与n ，t 分布的双侧分位数可从附表查得.

t 分布的上α分位数

1.3F 分布

F 分布是随机变量的另一种重要的小样本分布，应用也相当广泛. 它可用来

检验两个总体的方差是否相等，多个总体的均值是否相等. F 分布还是方差分析和正交设计的理论基础.

定义：设22~(),~()X n Y m χχ，,X Y 相互独立，令则称统计量//X n

F Y m

=服从为第一自由度为n ，第二自由度为m 的F 分布.

F 分布的密度函数图

F 分布具有如下一些性质：

性质1：若~(,),1/~(,)F F n m F F m n 则；性质2：若)(~n t X ，则2~(1,)X F n ；

性质3：设),(~m n F F α，对给定的实数),10(<<αα称满足条件；

ααα==

+∞

)

,()()},({m n F dx x f m n F F P

的点),(m n F α为),(m n F 分布的水平α的上侧分位数.

F 分布的上α分位数

F 分布的上侧分位数的可自附表查得.

性质4：.)

,(1

),(1m n F n m F αα-=此式常常用来求F 分布表中没有列出的某些上侧

分位数.

1.4正态分布

正态分布是数理统计中的一种重要的理论分布，是许多统计方法的理论基础. 高斯（Gauss ）在研究误差理论时首先用正态分布来刻画误差的分布，所以正态分布又称为高斯分布. 正态分布有两个参数，μ和σ，决定了正态分布的位置和形态. 为了应用方便，常将一般的正态变量X 通过u 变换转化成标准正态变量u ，以使原来各种形态的正态分布都转换为μ=0，σ=1的标准正态分布N （0，1）

. 正态分布的密度函数和分布函数

若连续型随机变量X 具有概率密度()f x 为

()2(),,x f x x μσ--=-∞<<+∞其中,(0)μσσ>为常数，则称X 服从参数

为μσ，的正态分布，记为2~()X N μσ，.

正态分布的密度函数图

特征1：正态曲线（normal curve）在横轴上方均数处最高；

特征2：正态分布以均数为中心，左右对称；

特征3：正态分布有两个参数，即均数μ和标准差σ. μ是位置参数，σ固定不变时，μ越大，曲线沿横轴越向右移动；反之，μ越小，则曲线沿横轴越向左移动. σ是形状参数，当μ固定不变时，σ越大，曲线越平阔；σ越小，曲线越尖峭. 通常用2

（，）表示均数为μ，方差为2σ的正态分布. 用

Nμσ

N（0，1）表示标准正态分布.

特征4：正态曲线下面积的分布有一定规律。实际工作中，常需要了解正态曲线下横轴上某一区间的面积占总面积的百分数，以便估计该区间的例数占总例数的百分数（频数分布）或观察值落在该区间的概率. 正态曲线下一定区间的面积可以通过标准正态分布函数表求得。对于正态或近似正态分布的资料，已知均数和标准差，就可对其频数分布作出概约估计.

2. 三大分布与正态分布的密度函数比较[3]

2.12χ分布收敛于正态分布

设2~()X n χ，则对任意x

，有2

/2lim )x

t n P x e dt --∞→∞

≤=.

证明：因为2

()n χ分布的2

221

()()()()n

i i i i E E x E x D x n χ=======∑∑∑

221

()()()2n n

i i i i D D x D x n χ=====∑∑

所以由独立同分布中心极限定理得(0,1)Y N =

→ 因为122/21~,0()22

n x n X x e x n -->Γ

且y =

所以x n =+ 因为()()Y X f y dy f x dx =

所以11()

22/2

()()()22

n n Y n dx f y n e n dy

--=Γ

=111()

/21(1)()22

n n n n n e n ---+

令2n m =，利用Stirling

公式：1

m!,012m m m m m e e m

θθ-=??<< 则上式

1()

)(1)m m m m e ---

1()

)(1)m m m m e ---

11()

)(1)m m m m e ---+

(1)1)m m e --

y n -→∞

???

所以2χ分布的极限分布为正态分布.

下面用MATLAB 来验证上面结论，首先定义2()n χ分布函数和相应的正态分布

(,2)N n n ，再依次增大n ，比较两者关系：[4]

从上面三个图形可以看出，n 越大，2()n χ分布密度函数与正态分布(,2)N n n 度函数越接近，这就和所证结论相符合.

2.2t 分布收敛于标准正态分布

若n X 服从自由度为n 的t 分布，2

/2lim ()2x

t n n P X x e dt π

--∞

→∞

≤=

（1）

证法1：由于自由度为n 的t 分布的概率密度函数为

()

p(;)(1),

()

x n x

n n

+-∞<<+∞

因此（1

）式等价于2/2,

→∞

-∞<<+∞

lim（2）先利用Stirling

公式：1

m!,0

m m m

m e e

θθ

=??<<

证明

()

→∞

lim

事实上，利用Γ函数的性质

1132121 ().......()

22222

242222

()......()

2222

n n n n k n k

+---+-+

ΓΓ

---+-+

(1)(3)......(21)()

2)(4)......(22)()

n k

n n n k

n k

n n n k

---+Γ

当2

n k

=时

()(21)(23)......1()

()

k k

Γ--?Γ

2212

()

2())

k k

≈

(21)

(1)

22(1)

?-?

(1))

k n

k e

=+?→→∞

当21

n k

=+时亦可推出同样的结果。

另外，由特殊极限公式可得

112

()2

lim(1)lim[(1)]n

n x n x x n n n x x e

++?--

→∞

综合上诉，即证明（2）式

所以，t 分布的极限分布是正态分布.

下面用MATLAB 来验证上面结论，首先定义()t n 分布函数和相应的正态分布

(0,

N n -，再依次增大n ，比较两者关系:

从上面三个图形可以看出，n 越大，()t n 分布密度函数与正态分布(0,)2

N n -度函数越接近，这就和所证结论相符合.

2.3F 分布收敛于标准正态分布

若//X m

F Y n

服从为第一自由度为m ，第二自由度为n 的F 分布，则2

/2lim ()2x

t n n P X x e dt π

--∞

→∞

≤=

证明：m /m 1P

Y →∞??

→当时所以/n L

F X ??→

因为222

(/)1,(/)n E X n D X n n n

= 所以由中心极限定理，当→∞n 时

(0,1)2L

N n

??→ 所以F 分布的极限分布是正态分布.

下面用MATLAB 来验证上面结论，首先定义(,)F m n 分布函数和相应的正态分

布222(2)(

,)2(2)(4)

n n m n N n m n n +----，再依次增大n ，比较两者关系:

从上面三个图形可以看出，n 越大，(,)F m n 分布密度函数与正态分布

222(2)(,)2(2)(4)

n n m n N n m n n +----度函数越接近，这就和所证结论相符合.

在实际应用中我们往往在取得总体的样本后，通常是借助样本的统计量对未知的总体分布进行推断，为此须进一步确定相应的统计量所服从的分布，正态分布、2()n χ分布、t 分布、F 分布是统计学最基本的四种分布，而2()n χ分布、

t 分布和F 分布又都收敛于正态分布，可见正态分布在统计学中的地位. 实际上，

证明2()n χ分布、t 分布和F 分布收敛于正态分布的方法很多，本质上都是应用了大数定理和中心极限定理.既然三大抽样分布都收敛于正态分布，则当样本容量很大时，就可以用正态分布来近似三大抽样分布. 本文主要还利用了计算机软件来验证数学上的理论证明，在现代数学学习中，我们是离不开计算机的，因此我们也应多学习一些软件的使用.

参考文献：

[1]XX 学士学位论文. 统计学三大分布与正态分布的差异. 扬州大学．2010

[2]范玉妹，汪飞星，王萍，李娜. 概率论与数理统计. 机械工业出版社．2007

[3] 宗序平，俊，伟. 统计学上三大分布推导方法.2009

[4] 王福昌，曹慧荣. 2()n

分布、t分布和F分布的近似计算. 2008

[5]李贤平，沈崇圣，陈予毅.概率论与数理统计.复旦大学出版社.2005