当前位置：文档视界 › (完整word版)统计学三大分布与正态分布的关系

(完整word版)统计学三大分布与正态分布的关系

统计学三大分布与正态分布的关系

[1]

张柏林 41060045 理实1002班

摘要：本文首先将介绍 2分布，t 分布，F 分布和正态分布的定义及基本性质，然后

用理论说明2分布，t 分布，F 分布与正态分布的关系，并且利用数学软件 MATLAB 来验证之.

1.三大分布函数[2]

1.1 2分布

2（n ）分布是一种连续型随机变量的概率分布。这个分布是由别奈梅

（Benayme ）赫尔默特（Helmert ）、皮尔逊分别于1858年、1876年、1900年所发现，它是由正态分布派生出来的，主要用于列联表检验。

定义：若随机变量X 1,X 2,…X n 相互独立，且都来自正态总体 N （0,，）,则称统计量

=x ； X ；…+X ；为服从自由度为n 的2分布，记为

2 2

~ （n ）.

分布的概率密度函数为

1 x

e 2 x 0

x 0

其中伽玛函数（X ） e t t x 1dt,x 0，

分布的密度函数图形是一个只取非负值

的偏态分布，如下图?

x 2 n

2° f(x; n)

2(n2) ,X!,X2相互独立，则X! X2~ 2g n2);

性质3: n 时，2(n) 正态分布;

性质4:设2~ 2(n),对给定的实数

(0 1),称满足条件：

P{ 2 2(n)} 2(、f(x)dx

(n)

的点2(n)为2(n)分布的水平的上侧分位数.

简称为上侧分位数.对不同的与n,分位

数的值已经编制成表供查

分布，是由英国统计学家戈赛特在1908年“student的'笔名

布在数理统计中也占有重要的位置.

1), Y?2(n), X,Y相互独立，，则称统计量T —X

VY/ n

分布，记为T~t( n).

为

性质1: E( 2(n)) n,D( 2(n)) 2n ; 性质2:若X! 2(nJ,X2

t 分布具有如下一些性质:

P{T t (n)} t (n )f (x )dx 的点 t(n)为 t( n)分

布的水平的上侧分位数.由密度函数f(x) 的对称性，可得t 1 (n) t (n).类似地，我们可以给出t 分布的双侧分位数

t /2(

)

P{|T|t /2( n)} f (x)dx t ,、f(x)dx

t /2(n)

显然有 P{T t /2

(n)}

P{T t /2 (n)}-.

对不同的与n ，t 分布的双侧分位数可从附

表查得.

t 分布的上分位数

t(x; n)

士 (1J

(”

t 分布的密度函数图

t 2

性质1 : f n (t)是偶函数，n

，

f n (t)

性质2 :设T~t (n)，对给定的实数(0

1),称满足条件;

1.3 F分布

F 分布是随机变量的另一种重要的小样本分布，应用也相当广泛.它可用来检验两个总体的方差是否相等，多个总体的均值是否相等? F分布还是方差分析和正交设计的理论基础.

定义：设X?2(n ),Y~ 2(m)，X,Y相互独立，令则称统计量F 冬耳服

Y/m 从为第一自由度为n，第二自由度为m的F分布.

F分布的密度函数图

F分布具有如下一些性质:

性质1:若 F ~F(n,m),贝M/F ?F(m,n)；

性质2:若X ~t(n)，则X2 ~ F(1,n)；

性质3:设F?F (n,m)，对给定的实数

P{F F (n,m)} f(x)dx

F (n,m)

的点F (n,m)为F(n,m)分布的水平的上侧

(0 1),称满足条件;

艮個］T,叶

分位数.

F 分布的上分位数

F 分布的上侧分位数的可自附表查得?

性质4: F (m,n) 1 .此式常常用来求F 分布表中没有列出的某些上

F i (n,m)

侧分位数. 1.4正态分布

正态分布是数理统计中的一种重要的理论分布，是许多统计方法的理论基

础.高斯(GausS 在研究误差理论时首先用正态分布来刻画误差的分布，所以正态分布又称为高斯分布.正态分布有两个参数，卩和(T,决定了正态分布的位置和形态.为了应用方便，常将一般的正态变量X 通过u 变换转化成标准正态变

量u ，以使原来各种形态的正态分布都转换为正态分布的密度函数和分布函数

若连续型随机变量X 具有概率密度f (x)为

为，的正态分布，记为X ~ N( ， 2).

特征1:正态曲线(normal curve )在横轴上方均数处最高;

卩=0 CT =1的标准正态分布N( 0， 1).

,其中,(0)为常数，则称X 服从参数

f(x)

-3-2-10123

正态分布的密度函数图

特征2:正态分布以均数为中心，左右对称；特征3:正态分布有两个参数，即均数和标准差越小，曲线越尖峭?通常用N( , 2)表示均数为，方差为 2的正态分布用N( 0, 1)表示标准正态分布.

特征4:正态曲线下面积的分布有一定规律。

实际工作中，常需要了解

正态曲线下横轴上某一区间的面积占总面积的百分数，以便估计该区间的例数占总例数的百分数(频数分布)或观察值落在该区间的概率

?正态曲线

下一定区间的面积可以通过标准正态分布函数表求得。对于正态或近似正态分布的资料，已知均数和标准差，就可对其频数分布作出概约估计

2.三大分布与正态分布的密度函数比较[3]

2.1 2分布收敛于正态分布

2(n)，则对任意x ，有n m P (帶

t 2/2

证明：因为 n

(n)分布的 E( 2) E( x 2)

E(X j 2)

i 1

D(X )

i 1

D( 2) D( X i 2)

i 1

D(x 2)

所以由独立同分布中心极限定理得 Y X 」，N(0,1)

v2n

因为X ~

n 1 x 2 2

x 2

2,x

)2n/2 2

所以 x n ?. 2ny 因为 f Y (y)dy

f x (x)dx

是位置参数, 固定不变时，越大，曲线沿横轴越向右移动；反之, 越小，则曲线沿横轴越向左移动

是形状参数，当

固定不变时,

越大，曲线越平阔;

n 1

所以 f Y (y)

—(n 、,2Hy)21e*n 旳

(尹2

n 2 (1 ,2n (-)2n/2

2 占1 ；(n ?阿 y)

y)2 e 2 n

■. 4m(m 1)!2m

(2m

)m1(1

所以2分布的极限分布为正态分布.

F 面用MATLAB 来验证上面结论，首先定义 2

(n)分布函数和相应的正态分布

令n 2m ，利用Stirling 公式 m! , 2 m m m e m e m

1 12m

则上式 ^4^

(2m)m1(1

I .m 1 (m . my)

■m

y) e

dx dy

4m.2 m m ^ e m e m

:心八

(m , my)

: IE

m 1

m(1

m 1

N(n,2n)，再依次增大n ，比较两者关系：⑷

从上面三个图形可以看出，n 越大，2 3 4(n)分布密度函数与正态分布N(n,2n)度函数越接近，这就和所证结论相符合?

2.21分布收敛于标准正态分布

证法1:由于自由度为n 的t 分布的概率密度函数为 (

n 1) () x 2 U

p(x; n)= .(1 —) 2

X (n ) n

(□)

因此(1)式等价于lim p(x;n)二一一 e

4 利用函数的性质

先利用 Stirling 公式：m! 、、2 m m m

1 12m

若X n 服从自由度为n 的t 分布，n im P(X n x)

t 2/2

(1)

x 2/2

(2)

(

丿1

(卫

2k 1) n 1 n 3 n 2k 1 n

2 . 2 …… 2( 2

一n 2 n 4 n 2k 2 n 2k 2 n ( ........ )

2 2 2 2

证明lim

事实上,

n 2k 1

(n 1)(n 3)……(n 2k 1) (n ；、 2、、n (n 2)(n 4)……(n 2k 2)(n ? 2 当n 2k 时

(2k 1)(2k 3)……1 (卫 2、.2k(2k 2)(2k 4)……2 ⑴

1)2k 1 e

2忌 22k 2 2 (k 1) (k 2k

2k 1 1 严 1 1 / 2k (1 亍)e 』n

2k 1时亦可推出同样的结果。

综合上诉，即证明（2）式所以，t 分布的极限分布是正态分布?

F 面用MATLAB 来验证上面结论，首先定义t （n ）分布函数和相应的正态分布

1)!厂 (2 k 2、2k22k2((k 1)!)2

、不药刁（心）2k1广

e 2 2k 22k 2 C.2

(k 1)

i )2

22厂1

另外, 由特殊极限公式可得

lim(1

n 1 ~2~

2 n x _ lim[(1 )

x 「] n

n 1 x 2

x 2

2 ?( ) x 2 n 2

] e

数越接近，这就和所证结论相符合?

2.3F分布收敛于标准正态分布

证明：当m 时Y/m P1

所以F L X /n

所以F分布的极限分布是正态分布.

F面用MATLAB来验证上面结论，首先定义F(m, n)分布函数和相应的正态分2

卄n 2n (m n 2) 古八、-叶丄

布N( , 2)，再依次增大n 2 m(n 2) (n 4)n 2

若F竽m服从为第一自由度为m，第二自由度为n的F分布，则n im P(X n x) L X t2/2

e dt.

因为E(X/n) 1,D(X/n) 2n

~~2 n

所以由中心极限定理，当时L N(0,1)

n，比较两者关系

从上面三个图形可以看出，n 越大，F(m, n)分布密度函数与正态分布

在实际应用中我们往往在取得总体的样本后，通常是借助样本的统计量对未知的总体分布进行推断，为此须进一步确定相应的统计量所服从的分布，正态

分布、 2(n)分布、t 分布、F 分布是统计学最基本的四种分布，而2(n)分布、 t 分布和F 分布又都收敛于正态分布，可见正态分布在统计学中的地位.实际上, 证明2

(n)分布、t 分布和F 分布收敛于正态分布的方法很多，本质上都是应用了大数定理

2n 2(m n 2) 2

2 m(n 2) (n 4)

)度函数越接近，这就和所证结论相符合

和中心极限定理.既然三大抽样分布都收敛于正态分布，则当样本容量很大时，就可以用正态分布来近似三大抽样分布. 本文主要还利用了计算机软件来验证数学上的理论证明，在现代数学学习中，我们是离不开计算机的，因此我们也应多学习一些软件的使用.

参考文献：

[1] XX学士学位论文.统计学三大分布与正态分布的差异.扬州大学.2010

[2] 范玉妹，汪飞星，王萍，李娜. 概率论与数理统计. 机械工业出版社．2007

[3] 宗序平，赵俊，陶伟. 统计学上三大分布推导方法.2009

[4] 王福昌，曹慧荣.2(n)分布、t分布和F分布的近似计算.2008

[5] 李贤平，沈崇圣，陈予毅. 概率论与数理统计. 复旦大学出版社. 2005