文档视界 最新最全的文档下载
当前位置:文档视界 › 统计学三大分布及正态分布的关系

统计学三大分布及正态分布的关系

统计学三大分布及正态分布的关系
统计学三大分布及正态分布的关系

统计学三大分布与正态分布的关系

[1]

张柏林 41060045 理实1002班

摘要:本文首先将介绍2χ分布,t 分布,F 分布和正态分布的定义及基本性质,

然后用理论说明2χ分布,t 分布,F 分布与正态分布的关系,并且利用数学软件MATLAB 来验证之.

1.三大分布函数[2]

1.12χ分布

2()n χ分布是一种连续型随机变量的概率分布。这个分布是由别奈梅(Benayme)、赫尔默特(Helmert)、皮尔逊分别于1858年、1876年、1900年所发现,它是由正态分布派生出来的,主要用于列联表检验。

定义:若随机变量12n ,,X X …X 相互独立,且都来自正态总体01N (,)

,则称统计量222

212n =+X X χ++…X 为服从自由度为n 的2χ分布,

记为22~()n χχ. 2χ分布的概率密度函数为

122210(;),2()200n x n x e x n f x n x --?≥??=Γ???

其中伽玛函数1

(),0t x x e t dt x +∞

--Γ=

>?

,2χ分布的密度函数图形是一个只取非负值的偏态分布,如下图.

卡方分布具有如下基本性质:

性质1:22(()),(())2E n n D n n χχ==;

性质2:若221122(),()X n X n χχ==,12,X X 相互独立,则21212~()X X n n χ++;

性质3:2

n χ→∞→时,(

n )正态分布; 性质4:设)(~2

2n α

χχ,对给定的实数),10(<<αα称满足条

件:αχχα

χα

==>?+∞

)

(2

22)()}({n dx x f n P 的点)(2

n α

χ为)(2n χ分布的水平α的上侧分位数. 简称为上侧α分位数. 对不同的α与n , 分位数的值已经编制成表供查

用.

2()n χ分布的上α分位数 1.2t 分布

t 分布也称为学生分布,是由英国统计学家戈赛特在1908年“student ”的笔名

首次发表的,这个分布在数理统计中也占有重要的位置.

定义:设2

~0~X N χ(,1),Y (n ),,X Y 相互独立,,则称统计量/T Y n

=

服从自由度为n 的t 分布,记为~()T t n .

t分布的密度函数为

1

2

2

1

()

2

(;)(1),.

()

2

n

n

x

t x n t

n n

+

-

+

Γ

=+-∞<<+∞

Γ

t分布的密度函数图

t分布具有如下一些性质:

性质1:()

n

f t是偶函数,

2

2

,()()

2

t

n

n f t t e

?

π

-

→∞→=

性质2:设)(

~n

t

T

α

,对给定的实数),1

0(<

α称满足条件;

α

α

α

=

=

>?+∞)()(

)}

(

{

n

t

dx

x

f

n

t

T

P的点)(n

tα为)(n t分

布的水平α的上侧分位数. 由密度函数)(x

f

的对称性,可得).

(

)

(

1

n

t

n

α

-

=

-

类似地,我们可

以给出t分布的双侧分位数

,

)

(

)

(

)}

(

|

{|

)

(

)

(

2/

2

/

2

α

α

α

=

+

=

>?

?+∞

-

-n

t

n

t

dx

x

f

dx

x

f

n

t

T

P

显然有.

2

)}

(

{

;

2

)}

(

{

2/

2/

α

α

α

α

=

-

<

=

>n

t

T

P

n

t

T

P对

不同的α与n ,t 分布的双侧分位数可从附表查得.

t 分布的上α分位数

1.3F 分布

F 分布是随机变量的另一种重要的小样本分布,应用也相当广泛. 它可用来

检验两个总体的方差是否相等,多个总体的均值是否相等. F 分布还是方差分析和正交设计的理论基础.

定义:设22~(),~()X n Y m χχ,,X Y 相互独立,令则称统计量//X n

F Y m

=服从为第一自由度为n ,第二自由度为m 的F 分布.

F 分布的密度函数图

F 分布具有如下一些性质:

性质1:若~(,),1/~(,)F F n m F F m n 则; 性质2:若)(~n t X ,则2~(1,)X F n ;

性质3:设),(~m n F F α,对给定的实数),10(<<αα称满足条件;

ααα==

>?

+∞

)

,()()},({m n F dx x f m n F F P

的点),(m n F α为),(m n F 分布的水平α的上侧分位数.

F 分布的上α分位数

F 分布的上侧分位数的可自附表查得.

性质4:.)

,(1

),(1m n F n m F αα-=此式常常用来求F 分布表中没有列出的某些上侧

分位数.

1.4正态分布

正态分布是数理统计中的一种重要的理论分布,是许多统计方法的理论基础. 高斯(Gauss )在研究误差理论时首先用正态分布来刻画误差的分布,所以正态分布又称为高斯分布. 正态分布有两个参数,μ和σ,决定了正态分布的位置和形态. 为了应用方便,常将一般的正态变量X 通过u 变换转化成标准正态变量u ,以使原来各种形态的正态分布都转换为μ=0,σ=1的标准正态分布N (0,1)

. 正态分布的密度函数和分布函数

若连续型随机变量X 具有概率密度()f x 为

22

()2(),,x f x x μσ--=-∞<<+∞其中,(0)μσσ>为常数,则称X 服从参数

为μσ,的正态分布,记为2~()X N μσ,.

正态分布的密度函数图

特征1:正态曲线(normal curve)在横轴上方均数处最高;

特征2:正态分布以均数为中心,左右对称;

特征3:正态分布有两个参数,即均数μ和标准差σ. μ是位置参数,σ固定不变时,μ越大,曲线沿横轴越向右移动;反之,μ越小,则曲线沿横轴越向左移动. σ是形状参数,当μ固定不变时,σ越大,曲线越平阔;σ越小,曲线越尖峭. 通常用2

(,)表示均数为μ,方差为2σ的正态分布. 用

Nμσ

N(0,1)表示标准正态分布.

特征4:正态曲线下面积的分布有一定规律。实际工作中,常需要了解正态曲线下横轴上某一区间的面积占总面积的百分数,以便估计该区间的例数占总例数的百分数(频数分布)或观察值落在该区间的概率. 正态曲线下一定区间的面积可以通过标准正态分布函数表求得。对于正态或近似正态分布的资料,已知均数和标准差,就可对其频数分布作出概约估计.

2. 三大分布与正态分布的密度函数比较[3]

2.12χ分布收敛于正态分布

设2~()X n χ,则对任意x

,有2

/2lim )x

t n P x e dt --∞→∞

≤=.

证明:因为2

()n χ分布的2

221

1

1

()()()()n

n

n

i

i

i i i i E E x E x D x n χ=======∑∑∑

2

221

1

()()()2n n

i i i i D D x D x n χ=====∑∑

所以由独立同分布中心极限定理得(0,1)Y N =

→ 因为122/21~,0()22

n x n X x e x n -->Γ

且y =

所以x n =+ 因为()()Y X f y dy f x dx =

所以11()

22/2

1

()()()22

n n Y n dx f y n e n dy

--=Γ

=111()

22

2

/21(1)()22

n n n n n e n ---+

令2n m =,利用Stirling

公式:1

m!,012m m m m m e e m

θθ-=??<< 则上式

1

1()

)(1)m m m m e ---

1

1()

)(1)m m m m e ---

11()

)(1)m m m m e ---+

(1)1)m m e --

21

2

y n -→∞

???

所以2χ分布的极限分布为正态分布.

下面用MATLAB 来验证上面结论,首先定义2()n χ分布函数和相应的正态分布

(,2)N n n ,再依次增大n ,比较两者关系:[4]

从上面三个图形可以看出,n 越大,2()n χ分布密度函数与正态分布(,2)N n n 度函数越接近,这就和所证结论相符合.

2.2t 分布收敛于标准正态分布

若n X 服从自由度为n 的t 分布,2

/2lim ()2x

t n n P X x e dt π

--∞

→∞

≤=

(1)

证法1:由于自由度为n 的t 分布的概率密度函数为

1

2

2

1

()

2

p(;)(1),

()

2

n

n

x

x n x

n n

+

-

+

Γ

+-∞<<+∞

=

因此(1

)式等价于2/2,

x

n

x

-

→∞

-∞<<+∞

lim(2)先利用Stirling

公式:1

m!,0

12

m

m m m

m e e

m

θθ

-

=??<<

证明

1

()

2

()

2

n

n

n

→∞

+

Γ

=

lim

事实上,利用Γ函数的性质

1132121 ().......()

22222

242222

()......()

2222

n n n n k n k

n n n n k n k

+---+-+

ΓΓ

=

---+-+

Γ

21

(1)(3)......(21)()

2

22

2)(4)......(22)()

2

n k

n n n k

n k

n n n k

-+

---+Γ

=

-+

---+Γ

当2

n k

=时

11

()(21)(23)......1()

2

()

2

n

k k

n

+

Γ--?Γ

=

=

21

2212

21

()

1

2())

k

k k

k

e

k

e

-

--

-

-

?

21

21

22

22

22

(21)

(1)

22(1)

k

k

k

k

k

k

e

k

k

e

π

π

-

-

-

-

-

-

=

-

?-?

21

11

(1))

22

k n

k e

-

=+?→→∞

-

当21

n k

=+时亦可推出同样的结果。

另外,由特殊极限公式可得

2

2

2

112

2

()2

2

2

lim(1)lim[(1)]n

n x n x x n n n x x e

n

n

++?--

-

→∞

→∞

+

=+

=

综合上诉,即证明(2)式

所以,t 分布的极限分布是正态分布.

下面用MATLAB 来验证上面结论,首先定义()t n 分布函数和相应的正态分布

(0,

)2

n

N n -,再依次增大n ,比较两者关系:

从上面三个图形可以看出,n 越大,()t n 分布密度函数与正态分布(0,)2

n

N n -度函数越接近,这就和所证结论相符合.

2.3F 分布收敛于标准正态分布

若//X m

F Y n

=

服从为第一自由度为m ,第二自由度为n 的F 分布,则2

/2lim ()2x

t n n P X x e dt π

--∞

→∞

≤=

?

.

证明:m /m 1P

Y →∞??

→当时 所以/n L

F X ??→

因为222

(/)1,(/)n E X n D X n n n

==

= 所以由中心极限定理,当→∞n 时

(0,1)2L

N n

??→ 所以F 分布的极限分布是正态分布.

下面用MATLAB 来验证上面结论,首先定义(,)F m n 分布函数和相应的正态分

布222(2)(

,)2(2)(4)

n n m n N n m n n +----,再依次增大n ,比较两者关系:

从上面三个图形可以看出,n 越大,(,)F m n 分布密度函数与正态分布

222(2)(,)2(2)(4)

n n m n N n m n n +----度函数越接近,这就和所证结论相符合.

在实际应用中我们往往在取得总体的样本后,通常是借助样本的统计量对未知的总体分布进行推断,为此须进一步确定相应的统计量所服从的分布,正态分布、2()n χ分布、t 分布、F 分布是统计学最基本的四种分布,而2()n χ分布、

t 分布和F 分布又都收敛于正态分布,可见正态分布在统计学中的地位. 实际上,

证明2()n χ分布、t 分布和F 分布收敛于正态分布的方法很多,本质上都是应用了大数定理和中心极限定理.既然三大抽样分布都收敛于正态分布,则当样本容量很大时,就可以用正态分布来近似三大抽样分布. 本文主要还利用了计算机软件来验证数学上的理论证明,在现代数学学习中,我们是离不开计算机的,因此我们也应多学习一些软件的使用.

参考文献:

[1]XX 学士学位论文. 统计学三大分布与正态分布的差异. 扬州大学.2010

[2]范玉妹,汪飞星,王萍,李娜. 概率论与数理统计. 机械工业出版社.2007

[3] 宗序平,俊,伟. 统计学上三大分布推导方法.2009

[4] 王福昌,曹慧荣. 2()n

分布、t分布和F分布的近似计算. 2008

[5]李贤平,沈崇圣,陈予毅.概率论与数理统计.复旦大学出版社.2005

相关文档