统计学三大分布与正态分布的关系
[1]
张柏林 41060045 理实1002班
摘要:本文首先将介绍2χ分布,t 分布,F 分布和正态分布的定义及基本性质,
然后用理论说明2χ分布,t 分布,F 分布与正态分布的关系,并且利用数学软件MATLAB 来验证之.
1.三大分布函数[2]
1.12χ分布
2()n χ分布是一种连续型随机变量的概率分布。这个分布是由别奈梅(Benayme)、赫尔默特(Helmert)、皮尔逊分别于1858年、1876年、1900年所发现,它是由正态分布派生出来的,主要用于列联表检验。
定义:若随机变量12n ,,X X …X 相互独立,且都来自正态总体01N (,)
,则称统计量222
212n =+X X χ++…X 为服从自由度为n 的2χ分布,
记为22~()n χχ. 2χ分布的概率密度函数为
122210(;),2()200n x n x e x n f x n x --?≥??=Γ???
其中伽玛函数1
(),0t x x e t dt x +∞
--Γ=
>?
,2χ分布的密度函数图形是一个只取非负值的偏态分布,如下图.
卡方分布具有如下基本性质:
性质1:22(()),(())2E n n D n n χχ==;
性质2:若221122(),()X n X n χχ==,12,X X 相互独立,则21212~()X X n n χ++;
性质3:2
n χ→∞→时,(
n )正态分布; 性质4:设)(~2
2n α
χχ,对给定的实数),10(<<αα称满足条
件:αχχα
χα
==>?+∞
)
(2
22)()}({n dx x f n P 的点)(2
n α
χ为)(2n χ分布的水平α的上侧分位数. 简称为上侧α分位数. 对不同的α与n , 分位数的值已经编制成表供查
用.
2()n χ分布的上α分位数 1.2t 分布
t 分布也称为学生分布,是由英国统计学家戈赛特在1908年“student ”的笔名
首次发表的,这个分布在数理统计中也占有重要的位置.
定义:设2
~0~X N χ(,1),Y (n ),,X Y 相互独立,,则称统计量/T Y n
=
服从自由度为n 的t 分布,记为~()T t n .
t分布的密度函数为
1
2
2
1
()
2
(;)(1),.
()
2
n
n
x
t x n t
n n
nπ
+
-
+
Γ
=+-∞<<+∞
Γ
t分布的密度函数图
t分布具有如下一些性质:
性质1:()
n
f t是偶函数,
2
2
,()()
2
t
n
n f t t e
?
π
-
→∞→=
;
性质2:设)(
~n
t
T
α
,对给定的实数),1
0(<
<α
α称满足条件;
α
α
α
=
=
>?+∞)()(
)}
(
{
n
t
dx
x
f
n
t
T
P的点)(n
tα为)(n t分
布的水平α的上侧分位数. 由密度函数)(x
f
的对称性,可得).
(
)
(
1
n
t
n
tα
α
-
=
-
类似地,我们可
以给出t分布的双侧分位数
,
)
(
)
(
)}
(
|
{|
)
(
)
(
2/
2
/
2
/α
α
α
α
=
+
=
>?
?+∞
-
∞
-n
t
n
t
dx
x
f
dx
x
f
n
t
T
P
显然有.
2
)}
(
{
;
2
)}
(
{
2/
2/
α
α
α
α
=
-
<
=
>n
t
T
P
n
t
T
P对
不同的α与n ,t 分布的双侧分位数可从附表查得.
t 分布的上α分位数
1.3F 分布
F 分布是随机变量的另一种重要的小样本分布,应用也相当广泛. 它可用来
检验两个总体的方差是否相等,多个总体的均值是否相等. F 分布还是方差分析和正交设计的理论基础.
定义:设22~(),~()X n Y m χχ,,X Y 相互独立,令则称统计量//X n
F Y m
=服从为第一自由度为n ,第二自由度为m 的F 分布.
F 分布的密度函数图
F 分布具有如下一些性质:
性质1:若~(,),1/~(,)F F n m F F m n 则; 性质2:若)(~n t X ,则2~(1,)X F n ;
性质3:设),(~m n F F α,对给定的实数),10(<<αα称满足条件;
ααα==
>?
+∞
)
,()()},({m n F dx x f m n F F P
的点),(m n F α为),(m n F 分布的水平α的上侧分位数.
F 分布的上α分位数
F 分布的上侧分位数的可自附表查得.
性质4:.)
,(1
),(1m n F n m F αα-=此式常常用来求F 分布表中没有列出的某些上侧
分位数.
1.4正态分布
正态分布是数理统计中的一种重要的理论分布,是许多统计方法的理论基础. 高斯(Gauss )在研究误差理论时首先用正态分布来刻画误差的分布,所以正态分布又称为高斯分布. 正态分布有两个参数,μ和σ,决定了正态分布的位置和形态. 为了应用方便,常将一般的正态变量X 通过u 变换转化成标准正态变量u ,以使原来各种形态的正态分布都转换为μ=0,σ=1的标准正态分布N (0,1)
. 正态分布的密度函数和分布函数
若连续型随机变量X 具有概率密度()f x 为
22
()2(),,x f x x μσ--=-∞<<+∞其中,(0)μσσ>为常数,则称X 服从参数
为μσ,的正态分布,记为2~()X N μσ,.
正态分布的密度函数图
特征1:正态曲线(normal curve)在横轴上方均数处最高;
特征2:正态分布以均数为中心,左右对称;
特征3:正态分布有两个参数,即均数μ和标准差σ. μ是位置参数,σ固定不变时,μ越大,曲线沿横轴越向右移动;反之,μ越小,则曲线沿横轴越向左移动. σ是形状参数,当μ固定不变时,σ越大,曲线越平阔;σ越小,曲线越尖峭. 通常用2
(,)表示均数为μ,方差为2σ的正态分布. 用
Nμσ
N(0,1)表示标准正态分布.
特征4:正态曲线下面积的分布有一定规律。实际工作中,常需要了解正态曲线下横轴上某一区间的面积占总面积的百分数,以便估计该区间的例数占总例数的百分数(频数分布)或观察值落在该区间的概率. 正态曲线下一定区间的面积可以通过标准正态分布函数表求得。对于正态或近似正态分布的资料,已知均数和标准差,就可对其频数分布作出概约估计.
2. 三大分布与正态分布的密度函数比较[3]
2.12χ分布收敛于正态分布
设2~()X n χ,则对任意x
,有2
/2lim )x
t n P x e dt --∞→∞
≤=.
证明:因为2
()n χ分布的2
221
1
1
()()()()n
n
n
i
i
i i i i E E x E x D x n χ=======∑∑∑
2
221
1
()()()2n n
i i i i D D x D x n χ=====∑∑
所以由独立同分布中心极限定理得(0,1)Y N =
→ 因为122/21~,0()22
n x n X x e x n -->Γ
且y =
所以x n =+ 因为()()Y X f y dy f x dx =
所以11()
22/2
1
()()()22
n n Y n dx f y n e n dy
--=Γ
=111()
22
2
/21(1)()22
n n n n n e n ---+
令2n m =,利用Stirling
公式:1
m!,012m m m m m e e m
θθ-=??<< 则上式
1
1()
)(1)m m m m e ---
1
1()
)(1)m m m m e ---
11()
)(1)m m m m e ---+
(1)1)m m e --
21
2
y n -→∞
???
所以2χ分布的极限分布为正态分布.
下面用MATLAB 来验证上面结论,首先定义2()n χ分布函数和相应的正态分布
(,2)N n n ,再依次增大n ,比较两者关系:[4]
从上面三个图形可以看出,n 越大,2()n χ分布密度函数与正态分布(,2)N n n 度函数越接近,这就和所证结论相符合.
2.2t 分布收敛于标准正态分布
若n X 服从自由度为n 的t 分布,2
/2lim ()2x
t n n P X x e dt π
--∞
→∞
≤=
(1)
证法1:由于自由度为n 的t 分布的概率密度函数为
1
2
2
1
()
2
p(;)(1),
()
2
n
n
x
x n x
n n
+
-
+
Γ
+-∞<<+∞
=
因此(1
)式等价于2/2,
x
n
x
-
→∞
-∞<<+∞
lim(2)先利用Stirling
公式:1
m!,0
12
m
m m m
m e e
m
θθ
-
=??<<
证明
1
()
2
()
2
n
n
n
→∞
+
Γ
=
lim
事实上,利用Γ函数的性质
1132121 ().......()
22222
242222
()......()
2222
n n n n k n k
n n n n k n k
+---+-+
ΓΓ
=
---+-+
Γ
21
(1)(3)......(21)()
2
22
2)(4)......(22)()
2
n k
n n n k
n k
n n n k
-+
---+Γ
=
-+
---+Γ
当2
n k
=时
11
()(21)(23)......1()
2
()
2
n
k k
n
+
Γ--?Γ
=
=
21
2212
21
()
1
2())
k
k k
k
e
k
e
-
--
-
≈
-
?
21
21
22
22
22
(21)
(1)
22(1)
k
k
k
k
k
k
e
k
k
e
π
π
-
-
-
-
-
-
=
-
?-?
21
11
(1))
22
k n
k e
-
=+?→→∞
-
当21
n k
=+时亦可推出同样的结果。
另外,由特殊极限公式可得
2
2
2
112
2
()2
2
2
lim(1)lim[(1)]n
n x n x x n n n x x e
n
n
++?--
-
→∞
→∞
+
=+
=
综合上诉,即证明(2)式
所以,t 分布的极限分布是正态分布.
下面用MATLAB 来验证上面结论,首先定义()t n 分布函数和相应的正态分布
(0,
)2
n
N n -,再依次增大n ,比较两者关系:
从上面三个图形可以看出,n 越大,()t n 分布密度函数与正态分布(0,)2
n
N n -度函数越接近,这就和所证结论相符合.
2.3F 分布收敛于标准正态分布
若//X m
F Y n
=
服从为第一自由度为m ,第二自由度为n 的F 分布,则2
/2lim ()2x
t n n P X x e dt π
--∞
→∞
≤=
?
.
证明:m /m 1P
Y →∞??
→当时 所以/n L
F X ??→
因为222
(/)1,(/)n E X n D X n n n
==
= 所以由中心极限定理,当→∞n 时
(0,1)2L
N n
??→ 所以F 分布的极限分布是正态分布.
下面用MATLAB 来验证上面结论,首先定义(,)F m n 分布函数和相应的正态分
布222(2)(
,)2(2)(4)
n n m n N n m n n +----,再依次增大n ,比较两者关系:
从上面三个图形可以看出,n 越大,(,)F m n 分布密度函数与正态分布
222(2)(,)2(2)(4)
n n m n N n m n n +----度函数越接近,这就和所证结论相符合.
在实际应用中我们往往在取得总体的样本后,通常是借助样本的统计量对未知的总体分布进行推断,为此须进一步确定相应的统计量所服从的分布,正态分布、2()n χ分布、t 分布、F 分布是统计学最基本的四种分布,而2()n χ分布、
t 分布和F 分布又都收敛于正态分布,可见正态分布在统计学中的地位. 实际上,
证明2()n χ分布、t 分布和F 分布收敛于正态分布的方法很多,本质上都是应用了大数定理和中心极限定理.既然三大抽样分布都收敛于正态分布,则当样本容量很大时,就可以用正态分布来近似三大抽样分布. 本文主要还利用了计算机软件来验证数学上的理论证明,在现代数学学习中,我们是离不开计算机的,因此我们也应多学习一些软件的使用.
参考文献:
[1]XX 学士学位论文. 统计学三大分布与正态分布的差异. 扬州大学.2010
[2]范玉妹,汪飞星,王萍,李娜. 概率论与数理统计. 机械工业出版社.2007
[3] 宗序平,俊,伟. 统计学上三大分布推导方法.2009
[4] 王福昌,曹慧荣. 2()n
分布、t分布和F分布的近似计算. 2008
[5]李贤平,沈崇圣,陈予毅.概率论与数理统计.复旦大学出版社.2005