文档视界 最新最全的文档下载
当前位置:文档视界 › 统计学三大分布与正态分布的差异

统计学三大分布与正态分布的差异

统计学三大分布与正态分布的差异
统计学三大分布与正态分布的差异

申请大学学士学位论文

大学

学士学位论文

统计学三大分布与正态分布的差异年级专业:

学生:

指导教师:

统计学三大分布与正态分布的差异

中文摘要

统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策者提供依据和参考。它被广泛的应用在各门学科之上,从物理和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。而对数据的分析过程中就需要利用到数据的分布来研究分类。

在实际遇到的许多随机现象都服从或近似服从正态分布。而由正态分布构造的三大分布在实际中有广泛的应用,因为这三大分布不仅有明确的背景,而且其抽样分布的密度函数有明显表达式,研究三大分布与正态分布有助于研究实际事例,比如经济安全与金融保险领域、人口统计等。

本文讨论了三大分布与正态分布,并将它们之间的密度函数进行比较说明.

第二章介绍了正态分布的定义、性质,三大分布的定义、性质。

第三章介绍了正态分布与三大分布的密度函数,并将它们之间的密度函数进行比较关键词:正态分布;三大分布;密度函数

The Difference between the Three Statistical Distributions and

the Normal Distribution

Abstract

Statistics is a branch of applied mathematics, the mathematical models are mainly established by the probability and statistics theory based on the collecting

the data, so as to conduct the quantitative analysis, and obtain the correct inference. It is widely used in the subjects, such as physical, social science, industrial and commercial field, and government intelligence decision. The process of the data analysis will need to use the data distributions to study.

In practice, many random phenomena are obedient for the normal distributions, or approximately. And the three statistical distributions structured by the normal distributions have extensive applications, because these three distributions is explicitly background, and the sampling distribution density function have obvious expressions. Research on the distributions and normal distributions is useful for the study of economic security and financial insurance fields, population statistics, etc.

This paper discusses the three statistical distributions and normal distributions, their density functions are compared.

The second chapter presents the definition of the normal distribution, the distribution of nature, three definitions and properties.

The third chapter covers a normal distribution and the density functions of the three distributions, and then the density functions are compared. Keywords: the normal distribution; Three distribution; Density function

目录

中文摘要 (2)

英文摘要 (2)

1 绪论 (5)

1.1 问题的提出 (5)

1.2 国外研究现状 (5)

1.3 本文的主要工作 (6)

2 基础知识介绍 (7)

2.1 正态分布 (7)

2.2 三大统计分布 (8)

3 三大分布与正态分布的比较 (12)

3.1 三大分布与正态分布的密度函数 (12)

3.2 三大分布与正态分布的密度函数比较 (12)

3.3 本章小结 (16)

4 进一步工作 (16)

参考文献 (17)

致 (17)

1 绪论

统计学,最早是由Gottfried Achenwall(1749)所使用,代表对国家的资料进行分析的学问,也就是“研究国家的科学”。18世纪末至19世纪末是统计学的发展时期。在这时期,各种学派的学术观点已经形成,并且形成了两主要学派,即数理统计学派和社会统计学派。统计分布分为离散型分布和连续型分布。正态分布又叫高斯分布,最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。而三大分布是基于正态分布的基础上提出来的。

统计学被广泛应用在各个领域中,本章第一节阐述统计学的实际背景知识;第二节简述近些年的国外研究现状;第三节说明本文的主要研究工作.

1.1 问题的提出

取得总体的样本后,通常是借助样本的统计量对未知的总体分布进行推断,为此须进一步确定相应的统计量所服从的分布,常用的统计分布包括正态分布,2()n

分布,t分布,F分布,所以我们要准确的分类就必须先弄清楚这四种分类之间的相同点及不同点,所以本论文的目的就是详细阐述四种分布的差异。

1.2 国外研究现状

现代统计学的理论基础概率论始于研究赌博的机遇问题,大约开始于1477年。数学家为了解释支配机遇的一般法则进行了长期的研究,逐渐形成了概率论理论框架。在概率论进一步发展的基础上,到十九世纪初,数学家们逐渐建立了观察误差理论,正态分布理论和最小平方法则。在20世纪以前,统计学的领域主要是人口统计、生命统计、社会统计和经济统计。随着社会、经济和科学技术的发展,到今天,统计的畴已覆盖了社会生活的一切领域,几乎无所不包,成为通用的方法论科学。它被广泛用于研究

社会和自然界的各个方面,并发展成为有着许多分支学科的科学,比如经济统计学,管理统计学,卫生统计学等。就最近几年来看,国家连续资助了一系列涉及统计学及其应用的重大科研项目,其中包括数学和计算机在癌症生物学中的应用、振荡积分学与高阶schdodinger方程的L_p-L_q估计、卫生统计学中t检验应用的几点注记、宏观经济统计数据的国际可比性研究等。国际上已对统计学的应用进行研究,例如在医学方面的Microscintigraphy with high resolution collimators and radio graphicdetectors,在物理学方面的Determination of grain size distributions in thin films等。

1.3本文的主要工作

基于以上的论述,本文的主要研究工作为:首先详细介绍正态分布以及三

大分布的定义、性质以及它们的密度函数,然后利用中心极限定理证明

2()n

χ分

布的极限分布是正态分布,然后用两种方法(Stirling和特征函数)证明t分布的极限分布也是正态分布,最后利用中心极限定理证明F分布当n无穷大的时候接

近正态分布,从而得出证明的结论,还在进一步的工作中可以继续证明

2()n

χ分

布的密度函数与正态分布的密度函数差值的绝对值会小于某个具体的数字,也可以进一步研究F分布当m和n都不趋于无穷大的时候是否还是接近于正态分布,这就是本文研究的主要工作。

2 基础知识介绍

2.1 正态分布

正态分布(normal distribution )是数理统计中的一种重要的理论分布 ,是许多统计方法的理论基础。正态分布有两个参数,μ和σ,决定了正态分布的位置和形态。为了应用方便,常将一般的正态变量X 通过u 变换转化成标准正态变量u ,以使原来各种形态的正态分布都转换为μ=0,σ=1的标准正态分布N (0,1)(standard normal distribution ),亦称u 分布。

定义:若X 1,X 2,……,X n 相互独立,X i ~N(μi ,2i σ),则

22

1

1

1

~()n

n

n

i i i i i i i i i a X N a a μσ===∑∑∑, 特别地,若X 1,X 2,……,X n ..~i i d

2

(,)N μσ则21

1~(,)n i i X X N n n

σμ==∑

()

~(0,1)n X N μ-

图1:标准正态分布的密度函数图

特征1:正态曲线(normal curve )在横轴上方均数处最高。 特征2:正态分布以均数为中心,左右对称。

特征3:正态分布有两个参数,即均数μ和标准差σ。μ是位置参数,σ

固定不变时,μ越大,曲线沿横轴越向右移动;反之,μ越小,则曲线沿横轴越向左移动。σ是形状参数,当μ固定不变时,σ越大,曲线越平阔;σ越小,曲线越尖峭。通常用N~(μ,σ2)表示均数为μ,方差为σ2的正态分布。用N (0,1)表示标准正态分布。

特征4:正态曲线下面积的分布有一定规律。 实际工作中,常需要了解正态曲线下横轴上某一区间的面积占总面积的百分数,以便估计该区间的例数占总例数的百分数(频数分布)或观察值落在该区间的概率。正态曲线下一定区间的面积可以通过标准正态分布函数表求得。对于正态或近似正态分布的资料,已知均数和标准差,就可对其频数分布作出概约估计。

2.2 三大统计分布

一、2()n χ分布(n 为自由度)

2()n χ分布是一种连续型随机变量的概率分布。这个分布是由别奈梅(Benayme)、赫尔默特(Helmert)、皮尔逊分别于1858年、1876年、1900年所发现,它是由正态分布派生出来的,主要用于列联表检验。

定义:若X 1,X 2,……,X n 相互独立,且都服从标准正态分布N (0,1),则221~()(1/2,/2)n

i i X n n χ==Γ∑

图2:2()n χ的密度函数图

性质1:22(()),(())2E n n D n n χχ==

性质2:若221122(),()X n X n χχ==,12,X X 相互独立,则21212~()X X n n χ++

性质3:2

n χ→∞→时,(

n )正态分布

性质4:设)(~2

2n α

χχ,对给定的实数),10(<<αα称满足条

件:αχχα

χα

==>?+∞

)

(2

22)()}({n dx x f n P 的点)(2

n α

χ为)(2n χ分布的水平α的上侧分位数. 简称为上侧α分位数. 对不同的α与n , 分位数的值已经编制成表供查用。

图3:2()n χ分布的上α分位数 二、t 分布

t 分布也称为学生分布,是由英国统计学家戈赛特(Goset ,1876-1937)在1908年“student”的笔名首次发表的,这个分布在数理统计中也占有重要的位置。

定义:设2

~0~X N χ(,1),Y (n ),X ,Y 相互独立,/X

T Y n

=

,则称T 服从自由度为n 的T 分布,记为~()T t n

图4:t 分布的密度函数图

性质1:()n f t 是偶函数,2

2

,()()2t n n f t t e ?π

-→∞→=

性质2:设)(~n t T α,对给定的实数),10(<<αα 称满足条件

ααα==>?

+∞)

()()}({n t dx x f n t T P 的点)(n t α为)(n t 分

布的水平α的上侧分位数. 由密度函数)(x f 的对称性,可得 ).()(1n t n t αα-=-类似地,我们可以给出t 分布的双侧分位数

,

)()()}(|{|)

()

(2/2/2/αααα=+

=

>?

?

+∞

-∞

-n t n t dx x f dx x f n t T P 显然有.2

)}({;2

)}({2/2/α

ααα=-<=>n t T P n t T P

对不同的α与n , t 分布的双侧分位数可从附表查得.

图5:t 分布的上α分位数 三、F 分布

F 分布是随机变量的另一种重要的小样本分布,应用也相当广泛。它可用来检验两个总体的方差是否相等,多个总体的均值是否相等。F 分布还是方差分析和正交设计的理论基础。

定义:设22~(),~()X n Y m χχ,X ,Y 相互独立,令//X n

F Y m

=则称F 服从为第一自由度为n ,第二自由度为m 的F 分布。

图6:F 分布的密度函数图

性质1:若~(,),1/~(,)F F n m F F m n 则 性质2:若)(~n t X ,则);,1(~2n F X

性质3:设),(~m n F F α,对给定的实数

),10(<<αα称满足条件

ααα==

>?

+∞

)

,()()},({m n F dx x f m n F F P

的点),(m n F α为),(m n F 分布的水平α的上侧分位数. F 分布的上侧分位数的可自附表查得.

图7:F 分布的上α分位数

性质4:.)

,(1

),(1m n F n m F αα-=

此式常常用来求F 分布表中没有列出的某些上侧分位数.

3 三大分布与正态分布的比较

3.1 三大分布与正态分布的密度函数

一、

正态分布的密度函数为22

()2(,x p x x μσ--

-∞<<+∞

特别地,当μ=0,σ=1时,记标准正态分布的密度函数为

2

2

(,

u

u u

?--∞<<+∞

二、2()n

χ的密度函数为122

/2

1

()(0)

()2

2

n x

n

p x x e x

n

--

=>

Γ

,其中1

()t

t e dt

α

α+∞--

Γ=?特别地,当n=1

时,其密度函数为

1

22

(),0

x

p x x e x

--

=>

当n=2时,其密度函数为2

1

(),0

2

x

p x e x

-

=>

三、

1

2

2

1

()

2(1),

()

2

n

n

x

t x

n n

+

-

+

Γ

+-∞<<+∞

分布的密度函数为p(x)=

四、

/2

1

22

()()

2(1),

()()

22

n

n m n

m n n

n

m x x x

m n m

+

--

+

Γ

?+-∞<<+∞

ΓΓ

F分布的密度函数为p(x,n,m)=

3.2 三大分布与正态分布的密度函数比较

一、设2

~()

X n

χ,则对任意x

,有2/2

lim)x t

n

P x e dt

-

-∞

→∞

≤=

证明:因为2()n

χ分布的222

111

()()()()

n n n

i i i

i i i

E E x E x D x n

χ

===

====

∑∑∑

222

11

()()()2

n n

i i

i i

D D x D x n

χ

==

===

∑∑

所以由独立同分布中心极限定理得(0,1)

Y N

=→

因为122

/2

1

~,0

()2

2

n x

n

X x e x

n

--

>

Γ

且y=

所以x n

=+

因为()()

Y X

f y dy f x dx

=

所以

1

1()

22

/2

1

()()

()2

2

n

n

Y

n

dx

f y n e

n dy

--

=

Γ

=

1

11()

222

/2

1

(1)

()2

2

n n

n

n

n e

n

---

令n=2m,利用Stirling

公式:

1

m!,0

12

m

m m m

m e e

m

θθ

-

=??<<则上式

11()

)(1)

m m m

m e

---

+

11()

)(1)

m m m

m e

---

11()

)(1)

m m m

m e

---

+

(1)

1

)m

m e-

-

2

1

2

y

n-

→∞

???

所以2χ分布的极限分布为正态分布

二、t分布收敛于标准正态分布,即若X n服从自由度为n的t

分布,

2/2

lim()x t

n

n

P X x e dt

-

-∞

→∞

≤=(1)证法1:由于自由度为n的t

分布的概率密度

1

2

2

1

()

2(1),

()

2

n

n

x

t x

n n

+

-

+

Γ

+-∞<<+∞分布的密度函数为p(x;n)=

因此(1

)式等价于2/2,

x

n

x

-

→∞

-∞<<+∞

lim(2)先利用Stirling

公式:

1

m!,0

12

m

m m m

m e e

m

θθ

-

=??<<

证明

1

()

2

()

2

n

n

n

→∞

+

Γ

=

lim

事实上,利用Γ函数的性质

1132121 ().......()

22222

242222

()......()

2222

n n n n k n k

n n n n k n k

+---+-+

ΓΓ

=

---+-+

Γ

21

(1)(3)......(21)()

2

22

2)(4)......(22)()

2

n k

n n n k

n k

n n n k

-+

---+Γ

=

-+

---+Γ

当n=2k时

11

()(21)(23)......1()

2

()

2

n

k k

n

+

Γ--?Γ

=

=

21

2212

21

()

1

2())

k

k k

k

e

k

e

-

--

-

-

?

21

21

22

22

22

(21)

(1)

22(1)

k

k

k

k

k

k

e

k

k

e

π

π

-

-

-

-

-

-

=

-

?-?

21

11

(1))

22

k n

k e

-

=+?→∞

-

当n=2k+1时亦可推出同样的结果。

另外,由特殊极限公式可得

22

2

1

1

22

()

2

22

lim(1)lim[(1)]

n n x

n x

x n

n n

x x

e

n n

+

+

?-

--

→∞→∞

+=+=

综合上诉,即证明(2)式

所以,t分布的极限分布是正态分布。

证法2

:设

n

X=2

~(0,1),~()

X N Y n

χ,且相互独立。由于Y的特征函数为/2

()(12)n

Y

t it

?-

=-,

(其中i=为虚数单位)

故/Y n 的特征函数为/2

/2()(1)n Y n i t t n

?-=- 所以/2/lim ()lim(1)/2

n it Y n n n i

t t e n ?-→∞

→∞

=-

= 又it e 是单点分布P (0X =1)=1的特征函数,所以

n

Y

的分布函数 0,01,0

()()(){

x W

n x F x F x n <≥??→=→∞

所以01()P

Y X n n

??→=→∞

1()P

n =→∞

因此()P

n X X n =

??→→∞

故2

/2lim ()x

t n n P X x e dt --∞

→∞≤=?

三、F 分布收敛于标准正态分布,即若22~(),~()X m Y n χχ,X ,Y 相互独立,

则称//X m

F Y n

=

服从为第一自由度为m ,第二自由度为n 的F

分布。2

/2lim ()x

t n n P X x e dt --∞

→∞≤=

证明:m /m 1P

Y →∞??

→当时 所以/n L

F X ??

→ 因为222

(/)1,(/)n E X n D X n n n

==

= 所以由中心极限定理,当→∞n

(0,1)L

N ??→ 所以F 分布的极限分布是正态分布。

3.3 本章小结

在实际应用中我们往往在取得总体的样本后,通常是借助样本的统计量对未知的总体分布进行推断,为此须进一步确定相应的统计量所服从的分布,正态分

χ分布、t分布、F分布是统计学最基本的四种分布,还有其他的分布布、2()n

如连续型随机变量的指数分布、均匀分布等都是我们需要研究讨论的,本文只是讨论了正态分布与三大分布的密度函数差异,所以还有很多工作需要我们研究。

4 进一步工作

χ分布的极限分布时,用的是中心极限定理,在进一步的工作中在证明2()n

可以继续研究是否可以用Stirling证明;在证明t分布的时候用的是两种方法证明,但是还可以继续求出t分布的密度函数与正态分布的密度函数差值的绝对值小于的某个具体的值;在证明F分布的极限分布是正态分布的时候我只讨论了当→∞→∞的情况,还有m→∞但n不趋于∞、n→∞但m不趋于∞以及n、n m

,

m都不趋于∞的三种情况。在另一方面可以研究这篇论文中得出的结论在实际应用中有哪些应用。

参考文献

[1] 贤平,崇圣,予毅.概率论与数理统计[M].复旦大学.2005

[2] 周润兰,喻胜华.应用概率统计[M].科学.1999

[3] 嘉焜,王家生,玉环.应用概率统计[M].科学.2004

[4]吴坚.应用概率统计[M].高等教育.2002

[5] 振华,平,胡跃清.概率论与数理统计[M].东南大学.2003

[6] 茆诗松,程依明,濮晓龙.概率论与数理统计教程[M].高等教育.2004.

[7] 田应辉,阳妮,冷志魁.概率论与数理统计[M].高等教育.2002.

[8] 宗序平.概率论与数理统计[M].机械工业.2004.

[9] 斯日古楞.特征函数的作用[J].师大学报(自然科学蒙文版),2000,(2):33-37

[10]宗序平,俊,伟.统计学上三大分布推到方法[J].数学的实践与认识,2009

年07期

[11] Jun Shao.Mathematical Statistics[J] .世界图书出版公司公司.2009

[12] JIM PITMAN.PROBABILITY[J] .世界图书出版公司公司.2009

值此论文完成之际, 首先感

统计学三大分布与正态分布的关系

统计学三大分布与正态分布的关系[1] 张柏林 41060045 理实1002班 摘要:本文首先将介绍2χ分布,t 分布,F 分布和正态分布的定义及基本性质, 然后用理论说明2χ分布,t 分布,F 分布与正态分布的关系,并且利用数学软件MATLAB 来验证之. 1. 三大分布函数[2] 1.12χ分布 2()n χ分布是一种连续型随机变量的概率分布。这个分布是由别奈梅 (Benayme)、赫尔默特(Helmert)、皮尔逊分别于1858年、1876年、1900年所发现,它是由正态分布派生出来的,主要用于列联表检验。 定义:若随机变量12n ,,X X …X 相互独立,且都来自正态总体01N (,) ,则称统计量2222 12n =+X X χ++…X 为 服从自由度为n 的2χ分布,记为22~()n χχ. 2χ分布的概率密度函数为 122210(;),2()200n x n x e x n f x n x --?≥??=Γ???? ,2χ分布的密度函数图形是一个只取非负值 的偏态分布,如下图.

卡方分布具有如下基本性质: 性质1:22(()),(())2E n n D n n χχ==; 性质2:若221122(),()X n X n χχ==,12,X X 相互独立,则21212~()X X n n χ++; 性质3:2 n χ→∞→时,( n )正态分布; 性质4:设)(~2 2n αχχ,对给定的实数 ),10(<<αα称满足条件: αχχαχα==>? +∞ ) (222 )()}({n dx x f n P 的点)(2 n α χ为)(2n χ分布的水平α的上侧分位数. 简称为上侧α分位数. 对不同的α与n , 分位数的值已经编制成表供查用. 2()n χ分布的上α分位数 1.2t 分布 t 分布也称为学生分布,是由英国统计学家戈赛特在1908年“student”的笔名首次发表的,这个分布在数理统计中也占有重要的位置. 定义:设2 ~0~X N χ(,1),Y (n ),,X Y 相互独立,,则称统计量 T = 服从自由度为n 的t 分布,记为~()T t n . t 分布的密度函数为

常用医学统计学方法汇总

选择合适的统计学方法 1连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。 ****需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t 检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。**绝不能对其中的两

统计学第5-6章 正态分布、 统计量及其抽样分布知识分享

统计学第5-6章正态分布、统计量及其 抽样分布

第5-6章统计量及其抽样分布 5.1正态分布 5.1.1定义:当一个变量受到大量微小的、独立的随机因素影响时,这个变量一般服从正态分布或近似服从正态分布。 概率密度曲线图 例如:某个地区同年龄组儿童的发育特征:身高、体重、肺活量等某一条件下产品的质量 如果随机变量X的概率密度为 2 2 () 2 1 (), 2 x f x e x μ σ πσ -- =-∞<<∞ 则称X服从正态分布。 记做 2 (,) X Nμσ : ,读作:随机变量X服从均值为 μ ,方差为2 σ的正态分布 其中, μ -∞<<∞ ,是随机变量X的均值,0 σ>是是随机变量X 的标准差

5.1.2正态密度函数f(x)的一些特点: ()0 f x≥, 即整个概率密度曲线都在x轴的上方。 曲线 () f x相对于xμ =对称,并在xμ = 处达到最大值, 1 () 2 fμ πσ = 。 1 μ< 2 μ< 3 μ 曲线的陡缓程度由 σ 决定: σ 越大,曲线越平缓;σ越小,曲线越陡峭当 x 趋于无穷时,曲线以 x轴为其渐近线。 标准正态分布

当 0,1 μσ == 时, 2 2 1 () 2 x f x e π - = , x -∞<<∞ 称 (0,1) N 为标准正态分布。 标准正态分布的概率密度函数: ()x ? 标准正态分布的分布函数: ()x Φ 任何一个正态分布都可以通过线性变换转化为标准正态分布 设 2 (,) X Nμσ : ,则 (0,1) X Z N μ σ - =: 变量 2 11 (,) X Nμσ :与变量2 22 (,) Y Nμσ :相互独立,则有 22 1212 +(+,+) X Y Nμμσσ : 5.1.3 正态分布表:可以查的正态分布的概率值 ()1() x x Φ-=-Φ

spss教程常用的数据描述统计:频数分布表等统计学

第二节常用的数据描述统计 本节拟讲述如何通过SPSS菜单或命令获得常用的统计量、频数分布表等。 1.数据 这部分所用数据为第一章例1中学生成绩的数据,这里我们加入描述学生性别的变量“sex”和班级的变量“class”,前几个数据显示如下(图2-2),将数据保存到名为“2-6-1.sav”的文件中。 图2-2:数据输入格式示例 1.Frequencies语句 (1)操作 打开数据文件“2-6-1.sav”,单击主菜单Analyze /Descriptive Statistics / F requencies…,出现频数分布表对话框如图2-3所示。 图2-3:Frequencies定义窗口 把score变量从左边变量表列中选到右边,并请注意选中下方的Display frequency table复选框(要求

显示频数分布表)。如果您只要求得到一个频数分布表,那么就可以点OK按钮了。如果您想同时获得一些统计量,及统计图表,还需要进一步设置。 ①Statistics选项 单击Statistics按钮,打开对话框,请按图2-4自行设置。有关说明如下: (ⅰ)在定义百分位值(percentile value)的矩形框中,选择想要输出的各种分位数,SPSS提供的选项有: ●Quartiles四分位数,即显示25%、50%、75%的百分位数。 ●Cut points equal 把数据平均分为几份。如本例中要求平均分为3份。 Percentile显示用户指定的百分位数,可重复多次操作。本例中要求15%、50%、85%的百分位数。(ⅱ) 在定义输出集中趋势(Central Tendency)的矩形框中,选择想要输出的集中统计量,常用的选项有: ●Mean 算术平均数 ●Median 中数 ●Mode 众数 ●Sum 算术和 (ⅲ)在定义输出离散统计量(Dispersion)的矩形框中,选择想要输出的离散统计量,常用的选项有: ●Std. Deviation 标准差 ●Variance 方差 ●Range 全距 ●Minimum 最小值 ●Maximum 最大值 ●S.E. mean 平均数的标准误 (ⅳ)描述数据分布(Distribution)的统计量 ●Skewness 偏度,非对称分布指数。 ●Kurtosis 峰度,CASE围绕中心点的扩展程度。 另外,频数过程(Frequence)除了能够提供上面常用的统计量外,还可以对分组数据计算百分位数和中数(Values are group midpoints),即对于已经分组的数据,并且数据中的原始数据表示的是组中数的数据计算百分位数的值和中位数。

三大抽样分布

三大抽样分布 众所周知,在概率论中有二项分布、正态分布、泊松分布着三大分布,而统计学中也有三大抽样分布,分别是x2 分布、t布和F分布。这三大抽样分布的发现正好是现代统计学的形成时期,对于以参数统计推断为主要内容的现代统计学理论的形成有着重要意义。X2分布的发现来源于Kad Pears0n创立X2拟合优度理论的过程,而t分布的发现来源于Gosset小样本理论的创立过程,F分布则是来源于Fisher创立方差分析理论的过程。 三大抽样分布的研究意义 c.R.Rao曾经说过“在终极的分析中,一切知识都是历史,在抽象的意义下,一切科学都是数学,在理性的基础上,所有的判断都是统计学。”这句话一语道破统计学的重要性。三大抽样分布在统计学理论中占据着重要地位,由此可见,研究三大抽样分布对于科学研究有着重要意义。在实际工作中,统计工作者对于三大抽样分布的研究必不可少,通过研究三大抽样分布的产生、发展和完善,能够充分了解三大抽样分布理论的重要性。具体到统计学三大分布,对于三大分布理论的研究,能够在充分吸收前人研究成果的基础上不断进行理论创新,从而推动科学技术的进步。纵观所有的科技进步,无一不是在充分研究前人成果的基础上发展而来的研究统计学三大抽样分布,对于我国社会经济发展有着重要的推动作用。三大抽样分布产生于19世纪末20世纪初,在统计学的发展过程中,每一次新的分析统计数据概率模型的发现,统计学理论都会发生一次重大飞跃。为此,要想研究三大抽样分布,就应该对其发展过程进行研究。统计量是样本的函数,是随机变量,有其概率分布,统计量的分布称为抽样分布。 X2分布 x2的早期发展 由于受到中心极限定理和正态误差理论的影响,正态分布一直在统计学中占据重要地位。在很多数学家和哲学家心目中,正态分布是唯一可用的分析和解释统计数据的方法。但是随着时代的发展,一些学者开始对正态性提出了质疑,随后,在多位科学家的试验验证下,正态分布与实际数据拟合不好的情况日渐凸显出来,科学家纷纷开始研究比正态分布范围更广的分布类型,波那个人产生了偏态分布,其中,x2就是最早的偏态分布最早引入偏态分布的是JamesClerk Maxwel,他在研究气体分子运动的过程中引入了X2分布。1891年,X2分布首次被作为统计量的分布导出。Pizzetti在求线性 模型最小二乘估计残差平方和的分布时,通过富氏分析法得出了X2的分布。随着时代的发展,正态分布理论的局限更加明显,更加推动了偏态分布的发展。KarlPearson是对偏态分布贡献最大的人,成为了一代统计学巨人。按照他的观点,统计学应该把在模型基础上对观测数据进行有效预测作为基本任务,所以他开创了一族曲线对观测数据进行拟合,使得分布拟台数据的应用范围进一步扩大。 X2模型

SPSS统计分析1:正态分布检验

正态分布检验 一、正态检验的必要性[1] 当对样本是否服从正态分布存在疑虑时,应先进行正态检验;如果有充分的理论依据或根据以往积累的信息可以确认总体服从正态分布时,不必进行正态检验。 当然,在正态分布存疑的情况下,也就不能采用基于正态分布前提的参数检验方法,而应采用非参数检验。 二、图示法 1、P-P图 以样本的累计频率作为横坐标,以安装正态分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系中的散点。如果资料服从整体分布,则样本点应围绕第一象限的对角线分布。 2、Q-Q图 以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为指教坐标系的散点。如果资料服从正态分布,则样本点应该呈一条围绕第一象限对角线的直线。 以上两种方法以Q-Q图为佳,效率较高。 3、直方图 判断方法:是否以钟形分布,同时可以选择输出正态性曲线。 4、箱式图 判断方法:观测离群值和中位数。 5、茎叶图 类似与直方图,但实质不同。 三、计算法 1、峰度(Kurtosis)和偏度(Skewness) (1)概念解释 峰度是描述总体中所有取值分布形态陡缓程度的统计量。这个统计量需要与正态分布相比较,峰度为0表示该总体数据分布与正态分布的陡缓程度相同;峰度大于0表示该总体数据分布与正态分布相比较为陡峭,为尖顶峰;峰度小于0表示该总体数据分布与正态分布相比较为平坦,为平顶峰。峰度的绝对值数值越大表示其分布形态的陡缓程度与正态分布的差异程度越大。 峰度的具体计算公式为: 注:SD就是标准差σ。峰度原始定义不减3,在SPSS中为分析方便减3后与0作比较。 偏度与峰度类似,它也是描述数据分布形态的统计量,其描述的是某总体取值分布的对称性。这个统计量同样需要与正态分布相比较,偏度为0表示其数据分布形态与正态分布的偏斜程度相同;偏度大于0表示其数据分布形态与正态分布相比为正偏或右偏,即有一条长尾巴拖在右边,数据右端有较多的极端值;偏度小于0表示其数据分布形态与正态分布相比为负偏或左偏,即有一条长尾拖在左边,数据左端有较多的极端值。偏度的绝对值数值越大表示其分布形态的偏斜程度越大。 偏度的具体计算公式为:

(完整word版)统计学三大分布与正态分布的关系

统计学三大分布与正态分布的关系 [1] 张柏林 41060045 理实1002班 摘要:本文首先将介绍 2分布,t 分布,F 分布和正态分布的定义及基本性质, 然后 用理论说明2分布,t 分布,F 分布与正态分布的关系,并且利用数学软件 MATLAB 来验证之. 1.三大分布函数[2] 1.1 2分布 2(n )分布是一种连续型随机变量的概率分布。这个分布是由别奈梅 (Benayme )赫尔默特(Helmert )、皮尔逊分别于1858年、1876年、1900年所发 现,它是由正态分布派生出来的,主要用于列联表检验。 定义:若随机变量X 1,X 2,…X n 相互独立,且都来自正态总体 N (0,,),则称 统计量 2 =x ; X ;…+X ;为服从自由度为n 的2分布,记为 2 2 ~ (n ). 2 分布的概率密度函数为 1 x e 2 x 0 J x 0 其中伽玛函数(X ) e t t x 1dt,x 0, 2 分布的密度函数图形是一个只取非负值 的偏态分布,如下图? x 2 n 2° f(x; n)

2(n2) ,X!,X2相互独立,则X! X2~ 2g n2); 性质3: n 时,2(n) 正态分布; 性质4:设2~ 2(n),对给定的实数 (0 1),称满足条件: P{ 2 2(n)} 2(、f(x)dx (n) 的点2(n)为2(n)分布的水平的上侧分位数. 简称为上侧分位数.对不同的与n,分位 数的值已经编制成表供查 分布,是由英国统计学家戈赛特在1908年“student的'笔名 布在数理统计中也占有重要的位置. 1), Y?2(n), X,Y相互独立,,则称统计量T —X VY/ n 分布,记为T~t( n). 为 性质1: E( 2(n)) n,D( 2(n)) 2n ; 性质2:若X! 2(nJ,X2

统计学常用分布及其分位数

§1、4 常用得分布及其分位数 1、 卡平方分布 卡平方分布、t 分布及F 分布都就是由正态分布所导出得分布,它们与正态分布一起,就是试验统计中常用得分布。 当X 1、X 2、… 、Xn 相互独立且都服从N(0,1)时,Z=∑i i X 2 得分布称为自由度等于n 得2χ分布,记作Z ~2χ(n),它得分布 密度 p(z )=??? ????>??? ??Γ--,,00,2212122其他z e x n z n n 式中得??? ??Γ2n =u d e u u n ?∞+--012,称为Gamma 函数,且()1Γ=1, ?? ? ??Γ21=π。2χ分布就是非对称分布,具有可加性,即当Y 与Z 相互独立,且Y ~2χ(n ),Z ~2χ(m ),则Y+Z ~2χ(n+m )。 证明: 先令X 1、X 2、…、X n 、X n+1、X n+2、…、 X n+m 相互独立且都服从N(0,1),再根据2χ分布得定义以及上述随机变量得相互独立性,令 Y=X 21+X 22+…+X 2n ,Z=X 21+n +X 22+n +…+X 2m n +, Y+Z= X 21+X 22+…+X 2n + X 21+n +X 22+n +…+X 2m n +, 即可得到Y+Z ~2χ(n +m )。 2、 t 分布 若X 与Y 相互独立,且 X ~N(0,1),Y ~2χ(n ),则Z =n Y X 得分布称为自由度等于n 得t 分布,记作Z ~ t (n ),它得分布密度 P(z)=)()(221n n n ΓΓ+2121+-???? ??+n n z 。 请注意:t 分布得分布密度也就是偶函数,且当n>30时,t

统计学三大分布及正态分布的关系

统计学三大分布与正态分布的关系 [1] 张柏林 41060045 理实1002班 摘要:本文首先将介绍2χ分布,t 分布,F 分布和正态分布的定义及基本性质, 然后用理论说明2χ分布,t 分布,F 分布与正态分布的关系,并且利用数学软件MATLAB 来验证之. 1.三大分布函数[2] 1.12χ分布 2()n χ分布是一种连续型随机变量的概率分布。这个分布是由别奈梅(Benayme)、赫尔默特(Helmert)、皮尔逊分别于1858年、1876年、1900年所发现,它是由正态分布派生出来的,主要用于列联表检验。 定义:若随机变量12n ,,X X …X 相互独立,且都来自正态总体01N (,) ,则称统计量222 212n =+X X χ++…X 为服从自由度为n 的2χ分布, 记为22~()n χχ. 2χ分布的概率密度函数为 122210(;),2()200n x n x e x n f x n x --?≥??=Γ???? ,2χ分布的密度函数图形是一个只取非负值的偏态分布,如下图.

卡方分布具有如下基本性质: 性质1:22(()),(())2E n n D n n χχ==; 性质2:若221122(),()X n X n χχ==,12,X X 相互独立,则21212~()X X n n χ++; 性质3:2 n χ→∞→时,( n )正态分布; 性质4:设)(~2 2n α χχ,对给定的实数),10(<<αα称满足条 件:αχχα χα ==>?+∞ ) (2 22)()}({n dx x f n P 的点)(2 n α χ为)(2n χ分布的水平α的上侧分位数. 简称为上侧α分位数. 对不同的α与n , 分位数的值已经编制成表供查 用. 2()n χ分布的上α分位数 1.2t 分布 t 分布也称为学生分布,是由英国统计学家戈赛特在1908年“student ”的笔名 首次发表的,这个分布在数理统计中也占有重要的位置. 定义:设2 ~0~X N χ(,1),Y (n ),,X Y 相互独立,,则称统计量/T Y n = 服从自由度为n 的t 分布,记为~()T t n .

统计学常用分布

二项分布(,)B n p n 为试验次数,p 为每次成功概率 {}x x n x n p X x C p q -== 其中1p q += (),()E X np Var X npq == ()()tX t n E e q pe =+其中t -¥<<¥ 解释:n 重贝努里实验中正好成功x 次的概率 几何分布()Geo p p 为成功概率 ()x P X x pq == 2(),()E X q p Var X q p == ()(1),ln tX t E e p qe t q =-<- 解释:n 重贝努里实验中首次成功正好在第x+1次 负二项分布(,),1NB k p k >,k 为成功次数,01p <<,p 为成功概率 1{}x k x k x P X x C p q +-== 2(),()E X kq p Var X kq p == ()(),ln 1tX k t p E e t q qe =<-- 解释:贝努里实验系列中第k 次成功正好出现在第x +k 次实验上地概率 泊松分布()P l {},0! x P X x e x l l l -==> (),()E X Var X l l == (1)()t tX e E e e l -=,t -¥<<¥ 解释:贝努里概型中的实验次数很大,但每次成功的概率很小,平均成功次数接近于常数

均匀分布(,)U a b 1 (),X f x a x b b a =<<-;(),X x a F x a x b b a -=<<- 2 ()(),()212a b b a E X Var X +-== 11 ()(1)()r r r b a E X r b a ++-=+- 正态分布2(,)N m s 2 1) 2()x X f x m s -- = 2(),()E X Var X m s == 22 1 2()t t tX E e e m s += 对数正态分布2log (,)N m s 2 1 ln () 2()x X f x m s --=2 221 22(),()(1)E X e Var X e e m m s s ++==- 22 1 2()t t t E X e m s += 解释:如果X~2log (,)N m s ,则logX ~2(,)N m s 指数分布()Exp l ()x X f x e l l -=,()1x X F x e l -=- 21 1 (),()E X Var X l l == (1) ()r r r E X l G += 1()(1,X t M t t l l -=-<

统计学三大分布与正态分布的差异

申请大学学士学位论文 大学 学士学位论文 统计学三大分布与正态分布的差异年级专业: 学生: 指导教师:

统计学三大分布与正态分布的差异 中文摘要 统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策者提供依据和参考。它被广泛的应用在各门学科之上,从物理和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。而对数据的分析过程中就需要利用到数据的分布来研究分类。 在实际遇到的许多随机现象都服从或近似服从正态分布。而由正态分布构造的三大分布在实际中有广泛的应用,因为这三大分布不仅有明确的背景,而且其抽样分布的密度函数有明显表达式,研究三大分布与正态分布有助于研究实际事例,比如经济安全与金融保险领域、人口统计等。 本文讨论了三大分布与正态分布,并将它们之间的密度函数进行比较说明. 第二章介绍了正态分布的定义、性质,三大分布的定义、性质。 第三章介绍了正态分布与三大分布的密度函数,并将它们之间的密度函数进行比较关键词:正态分布;三大分布;密度函数 The Difference between the Three Statistical Distributions and the Normal Distribution Abstract Statistics is a branch of applied mathematics, the mathematical models are mainly established by the probability and statistics theory based on the collecting

统计学名词解释

名词解释 1.统计学:是应用概率论和数理统计的基本原理和方法,研究数据的收集、整 理、分析、表达和解释的一门科学。 2.医学统计学:是应用统计学的基本原理和方法,研究医学及其有关领域数据 信息的搜集整理、分析、表达和解释的一门科学。 3.抽样:是从研那个研究总体抽取少量有代表性的个体,称为抽样。 4.统计推断:是根据已知的样本信息来推断未知的总体,是统计分析的目的, 包括参数估计和假设检验。 5.总体:是根据研究目的确定的同质研究对象的全体。 6.概率:是随机事件发生可能性大小的数值度量。 7.同质:是指所研究的观察对象具有某些相同的性质或特征。 8.变异:是同质个体的某项指标之间的差异,即个体差异。 9.正态分布:频数分布的高峰在中间,两端基本对称,逐步减少,这种分布称 为近似正态分布,如果两端完全对称则称为正态分布。 10.医学参考值范围:又称正常值范围,医学上常将包括绝大多数正常人的某指 标值的波动范围称为该指标的正常值范围。 11.动态数列(dynamic series):是按照一定的时间顺序,将一系列描述某事 物的统计指标依次排列起来,观察和比较该事物在时间上的变化和发展趋势,这些统计指标可以为绝对数、相对数或平均数。 12.人口金字塔:将人口的性别与年龄资料结合起来以图形的方式表达人口的性 别与年龄结构,以年龄为纵轴,人口百分比为横轴,左侧为男,右侧为女,两个对应的直方图,其形似金字塔。 13.负担系数(dependency ratio):又称抚养比或抚养系数,是指人口中非劳 动年龄人数与劳动年龄人数之比。 14.标准化死亡比(SMR):实际死亡人数与期望死亡人数之比称为标准化死亡比。

医学统计学问答题(含答案)

简答题 0. 算术均数、几何均数和中位数各有什么适用条件? 答:(1)算术均数:适用对称分布,特别是正态或近似正态分布的数值变量资料。 (2)几何均数:适用于频数分布呈正偏态的资料,或者经对数变换后服从正态分布(对数正态分布)的资料,以及等比数列资料。 (3)中位数:适用各种类型的资料,尤其以下情况: A 资料分布呈明显偏态; B 资料一端或两端存在不确定数值(开口资料或无界资料); C 资料分布不明。 1.对于一组近似正态分布的资料,除样本含量n 外,还可计算 S X ,和S X 96.1±,问各说明什么? (1)X 为算数均数,说明正态分布或近似正态分布资料的集中趋势 (2)S 为标准差,说明正态分布或近似正态分布的离散趋势 (3)S X 96.1±可估计正态指标的95%的医学参考值范围,即此范围在理论上应包含95%的个体值。 2.试述正态分布、标准正态分布的联系和区别。 正态分布 标准正态分布 原始值X 无需转换 作u=(X-μ)/σ转换 分布类型 对称 对称 集中趋势 μ μ=0 均数与中位数的关系 μ=M μ=M 参考:标准正态分布的均数为0,标准差为1;正态分布的均数则为μ,标准差为σ(μ为任意数,而σ为大于0的任意数)。标准正态分布的曲线只有一条,而正态分布曲线是一簇。任何正态分布都可以通过标准正态变换转换成标准正态分布。标准正态分布是正态分布的特例。 3.说明频数分布表的用途。 1)描述频数分布的类型 2)描述频数分布的特征 3)便于发现一些特大或特小的可疑值 4)便于进一步做统计分析和处理 4.变异系数的用途是什么? 多用于观察指标单位不同时,如身高与体重的变异程度的比较;或均数相差较大时,如儿童身高与成人身高变异程度的比较。 5.试述正态分布的面积分布规律。 (1)X 轴与正态曲线所夹的面积恒等于1或100%; (2)区间μ±σ的面积为68.27%,区间μ±1.96σ的面积为95.00%,区间μ±2.58σ的面积为99.00%。 6.试举例说明均数的标准差与标准误的区别与联系。 7.标准正态分布(u 分布)与t 分布有何不同?

贾俊平《统计学》(第5版)课后习题-第6章 统计量及其抽样分布【圣才出品】

第6章 统计量及其抽样分布一、思考题 1.什么是统计量?为什么要引进统计量?统计量中为什么不含任何未知参数? 答:(1)设12n X X X ,, …,是从总体X 中抽取的容量为n 的一个样本,如果由此 样本构造一个函数12()n T X X X ,,…,,不依赖于任何未知参数,则称函数12()n T X X X ,,…,是一个统计量。 (2)在实际应用中,当从某总体中抽取一个样本后,并不能直接应用它去对总体的有关性质和特征进行推断,这是因为样本虽然是从总体中获取的代表,含有总体性质的信息,但仍较分散。为了使统计推断成为可能,首先必须把分散在样本中关心的信息集中起来,针对不同的研究目的,构造不同的样本函数。 (3)统计量是样本的一个函数。由样本构造具体的统计量,实际上是对样本所含的总体信息按某种要求进行加工处理,把分散在样本中的信息集中到统计量的取值上,不同的统计推断问题要求构造不同的统计量,所以统计量不包含未知参数。 2.判断下列样本函数哪些是统计量?哪些不是统计量? 1121021210310410()/10 min() T X X X T X X X T X T X μ μσ =+++==-=-…,,…,()/答:统计量中不能含有未知参数,故1T 、2T 是统计量,3T 、4T 不是统计量。

3.什么是次序统计量? 答:设12n X X X ,, …,是从总体X 中抽取的一个样本,()i X 称为第i 个次序统计量,它是样本 12()n X X X ,,…,满足如下条件的函数:每当样本得到一组观测值12X X ,,…,n X 时,其由小到大的排序 (1)(2)()()i n X X X X ≤≤≤≤≤……中,第i 个值()i X 就作为次序统计量()i X 的观测值,而(1)(2)()n X X X ,,…,称为次序统计量,其中(1)X 和()n X 分别为最小和最大次序统计量。 4.什么是充分统计量? 答:在统计学中,假如一个统计量能把含在样本中有关总体的信息一点都不损失地提取出来,那对保证后边的统计推断质量具有重要意义。统计量加工过程中一点信息都不损失的统计量通常称为充分统计量。 5.什么是自由度? 答:统计学上的自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的变量的个数。 6.简述2 χ分布、t 分布、F 分布及正态分布之间的关系。答:(1)随机变量X 1,X 2,… X n 相互独立,且都服从标准正态分布,则它们的平方和21 n i i X =∑服从自由度为n 的2 χ分布。(2)随机变量X 服从标准正态分布,Y 服从自由度为n 的2 χ分布,且X 与Y 独立,

统计学常用分布及分位数

§1.4 常用的分布及其分位数 1. 卡平方分布 卡平方分布、t 分布及F 分布都是由正态分布所导出的分 布,它们与正态分布一起,是试验统计中常用的分布。 当X 1、X 2、… 、Xn 相互独立且都服从N(0,1)时,Z=∑i i X 2 的分布称为自由度等于n 的2χ分布,记作Z ~2χ(n),它的分布密度 p(z )=??? ????>??? ??Γ--,,00,2212122其他z e x n z n n 式中的??? ??Γ2n =u d e u u n ?∞+--012,称为Gamma 函数,且()1Γ=1, ?? ? ??Γ21=π。2χ分布是非对称分布,具有可加性,即当Y 与Z 相互独立,且Y ~2χ(n ),Z ~2χ(m ),则Y+Z ~2χ(n+m )。 证明: 先令X 1、X 2、…、X n 、X n+1、X n+2、…、 X n+m 相互独立且都服从N(0,1),再根据2χ分布的定义以及上述随机变量的相互独立性,令 Y=X 21+X 22+…+X 2n ,Z=X 21+n +X 22+n +…+X 2m n +, Y+Z= X 21+X 22+…+X 2n + X 21+n +X 22+n +…+X 2m n +, 即可得到Y+Z ~2χ(n +m )。 2. t 分布 若X 与Y 相互独立,且 X ~N(0,1),Y ~2χ(n ),则Z =n Y X 的分布称为自由度等于n 的t 分布,记作Z ~ t (n ),它的分布密度 P(z)=)()(221n n n ΓΓ+2121+-???? ??+n n z 。

请注意:t 分布的分布密度也是偶函数,且当n>30时,t 分布与标准正态分布N(0,1)的密度曲线几乎重叠为一。这时, t 分布的分布函数值查N(0,1)的分布函数值表便可以得到。 3. F 分布 若X 与Y 相互独立,且X ~2χ(n ),Y ~2χ(m ), 则Z=m Y n X 的分布称为第一自由度等于n 、第二自由度等于m 的F 分布,记作Z ~F (n , m ),它的分布密度 p(z)=???? ?????>++-??? ??Γ??? ??Γ??? ??+Γ?。其他,00,2)(1222222z m n z n m n z m n m n m m n n 请注意:F 分布也是非对称分布,它的分布密度与自由度的次序有关,当Z ~F (n , m )时,Z 1~F (m ,n )。 4. t 分布与F 分布的关系 若X ~t(n ),则Y=X 2~F(1,n )。 证:X ~t(n ),X 的分布密度p(x )=??? ??Γ?? ? ??+Γ221n n n π2121+-???? ??+n n x 。 Y=X 2的分布函数F Y (y ) =P{Y0时,F Y (y ) =P{-y

统计学第5-6章 正态分布、 统计量及其抽样分布讲解学习

第5-6章 统计量及其抽样分布 5.1正态分布 5.1.1定义:当一个变量受到大量微小的、独立的随机因素影响时,这个变量一般服从正态分布或近似服从正态分布。 概率密度曲线图 例如:某个地区同年龄组儿童的发育特征:身高、体重、肺活量等 某一条件下产品的质量 如果随机变量X 的概率密度为 22 ()21 (),2x f x e x μσπσ --=-∞<<∞ 则称X 服从正态分布。 记做 2 (,)X N μσ:,读作:随机变量X 服从均值为μ,方差为2 σ的正态分布 其中, μ-∞<<∞,是随机变量X 的均值,0σ>是是随机变量X 的标准差 5.1.2正态密度函数f(x)的一些特点: ()0f x ≥,即整个概率密度曲线都在x 轴的上方。 曲线 ()f x 相对于x μ=对称,并在 x μ=处达到最大值,

1 () 2 fμ πσ = 。 1 μ< 2 μ< 3 μ 曲线的陡缓程度由 σ 决定:σ越大,曲线越平缓;σ越小,曲线越陡峭当 x 趋于无穷时,曲线以x轴为其渐近线。 标准正态分布 当 0,1 μσ == 时, 2 2 1 () 2 x f x e π - = , x -∞<<∞ 称 (0,1) N 为标准正态分布。

标准正态分布的概率密度函数: ()x ? 标准正态分布的分布函数: ()x Φ 任何一个正态分布都可以通过线性变换转化为标准正态分布 设 2 (,) X Nμσ : ,则 (0,1) X Z N μ σ - =: 变量 2 11 (,) X Nμσ :与变量2 22 (,) Y Nμσ :相互独立,则有 22 1212 +(+,+) X Y Nμμσσ : 5.1.3 正态分布表:可以查的正态分布的概率值()1() x x Φ-=-Φ 例:设 (0,1) X N :,求以下概率 (1) ( 1.5) P X< (2) (2) P X> (3) (13) P X -<≤

(仅供参考)如何统计分析非正态分布的数据

如何统计分析非正态分布的数据 小飞看了9月23日医咖会微信推送的“降糖药物利拉鲁肽,还能治疗心衰吗?”的研究(FIGHT 研究)后[1],不明白研究方法II中的Wilcoxon秩和检验到底是什么,于是来找小咖讨论。 小飞:Wilcoxon秩和检验到底是个什么鬼? 小咖:这是一种非参数检验方法。 小飞:非参数检验又是个什么鬼啊? 小咖:平时我们常用的t检验、卡方检验、方差分析等方法都要求样本服从特定的分布(比如t检验要求样本服从正态分布),这些方法被称为参数检验方法。但有些数据并不符合参数检验的要求,最常见的情况是数据不符合正态分布,这时可以使用非参数检验的方法。 非参数检验有很多种,Wilcoxon秩和检验就是其中一种。 小飞:不明觉厉...你还是来个栗子呗。

小咖:好吧。某医生为了评价A药对绝经后妇女的骨质疏松症是否有效,将30名绝经后妇女随机分为两组,干预组研究对象15例,给予A药+乳酸钙治疗;对照组15例,仅给予乳酸钙治疗。24周之后观察两组L2-4骨密度的改善率。数据如下图: 两组骨密度改善率(%) 干预组对照组 ID 改善率ID 改善率 1 -0.20 1 -0.83 2 0.21 2 0.26 3 1.86 3 0.48 4 1.97 4 1.03 5 2.31 5 1.06 6 2.80 6 1.19 7 3.30 7 1.27 8 3.60 8 1.71 9 4.31 9 1.75 10 4.40 10 2.33 11 5.29 11 2.66 12 5.87 12 2.80 13 6.06 13 3.22 14 6.08 14 3.34 15 7.00 15 3.34 小飞:嗯,我明白了。对于这种两组平行设计、结局是不符合正态分布的连续变量,就应当使用Wilcoxon秩和检验对吧? 小咖:很聪明,给你满分。接下来给你演示一下用SPSS 22.0怎么操作。 (1)数据录入SPSS

如何合理选择统计方法——常用统计学方法汇总

01如何选择合适的统计学方法? 1连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni 法校正P值,然后用符号配对的Wilcoxon检验。 ****需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正

统计学常用分布及其分位数知识讲解

统计学常用分布及其 分位数

收集于网络,如有侵权请联系管理员删除 §1.4 常用的分布及其分位数 1. 卡平方分布 卡平方分布、t 分布及F 分布都是由正态分布所导出的 分布,它们与正态分布一起,是试验统计中常用的分 布。 当X 1、X 2、…、Xn 相互独立且都服从N(0,1)时, Z=∑i i X 2 的分布称为自由度等于n 的2χ分布,记作Z ~ 2χ (n),它的分布密度 p(z )=???????>??? ??Γ--,,00,2212122其他z e x n z n n 式中的?? ? ??Γ2n =u d e u u n ?∞+--012,称为Gamma 函数,且()1Γ=1, ??? ??Γ21=π。2χ分布是非对称分布,具有可加性, 即当Y 与Z 相互独立,且Y ~2χ(n ),Z ~2χ(m ),则Y+Z ~2χ(n+m )。 证明: 先令X 1、X 2、…、X n 、X n+1、X n+2、…、X n+m 相互 独立且都服从N(0,1),再根据2χ分布的定义以及上述随机变量的相互独立性,令 Y=X 21+X 22+…+X 2n ,Z=X 21+n +X 22+n +…+X 2m n +, Y+Z= X 21+X 22+…+X 2n + X 21+n +X 22+n +…+X 2m n +, 即可得到Y+Z ~2χ(n +m )。 2. t 分布 若X 与Y 相互独立,且 X ~N(0,1),Y ~2χ(n ),则Z =n Y X 的分布称为自由度 等于n 的t 分布,记作Z ~ t (n ),它的分布密度

收集于网络,如有侵权请联系管理员删除 P(z)=)()(221n n n ΓΓ+2121+-???? ? ?+n n z 。 请注意:t 分布的分布密度也是偶函数,且当n>30 时,t 分布与标准正态分布N(0,1)的密度曲线几乎重叠为一。这时, t 分布的分布函数值查N(0,1)的分布函数值表便可以得到。 3. F 分布 若X 与Y 相互独立,且X ~2χ(n ),Y ~ 2χ(m ), 则Z=m Y n X 的分布称为第一自由度等于n 、第二自由度等于m 的F 分布,记作Z ~F (n , m ),它的分布密度 p(z)=?????????>++-??? ??Γ??? ??Γ??? ??+Γ?。其他,00,2)(1222222z m n z n m n z m n m n m m n n 请注意:F 分布也是非对称分布,它的分布密度与自由度的次序有关,当Z ~F (n , m )时, Z 1~F (m ,n )。 4. t 分布与F 分布的关系 若X ~t(n ),则Y=X 2~F(1,n )。 证:X ~t(n ),X 的分布密度 p(x )=??? ??Γ?? ? ??+Γ221n n n π2121+-???? ??+n n x 。 Y=X 2的分布函数F Y (y ) =P{Y0时,F Y (y ) =P{-y

相关文档
相关文档 最新文档