文档视界 最新最全的文档下载
当前位置:文档视界 › 数理统计典型例题分析

数理统计典型例题分析

典型例题分析

例1.分别从方差为20和35的正态总抽取容量为8和10的两个样本,求第一个样本方差是第二个样本方差两倍的概率的范围。

解 以21

S 和22

S 分别表示两个(修正)样本方差。由22

22

12σσy x S S F =知统计量

22

2

1222175.13520S S S S F ==

服从F 分布,自由度为(7,9)。

1)事件{}

2

2212S S =的概率

{

}

{}05.32035235

20222221222122

2

1===???????==??????===F P S S P S S P S

S P

因为F 是连续型随机变量,而任何连续型随机变量取任一给定值的概率都等

于0。

2)现在我们求事件{}二样本方差两倍

第一样本方差不小于第=A 的概率: {}

{}5.322

221≥=≥=F P S S P p 。

由附表可见,自由度9,721==f f 的F 分布水平α上侧分位数),(21f f F α有如下数值:

)9,7(20.45.329.3)9,7(025.005.0F F =<<=。

由此可见,事件A 的概率p 介于0.025与0.05之间;05.0025.0<

例2.设n X X X ,,, 21是取自正态总体),(2σμN 的一个样本,2s 为样本方差,求满足不等式

95.05.122≥?

?????≤σS P 的最小n 值。

解 由随机变量2χ分布知,随机变量σ/12S n )(-服从2χ分布,自由度1-=n v ,于是,有

{}{}

95.0)1(5.1)1(5.1)1(2

,05.0222

2=≤≥-≤=?

?????-≤-=v v v P n P n S n P χχχσ 其中2v χ表示自由度1-=n v 的2χ分布随机变量,2

,05.0v χ是自由度为1-=n v 的水

平05.0=α的2χ分布上侧分位数(见附表)。我们欲求满足

2,05.015.1v n χ≥-)(

的最小1+=v n 值,由附表可见

2

26,05.0885.3839)127(5.1χ=>=-, 22505.0652.375.401265.1,)(χ=<=-。

于是,所求27=n 。

例3.假设随机变量X 在区间[]1,+θθ上有均匀分布,其中θ未知:

)(1n X X ,, 是来自X 的简单随机样本,X 是样本的均值,{}n X X X ,,min 1)1( =是最小观察值。证明

21?1-=X θ 和 1

1?12+-=n X )

(θ 都是θ的无偏估计量。

解 由X 在[]1,+θθ上均匀分布,知2/)12(+==θEX EX i 。 1)由

θθθθ=-+=-+=-=∑∑==2

121212221211?111n i n i i n EX n E , 可见1?θ是θ的无偏估计量。

2)为证明2

?θ是θ的无偏估计。我们先求统计量)1(X 的概率分布。 {}??

?

??>+≤≤-<=≤=。若,;若;

若)(111,,0θθθθθx x x x X P x F

其密度为

???+≤≤=。

其他,

若,01,1)(θθx x f

由于n X X ,, 1独立且与X 同分布,知)1(X 的分布函数为

{}{}{}x X x X P x X P x X P x F n >>-=>-=≤=,,111)1()1(1 )

()( {}{}x X P x X P n >>-= 11 []n

x F )(11--=;

[])1()1()()(1)()(11

)1()1(+≤≤-+=-='=--θθθx x n x f x F n x F x f n n

于是,有

?

?

+-+-+==1

11

)1()1()1()(θθ

θθ

θdx x x n dx x xf EX n

?

?

+-+-+++-+-+=111

)1)(1()1()1(θθ

θθ

θθθθdx x n x d x n n n

θθ++=

??? ??

+++-=11111n n n n 。 θθ=+-=1

1?)

1(2n EX E , 从而2

?θ是θ的无偏估计。 在证2

?θ的无偏估计时,先求估计量分布再求其数学期望。此外,下面将看到,1?θ是矩估计量,)1(X 是最大似然估计量。

3)有效性的验证,即验证两个无偏估计量哪一个更有效(方差较小),只需 计算它们的方差并加以比较,验证估计量的最小方差超出了本课程的要求。读者只需了解一些常用的最小方差估计量。例如,对于正态分布总体),(2σμN ,样本

均值X 和修正样本方差2S 相应为μ和2σ的最小方差无偏估计量;事件频率n p ?是它的概率p 的最小方差无偏估计量。 如果要求有效率,则用公式

)?()(0θ

θD D 计算,其中()2

),(ln 1

)()?(??

?

?????=≥θθθθx f nE D D ——称为罗.克拉美不等式。

例4.设总X 服从正态分布)

,(20σμN ,其中方差2

0σ为已知常数;关于未 知数学期望μ有两个二者必居其一的假设: 1100μμμμ==:,:H H ,

其中0μ和1μ都有已知常数,并且10μμ<。根据来自总体X 的简单随机样本n X X X ,,, 21,确定假设0H 的α水平否定域(即拒绝域),并计算第二类错误概率。

解 取统计量

n

X U 0

σμ-=

做检验的统计量。在假设00μμ=:H 成立的条件下,),(10~N U 。

由于

{}{}{}{}ααααα=≤=-≤=≥=≥-122u U p u U P u U P u U P 。 所以以下四种都是假设0H 的水平α的否定域: {}{}αα221u U V u U V ≥=≥=;; {}{}αα-≤=-≤=1423u U V u U V ;, 其中αu 是标准正态分布α水平双侧分位数(见附表)。

在假设11:μμ=H 成立的条件下,统计量)1,(~?N U ,其中

001/)(σμμ-=?n 。因此,以)4,3,2,1(=i V i 为假设否定域的检验的第二类错误概率为:

{}{}??--

=

===i

V x i i dx e V P H V P 2

)(112

21

π

μμβ。

特别(设)(x Φ是标准正态分布函数)

1)()(21

21

2

2

)(12

2

-?-Φ+?+Φ==

=???

-?

---?--

ααμπ

π

βαμα

α

u du e dx e

u u u u u x ;

)(21

22

)(222

?-Φ==

?∞

-?--

αα

πβu dx e

u x ;

)(21

22

)(322

?+Φ==

?∞

+-?--

αα

π

βu dx e

u x ;

)()(221

21112

)(2

)(412

12

?-Φ-?+Φ-=+

=

--∞

+?--∞

-?--

??--ααμπ

π

βα

α

u dx e

dx e

u x u x 。

为了便于比较,设91101.0010=====n ;,,,σμμα,则

13.0,28.1,65.1,39.02.01.0====?u u u 。查附表并经计算,容易得到 9988.09999.00427.00855.04321====ββββ,,,。

第二类错误的概率却不相同。以2V 为否定域的检验的第二类错误的概率最小,为我们所选用。

例5.对二项分布),(p n B 作统计假设 3.0:,6.0:10==p H p H 。 假设0H 的否定域取为

{}{}21c c V n n ≥≤=μμ ,

其中n μ表示n 次试验中成功的次数。对(1);3,9,1,1021====n c c n μ (2)6,17,7,2021====n c c n μ,求显著性水平α和第二类错误的概率β。

解 (1)显著性水平α是第一类错误的概率,于是 {}{}6.00=∈=∈=p V P H V P n μμα 0479.04.06.04

.06.010

910101

01010

≈+=∑∑=-=-i i i i

i i

i

i C C 。 {}{}111H V P H V P n n ∈-=∈=μμβ {}3.01=∈-=p V P n μ 8506.07.03.07

.03.0110

910101

01010

≈--=∑∑=-=-i i i i

i i

i

i

C C 。 (2)

{}{}6.00=∈=∈=p V P H V P n n μμα 0370.04.06.04

.06.020

17207

02020

≈+=∑∑==-i i i i

i i

i

i

C C 。 {}{}3.011=∈-=∈=p V P H V P n n μμβ 2277.07.03.07

.03.0120

1720207

02010

≈--=∑∑=-=-i i i i

i i

i

i

C C 。 例6.谋装置的平均工作温度据制造厂家称不高于190℃。今从一个由16台

装置构成的随机样本册的工作温度的平均值和标准差分别为195℃和8℃。根据这些数据能否说明平均工作温度比制造厂所说的要高?设05.0=α,并假定工作温度服从正态分布。

解 设工作温度为X ,根据题设),(~2σμN X 。考虑假设

190,190:10>≤H H μ 由于总体方差2σ未知,故用t 检验。

这里,151,16=-==n v n 对给定的05.0=α,查表得75.15.1,1.0,20==t t v 。于是由表情形知假设0H 的否定域为

{}75.1≥=t V 。

由条件和0H 知8,195,1900===S X μ,因此 5.216

/8190195=-=

t 。

由于75.15.2>=t ,所以否定域假设0H ,说明平均工作温度比制造厂说的要高。

例7 某电话交换台在一小时(60分钟)内每分钟接到电话用户的呼唤次数有

如下纪录:

问统计资料是否可以说明,每分钟电话呼唤次数服从泊松分布?()05.0=α

解 设X 表示每分钟电话呼唤次数,需要检验的假设

X H :0服从泊松分布。 泊松分布中未知参数λ的最大似然估计为

∑===60

2601?k k kv λ。 我们用

)6,,1,0(!

2? ==-k e k p

k

k k

估计概率{})6,,1,0( ===k k X P p k ;用)4,3,2,1,0(?==k p

n E k k 估计{}k X =的期望频数。为避免期望频数太小,将呼唤次数为5和6的情况,合并为5≥X 的情

况,为第6组:其实际频数为2+1=3,期望频数为 16.3)(655=+=p p n E 。

所以统计量

1762.0)(5

2

2

=-=∑=k k k k E E v

χ。

统计量2χ的自由度16--=m v ,其中1=m 是用到参数估计值的个数,故4=v 。

对于, 05.0=α,查表得488.92

4,05.0=χ;假设0H 的否定域为

{}

488.92≥=χV 。

由于2χ=0.1762<9.488,所以不否定假设0H ,即可以认为电话呼唤次数服从泊松分布。

例8 对200个电池左寿命试验,得如下统计分布:

试求所得统计分布与指数分布的拟合优度。

解 设X 表示电池的寿命,需要检验假设X H :0服从指数分布。指数分布中未知参数λ需要用其最大似然估计X /1=λ来估计。在这里

5)15.2725.2245.17155.12455.71335.2(200

1

=?+?+?+?+?+?=

X 。 所以5/1?=λ。在5/1:0服从指数分布,参数为“X H ”成立前提下,观察值落入各组的概率

{})6,,2,1(5

1?5

5

5

111 =-==≤=-

-----?i e

e

dx e u X u P p i i i

i u u u u x

i i i 。

所以统计量

∑=-=6279.1)(2

2

i

i i E E v χ。

统计量2χ的自由度4116=--=v ,查表得24,94.0χ=1.064,195.22

4,7.0=χ。由于

1.064<1.6297<

2.195,的可得统计分布与指数分布的拟合优度不小于0.70。

例9设随机变量X 和Y 相互独立,),(~),,(~222211σμσμN Y N X 。16

21,,,X X X 是X 的一个样本,1021,,,Y Y Y 是Y 的一个样本,测得数据

∑∑∑∑========10

1

2101

161

2

16

1

72,18,563,84i i i i i i i i

y y x x

(1)分别求21,μμ的矩估计量;(2)分别求2

221σσ,的极大似然估计值; (3)在显著水平05.0=α下检验假设 2

2210σσ≤:H ,22211σσ>:H 。

解 (1)用样本一阶原点矩估计总体一阶矩,即得1μ和2μ的矩估计值:

8.1101?,25.5161?10

1

21611=====∑∑==i i i i y x x μμ

。 (2)正态总体),(~2σμN X 的参数2σ的极大似然估计量为

∑=-==n i i X X n 1

22

)(1?σ

。因此2

221σσ和的极大似然估计值为 625.716161)(161?1611222

21

=??

? ??-=-==∑∑==i n i i i x x x x σ

96.316101)(101?1011222

22

=??

? ??-=-==∑∑==i n i i i y y y y σ

(3)是21,μμ未知,双总体方差的假设检验。待检假设2

2210σσ≤:H ; 2

2

211σσ>:H ,是在05.0=α下的单侧检验。 因为4.4)(91,31.8)(1511

21221221

=-==-=∑∑==n i n i i y y S x x S 。所以F 同机量得 值

847.14.415

.822

21===S S F

查F 分布表,得01.391505.0=),(F .经比较知,01.3)9,15(847.105.0=<=F F ,故接

受0H ,认为2

221σσ不比大。

例10 有三台机器,生产同一种规格的铝合金薄板,测量三台机器所生产的 薄板厚度(单位:厘米),得结果如表所示。

机器1 机器2 机器3 0.236 0.257 0.258 0.238 0.253 0.264 0.248 0.255 0.259 0.245 0.254 0.267 0.243 0.261 0.262

试考察机器对薄板厚度有无显著的影响)(05.0=α。

解 检验假设3210μμμ==:H 。i μ是各台机器生产的薄板总体的均值。 经计算15,5,3321=====n n n n s ,

8102.4,8.3,963912.03

1

23

15

1

2

===∑∑∑=?==j j j i ij

T T x 。

3

001245.015

12

3

15

1

2

=-

=∑∑==T x S j i ij T , 3

001053.015151312

2 =-=∑=?j j A T T S , 000192.0=-=E T E S S S .

因为92.3293.821205.0=<=比),(F F ,故拒绝0H ,认为各台机器生产的薄板厚度有显著差异。

在进行方差分析时,还常要对未知参数进行估计。下面写出常用的几个估计:

①s

n S E

-=2?σ

是的无偏估计。 ②j j x x ?==μμ

?,?分别是j μμ,的无偏估计。 ③x x j j -=?σ

?是j δ的无偏估计,且∑=0j j n δ。 ④两总体),.(2σμj N 与),(2σμK N 的均差值k j μμ-的置信度为α-1的置信区间为

))11()((2k j E k j n n S s n t x x +--??α 。

例11 求上例中未知参数j j δμσ,,2的点估计及均值差的置信度为0.95的 置信区间。

解 000016.03

15000192

.0?2=-=-=s n S E σ

, 262.0??256.0?240.0?332211======???x x x μ

μμ,,, 011.0?253.0?1-=-===?x x x δμ,, 又由1788.2315025.0=-)(t ,

36

10256.15

2

10

1611--?=??=+k j E n n S (, 知0055.01112025.0=+k j E n n S t ()(,

故323121μμμμμμ---及,的置信度为0.95的置信区间分别为

(0.242-0.256 0.0055)=(-0.0195,-0.0085), (0.242-0.262 0.0055)=(-0.0255,-0.0145), (0.256-0.262 0.0055)=(-0.0115,-0.0005)。

例12 某工厂在生产一种产品时使用了三种不同的催化剂和四种不同的原 料,每种搭配都做一种试验,测的产品成品的压强(单位:兆帕)数据如下表:

试在05.0=α下检验不同催化剂和原料对压强有无显著影响。

解 设i α为因素A 在水平i A 的效应,j β为因素B 在水平j β的效应。待检验 假设

032101===ααα:H ,

0432102====χβββ:H 。 因为43==s r ,,所以

67.984364

31159402

=??-=)(T S ,

17.2543643163466412

=??-?=)(A S ,

34.693644

3147732312

=??-?=)(B S ,

16.4=--=B A T E S S S S 。 列出方差分析表如下

因为35.3376.4)6,3(16.18145.62(05.005.0=<==<=比比,),F F F F ,所以拒绝

01H 和02H ,认为催化剂和原料的影响都是显著的。

例13 设关于某设备的使用年限x 和支出的维修费用(单位:千元)y 如下 所示:

求(1)关于x 的回归方程,2σ的无偏估计;

(2)检验回归是否显著,并求7=x 时,维修费用y 的0.95预测区间。 解 (1)左散点图(略),数据分布呈直线趋势。列计算表:

并计算下列数据:

)(1020519012

112=?-=??

? ??-=∑∑==n i i n

i i

xx x n x l 3

.12252051

3.1121111

=??-=??? ????? ??-=∑∑∑===n i i n i i n

i i i xy y x n y x l 78.15255178.14012

2

11

2=?-=??? ??-=∑∑==)(n i i n

i i yy

y n y l ,

解得 23.110

3.12?===xx xy l l b

, 08.0423.15?1?1

=?-=-=∑=x b y n a

n

i i 。 所以,线性回归方程为

x y

23.108.0?+=。 2σ的无偏估计为

8837.0)3.11223.178.140(3

1)?(21?2=?-=--=xy

yy l b l n σ

。 (2)将70=x 代入回归方程得69.8?0=y

。 因为35.2)3(,5025.0==t n ,所以0y 的置信度为0.95的置信区间为

))(11?)2(?2020xx l x x n n t y

-++-±σα( )893.11,487.5()45.194.035.269.8(=??±=。

计算t 统计量

187.13908837

.023

.1??===xx l b t σ。

因为187.131824.3)3(025.0=<=t t ,故知回归效果是显著的。

例14(单因素方差分析)下表给出了小白鼠在接种三种不同菌型伤寒杆菌后的

存活天数,问

三种菌型的平均存活天数有无显著差异?

计算:222.6,444.7,22.7,4321====X X X X

()()8889.66)168(27

1

44894225129691271)(9111224

53351517667

,65,3622

12

322211212

3219

12

3219

1

=-++=?

?? ??-++=??? ??-==++=++=====?=∑∑∑∑∑=====r i i r i i r

i i

i

A j ij i j ij i S S S S S n n S Q SS SS SS x SS S S S x S

()6667.1788889.667778.1117778.1112222.11125335151769

3

12

3

1=+=+==-++=-=∑∑==A E T i i i i E Q Q Q S SS Q 列成表格 如下,其中,27,3==n r

657

.424

7778.1114445.332

8889

.6612

2==-===-=

r n Q S r Q S E E A A

1809.76574

.44445.33220===E A S S F ,查表 ()40.324,205.0=F

对给定的显著水平05.0=α,查表,40.3)24,2(05.0=F 因

40.3)24,2(1809.705.0=>=F F ,故拒绝0H ,即认为这三种不同菌型的伤寒杆菌的平均存活天数有显著差异。

例15.(正交试验)为了制造轴承,寻求新钢种最佳等温淬火工艺。考察试验指标是径向抗压负荷与硬度,对试验指标有影响的主要因素:加热温度(单位:

C 0

),等温温度

(单位:C 0),淬火返修次数(单位:次),将因素列如下表。

因为是3元素3水平,选择正交表)3(49L 合适。

确定试验方案 在上表中,每一个横行就代表了一个试验条件,共有9个试验条件。等1号试验条件是:加热温度是900C 0(1A ),等温温度是250C 0()1B ,返修次数是2次(3C ),记作为 311C B A ,类似地第2号试验条件是 ,112C B A ,第9号试验条件是333C B A 。

试验方案的实施 按正交表中的试验条件严格操作。将各次的试验结果记录

其中 jk T ——第j 列因素水平)3,2,1(=k k ,3

jk jk T T =——第j 列因素水平k 的

3次试验指标的平均

例 ,6.194.87.55.5)(11=++=负荷T 对因素B ,有硬度25.573/)325.57(23=?=T 。

2.633

1

==∑=k jk j

T S (负荷)——各因素的3个水平的负荷之和 15.5831)(3

1

==∑=k jk j T S 硬度——各元素的3个水平平均硬度。

)(负荷j R ={

}{}3

13

1min max ≤≤≤≤-k jk jk k T T j R (硬度)={

}{}jk k jk k T T 3

13

1min max ≤≤≤≤-

正交试验结果的分析

1. 直接看:(1)比较9次试验的负荷:抗压负荷最高的试验条件是232C B A , 即第8号试验,其次是131C B A (第7号试验),123C B A (第6号试验),112C B A (第2号试验)。(2)再比较9次试验的硬度是:硬度的高低主要取决于等温温度,加热温度和返修次数对硬度无明显影响。综合考虑,等2号试验的条件较好。

2. 计算分析;(1)负荷

因素A 平均负荷是C T 01288067.7→= 因素B 平均负荷是27.823=T 因素C 平均负荷是87.731=T

由此分析出132C B A 是最好的试验条件。但这个条件在表中没有出现。 类似 (1)硬度——C AB 1

根据每个因素对试验指标的影响不同,区分出主次。由上表可见 主——————— 次

负荷??

?C

C

A C

B 0

8800270次

水平因素

硬度?

??各水平

各水平

水平因素

250C C A B

用极差大小来区分主次:若某因素的极差越大,则该因素对指标的影响就越 大。结果可以看出是因素B 。综合平衡考虑:硬度不能低于)(58HRC 。

在这一条件下高负荷的好水平组合为122C B A 。试验结果的分析分别在正交 表中进行。

3. 方差分析

这是3元素3水平的无重复试验设计问题。

其效应模型为 是相互独立

各约束条件ijk ijk k k j j i i ijk

k j i ijk N Y εσεγβαεγβαμ),,0(~0,0,023

1

3

1

3

1

--===++++=∑∑∑===

设921,,,Y Y Y 表示从第1号试验到第9号试验的试验指标。 具体效应模型表示如下

9

33398232871317612365322542214321332112213111εγβαμεγβαμεγβαμεγβαμεγβαμεγβαμεγβαμεγβαμεγβαμ++++=++++=++++=++++=++++=++++=++++=++++=++++=Y Y Y Y Y Y Y Y Y 检验假设 0

:0:0

:321033210232101=========γγγβββαααH H H

总离差平方()∑∑===-=4

1

9

1

2

j j i i t SS Y Y SS

其中j SS ——第j 列的离差平方和,由于正交表具有均衡分散性和综合可比性的

特点,所以2

91312

9

1)(913133∑∑∑===-=???

? ?

?-=i i i jr r jr

j Y T Y T SS ()??????

??????????? ??-+++??? ??-+++???

?

?-++=??

? ??-+??? ??-+??? ??-=∑∑∑===29

19632918

522917412

132

122

1119139139133]

333[3i i i i i i Y Y Y Y Y Y Y Y Y Y Y Y E Y T

Y T Y T E SS E =()

22

3222123σααα+++

同理 ()()

2232221223σβββ+++=SS E ()()

2232221323σγγγ+++=SS E

()242σ=SS E

记 A SS SS =1——为因素A 的平方和

B SS SS =2——为因素B 的平方和

C SS SS =3——为因素C 的平方和。 4SS ——1C SS 则

χ

σχσ~),

13(~2

22

1

C C

SS SS -)13(~),

13(~),

19(~22

22

22

---χσχσχσB

A

t

SS SS SS

)13(~22-χσC SS ,)13(~221-χσC SS 当01H 为真时,检验统计量)2,2(~2

/2

/1F SS SS F C A A =

分布;

当02H 为真时,检验统计量)2,2(~2

/2

/1F SS SS F C B B =

分布;

当03H 为真时,检验统计量)2,2(~2

/2

/1F SS SS F C C C =

分布。

若给定显著系性水平α,拒绝域()2,2αF F ≥, 当拒绝01H ,则认为因素A 对试验指标有显著影响; 当拒绝02H ,则认为因素B 对试验指标有显著影响; 当拒绝03H ,则认为因素C 对试验指标有显著影响;

利用正交表进行方差分析时,要确定自由度可以用如下方法。

t SS n f =-=1)总试验组数(总; 正交表每列的自由度

正交表总的自由度1-=该列数字种数列f

即每个因素平方和的自由度1-=该因素水平数因素f 正交表总的自由度=各自由度之和,即∑=列总f f ; 正交表空白列的自由度=误差平方和的自由度。

若无空白列,则将最小的离差平方和作为误差平方和,即 {}j k

j C SS SS ≤≤=1min 1。

将例7的关于抗压负荷的方差列如下表

效应是未知参数,应先求效应估计值,效应估计值大的所对应的水平是好水平。

前面已经分析过因素C A ,对试验指标的影响不显著,可以认为

0,0321321======γγγααα,所以

()()()

()()()3

987232654221

32121333333βμβμβμ+=++=+=++=+=++=Y Y Y E T E Y Y Y E T E Y Y Y E T E 由于Y =μ

? 所以 Y T Y T Y T -=-=-=3?,3?,3?23

3222211βββ, 比较 321?,?,?βββ的大小,只需比较232221,,T T T 的大小,得出80.2423=T 最大,故因素B 的3水平是好水平。结合直接看和计算分析,确定好的工艺条件为132C B A

例16 设关于某设备的使用年限X 和所支出的维修费用,有如下统计资料:

1)建立关于),(Y X 的统计数据的散点图,并确定Y 对X 的统计相依关系的

特点;

2)假设Y 对X 有一元线性回归的统计相依关系,求回归系数b a ,和2σ得无 偏估计;

3)假设Y 对X 有一元正态线性回归的统计相依关系,试检验回归效果的显 著性;对于7=X ,求维修费用Y 的0.95预测区间。

1)将点(2,2.2),(3,3.8),(4,5.5),(5,6.5),(6,7.0)标在坐标系 中,得散点图

由散点图可见,所给数据具有模型的特点。

2) 由散点图可见,可以用模型描述维修费用与使用年限的统计相依关 系,为估计b a , 和2σ,首先作如下计算:

将结果代入,得a 和b 得无偏估计。

23.14

5905

453.112?2

2

2

=?-???=

--=∑∑x

n x Y

x n xY b

; 08.0423.15??=?-=-=x b Y a

。 2σ的无偏估计为

212

25317.02827.02

58481.0)?(21==-=--=∑=n j j

j e

Y Y n s , 其中)5,4,3,2,1(23.108.0???=+=+=j x x b a Y j

j j 。

3)为检验回归效果,计算统计量F 。

5161.532827

.01290

.153/===

e R Q Q F 。 查表,得13.10)3,1()2,1(05.0==-F n F α。由于

典型相关分析及其应用实例

摘要 典型相关分析是多元统计分析的一个重要研究课题.它是研究两组变量之间相关的一种统计分析方法,能够有效地揭示两组变量之间的相互线性依赖关系.它借助主成分分析降维的思想,用少数几对综合变量来反映两组变量间的线性相关性质.目前它已经在众多领域的相关分析和预测分析中得到广泛应用. 本文首先描述了典型相关分析的统计思想,定义了总体典型相关变量及典型相关系数,并简要概述了它们的求解思路,然后深入对样本典型相关分析的几种算法做了比较全面的论述.根据典型相关分析的推理,归纳总结了它的一些重要性质并给出了证明,接着推导了典型相关系数的显著性检验.最后通过理论与实例分析两个层面论证了典型相关分析的应用于实际生活中的可行性与优越性. 【关键词】典型相关分析,样本典型相关,性质,实际应用

ABSTRACT The Canonical Correlation Analysis is an important studying topic of the Multivariate Statistical Analysis. It is the statistical analysis method which studies the correlation between two sets of variables. It can work to reveal the mutual line dependence relation availably between two sets of variables. With the help of the thought about the Principal Components, we can use a few comprehensive variables to reflect the linear relationship between two sets of variables. Nowadays It has already been used widely in the correlation analysis and forecasted analysis. This text describes the statistical thought of the Canonical Correlation Analysis firstly, and then defines the total canonical correlation variables and canonical correlation coefficient, and sum up their solution method briefly. After it I go deep into discuss some algorithm of the sample canonical correlation analysis thoroughly. According to the reasoning of the Canonical Correlation Analysis, sum up some of its important properties and give the identification, following it, I infer the significance testing about the canonical correlation coefficient. According to the analysis from the theories and the application, we can achieve the possibility and the superiority from canonical correlation analysis in the real life. 【Key words】Canonical Correlation Analysis,Sample canonical correlation,Character,Practical applications

2014年7月高等教育自学考试 00974《统计学原理》试题及答案

2014年7月高等教育自学考试 统计学原理试卷及答案 (课程代码 00974) 一、单项选择题(本大题共20小题,每小题1分,共20分) 1.构成统计总体的每一个别事物,称为 C A .调查对象 B .调查单位 C .总体单位 D .填报单位 2.对事物进行度量,最精确的计量尺度是A A .定比尺度 B .定序尺度 C .定类尺度 D .定距尺度 3.《中华人民共和国统计法》对我国政府统计的调查方式做的概括中指出,调查方式的主体是C A .统计报表 B .重点调查 C .经常性抽样调查 D .周期性普查 4.是非标志的成数p 和q 的取值范围是D A .大于零 B .小于零 C .大于1 D .界于0和1之间 5.在经过排序的数列中位置居中的数值是A A .中位数 B .众数 C .算术平均数 D .平均差 6.确定中位数的近似公式是A A .d f S f L m m ?-+ -∑1 2 B .d L ??+??+ 2 11 C .∑∑? f f x D . ∑-)(x x 7.反映现象在一段时间内变化总量的是B A .时点指标 B .时期指标 C .动态指标 D .绝对指标 8.重置抽样与不重置抽样的抽样误差相比A A .前者大 B .后者大 C .二者没有区别 D .二者的区别需要其他条件来判断 9.如果总体内各单位差异较大,也就是总体方差较大,则抽取的样本单位数A A .多一些 B .少一些 C .可多可少 D .与总体各单位差异无关 10.进行抽样调查时,样本对总体的代表性受到一些可控因素的影响,下列属于可控因素的是D A .样本数目 B .样本可能数目 C .总体单位数 D .样本容量 11.在12个单位中抽取4个,如果进行不重置抽样,样本可能数目M 为B A .4 12 B . ! 8!4! 12 C .12×4 D .12 4 12.方差是各变量值对算术平均数的A A .离差平方的平均数 B .离差平均数的平方根 C .离差平方平均数的平方根 D .离差平均数平方的平方根

数理统计课程设计一元线性回归

二氧化碳吸附量与活性炭孔隙结构的线性回归分析 摘要:本文搜集了不同孔径下不同孔容的活性炭与CO2吸附量的实验数据。分别以同一孔径下的不同孔容作为自变量,CO2吸附量作为因变量,作出散点图。选取分布大致呈直线的一组数据为拟合的样本数据.对样本数据利用最小二乘法进行回归分析,参数确定,并对分析结果进行显著性检验。同时利用ma tl ab 的r egress 函数进行直线拟合。结果表明:孔径在3。 0~ 3. 5 nm 之间的孔容和CO2吸附量之间存在较好的线性关系。 关键字:活性炭 孔容 CO2吸附量 m atla b 一、问题分析 1。1.数据的收集和处理 本文主要研究同一孔径的孔容的活性炭和co2吸附量之间的线性关系,有关实验数据是借鉴张双全,罗雪岭等人的研究成果[1]。以太西无烟煤为原料、硝酸钾为添加剂,将煤粉、添加剂和煤焦油经过充分混合后挤压成条状,在600℃下炭化15 min,然后用水蒸气分别在920℃和860℃下活化一定时间得到2组活性炭,测定了CO2吸附等温线,探讨了2组不同工艺制备的活性炭的C O2吸附量和孔容的关系.数据如下表所示: 表1:孔分布与CO2吸附值 编号1~12是在不同添加剂量,温度,活化时间处理下的对照组。因为处理方式不同得到不同结果是互不影响的,可以看出C O2的吸附量的值是互相独立 编号 孔容/(11 10L g μ--?) CO 2吸附 量 1/()mL g -? 0。5~0。8nm 0.8~1.2nm 1。2~1。8nm 1.8~2。2nm 2.2~2。2n m 2。5~3。0nm 3.0~3。5 nm 1 7.18 16.2 24.4 75.2 70 96 115 64 2 6.59 14.4 18.4 53.7 50 85。6 91 55.1 3 4.5 4 11 18.9 71 6 5 78.3 91 53.7 4 5.13 13.4 29。9 10。3 90 7 6 122 53。 7 5 4.16 10.5 18。9 83.8 78 80。5 113 61。7 6 4。92 12。1 23.4 81.6 72 56 99 53.6 7 5.0 8 12.6 23.8 93.5 86 77.8 122 65。5 8 5.29 13 25。1 88.4 69 66.4 107 57。7 9 7.47 16.9 26.9 46。4 78 93.2 107 58.2 10 5.44 13 21.4 44.1 91 98.6 137 76。6 11 1。81 64。6 18.3 53.1 114 110 142 75 12 1.24 27.7 39。5 126 114 98。6 183 98.7

统计学原理试题及答案解析

统计学原理试题(6) 一、单项选择题:(每小题1分,共20分) 1、设某地区有200家独立核算得工业企业,要研究这些企业得产品生产情 况,总体就是( )。 A、每一家工业企业 B、200家工业企业 C、每一件产品 D、200家工业企业得全部工业产品 2、有600家公司每位职工得工资资料,如果要调查这些公司得工资水平情 况,则总体单位就是( )。 A、600家公司得全部职工 B、600家公司得每一位职工 C、600家公司所有职工得全部工资 D、600家公司每个职工得工资 3、一个统计总体( )。 A、只能有一个指标 B、可以有多个指标 C、只能有一个标志 D、可以有多个标志 4、以产品等级来反映某种产品得质量,则该产品等级就是( )。 A、数量标志 B、品质标志 C、数量指标 D、质量指标 5、在调查设计时,学校作为总体,每个班作为总体单位,各班学生人数就是( )。 A、变量值 B、变量 C、指标值 D、指标 6、年龄就是( )。 A、变量值 B、连续型变量 C、离散型变量 D、连续型变量,但在实际应用中常按离散型处理 7、人口普查规定统一得标准时间就是为了( )。 A、登记得方便 B、避免登记得重复与遗漏 C、确定调查得范围 D、确定调查得单位 8、以下哪种调查得报告单位与调查单位就是一致得( )。 A、职工调查 B、工业普查 C、工业设备调查 D、未安装设备调查 9、通过调查大庆、胜利、辽河等油田,了解我国石油生产得基本情况。这 种调查方式就是( )。 A、典型调查 B、抽样调查 C、重点调查 D、普查 10、某市进行工业企业生产设备普查,要求在10月1日至15日全部调查完 毕,则这一时间规定就是( )。 A、调查时间 B、登记期限 C、调查期限 D、标准时间 11、统计分组得关键问题就是( )。 A、确定分组标志与划分各组界限 B、确定组距与组中值

北航数理统计回归分析大作业

应用数理统计第一次大作业 学号: 姓名: 班级: 2013年12月

国家财政收入的多元线性回归模型 摘 要 本文以多元线性回归为出发点,选取我国自1990至2008年连续19年的财政收入为因变量,初步选取了7个影响因素,并利用统计软件PASW Statistics 17.0对各影响因素进行了筛选,最终确定了能反映财政收入与各因素之间关系的“最优”回归方程: 46?578.4790.1990.733y x x =++ 从而得出了结论,最后我们用2009年的数据进行了验证,得出的结果在误差范围内,表明这个模型可以正确反映影响财政收入的各因素的情况。 关键词:多元线性回归,逐步回归法,财政收入,SPSS 0符号说明 变 量 符号 财政收入 Y 工 业 X 1 农 业 X 2 受灾面积 X 3 建 筑 业 X 4 人 口 X 5 商品销售额 X 6

进出口总额X7

1 引言 中国作为世界第一大发展中国家,要实现中华民族的伟大复兴,必须把发展放在第一位。近年来,随着国家经济水平的飞速进步,人民生活水平日益提高,综合国力日渐强大。经济上的飞速发展并带动了国家财政收入的飞速增加,国家财政的状况对整个社会的发展影响巨大。政府有了强有力的财政保证才能够对全局进行把握和调控,对于整个国家和社会的健康快速发展有着重要的意义。所以对国家财政的收入状况进行研究是十分必要的。 国家财政收入的增长,宏观上必然与整个国家的经济有着必然的关系,但是具体到各个方面的影响因素又有着十分复杂的相关原因。为了研究影响国家财政收入的因素,我们就很有必要对其财政收入和影响财政收入的因素作必要的认识,如果能对他们之间的关系作一下回归,并利用我们所知道的数据建立起回归模型这对我们很有作用。而影响财政收入的因素有很多,如人口状况、引进的外资总额,第一产业的发展情况,第二产业的发展情况,第三产业的发展情况等等。本文从国家统计信息网上选取了1990-2009年这20年间的年度财政收入及主要影响因素的数据,包括工业,农业,建筑业,批发和零售贸易餐饮业,人口总数等。文中主要应用逐步回归的统计方法,对数据进行分析处理,最终得出能够反映各个因素对财政收入影响的最“优”模型。 2解决问题的方法和计算结果 2.1 样本数据的选取与整理 本文在进行统计时,查阅《中国统计年鉴2010》中收录的1990年至2009年连续20年的全国财政收入为因变量,考虑一些与能源消耗关系密切并且直观上

统计学原理练习题及答案

统计学原理练习题及答案 2007-12-7 9:32:24 阅读数:6162 《统计学原理》综合练习题 一、判断题(把正确的符号“√”或错误的符号“×”填写在题后的括号中。) 1、社会经济统计的研究对象是社会经济现象总体的各个方面。() 2、在全国工业普查中,全国企业数是统计总体,每个工业企业是总体单位。() 3、总体单位是标志的承担者,标志是依附于单位的。() 4、数量指标是由数量标志汇总来的,质量指标是由品质标志汇总来的。() 5、全面调查和非全面调查是根据调查结果所得的资料是否全面来划分的()。 6、调查单位和填报单位在任何情况下都不可能一致。() 7、在统计调查中,调查标志的承担者是调查单位。() 8、对全同各大型钢铁生产基地的生产情况进行调查,以掌握全国钢铁生产的基本情况。这种调查属于非全面调查。() 9、统计分组的关键问题是确定组距和组数( ) 10、按数量标志分组的目的,就是要区分各组在数量上的差别( ) 11、总体单位总量和总体标志总量是固定不变的,不能互相变换。() 12、相对指标都是用无名数形式表现出来的。() 13、众数是总体中出现最多的次数。() 14、国民收入中积累额与消费额之比为1:3,这是一个比较相对指标。() 15、总量指标和平均指标反映了现象总体的规模和一般水平。但掩盖了总体各单位的差异情况,因此通过这两个指标不能全面认识总体的特征。() 16、抽样推断是利用样本资料对总体的数量特征进行估计的一种统计分析方法,因此不可避免的会产生误差,这种误差的大小是不能进行控制的。() 17、从全部总体单位中按照随机原则抽取部分单位组成样本,只可能组成一个样本。() 18、在抽样推断中,作为推断的总体和作为观察对象的样本都是确定的、唯一的。() 19、抽样估计置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度。() 20、在其它条件不变的情况下,提高抽样估计的可靠程度,可以提高抽样估计的精确度。() 21、抽样平均均误差反映抽样的可能误差范围,实际上每次的抽样误差可能大于抽样平均误差,也可能小于抽样平均误差。() 22、施肥量与收获率是正相关关系。() 23、计算相关系数的两个变量都是随机变量() 24、利用一个回归方程,两个变量可以互相推算()

典型相关分析SPSS例析

典型相关分析 典型相关分析(Canonical correlation )又称规则相关分析,用以分析两组变量间关系的一种方法;两个变量组均包含多个变量,所以简单相关和多元回归的解惑都是规则相关的特例。典型相关将各组变量作为整体对待,描述的是两个变量组之间整体的相关,而不是两个变量组个别变量之间的相关。 典型相关与主成分相关有类似,不过主成分考虑的是一组变量,而典型相关考虑的是两组变量间的关系,有学者将规则相关视为双管的主成分分析;因为它主要在寻找一组变量的成分使之与另一组的成分具有最大的线性关系。 典型相关模型的基本假设:两组变量间是线性关系,每对典型变量之间是线性关系,每个典型变量与本组变量之间也是线性关系;典型相关还要求各组内变量间不能有高度的复共线性。典型相关两组变量地位相等,如有隐含的因果关系,可令一组为自变量,另一组为因变量。 典型相关会找出一组变量的线性组合**=i i j j X a x Y b y =∑∑与 ,称 为典型变量;以使两个典型变量之间所能获得相关系数达到最大,这一相关系数称为典型相关系数。i a 和j b 称为典型系数。如果对变量进 行标准化后再进行上述操作,得到的是标准化的典型系数。 典型变量的性质 每个典型变量智慧与对应的另一组典型变量相关,而不与其他典型变量相关;原来所有变量的总方差通过典型变量而成为几个相互独立的维度。一个典型相关系数只是两个典型变量之间的相关,不能代

表两个变量组的相关;各对典型变量构成的多维典型相关,共同代表两组变量间的整体相关。 典型负荷系数和交叉负荷系数 典型负荷系数也称结构相关系数,指的是一个典型变量与本组所有变量的简单相关系数,交叉负荷系数指的是一个典型变量与另一组变量组各个变量的简单相关系数。典型系数隐含着偏相关的意思,而典型负荷系数代表的是典型变量与变量间的简单相关,两者有很大区别。 重叠指数 如果一组变量的部分方差可以又另一个变量的方差来解释和预测,就可以说这部分方差与另一个变量的方差之间相重叠,或可由另一变量所解释。将重叠应用到典型相关时,只要简单地将典型相关系数平方(2 CR),就得到这对典型变量方差的共同比例,代表一个典型变量的方差可有另一个典型变量解释的比例,如果将此比例再乘以典型变量所能解释的本组变量总方差的比例,得到的就是一组变量的方差所能够被另一组变量的典型变量所能解释的比例,即为重叠系数。 例1:CRM(Customer Relationship Management)即客户关系管理案例,有三组变量,分别是公司规模变量两个(资本额,销售额),六个CRM实施程度变量(WEB网站,电子邮件,客服中心,DM 快讯广告Direct mail缩写,无线上网,简讯服务),三个CRM绩效维度(行销绩效,销售绩效,服务绩效)。试对三组变量做典型相关分析。

统计学原理-计算题

《统计学原理》 计算题 1.某地区国民生产总值(GNP)在1988-1989年平均每年递增15%,1990-1992年平均每年递增12%,1993-1997年平均每年递增9%,试计算: 1)该地区国民生产总值这十年间的总发展速度及平均增长速度 答:该地区GNP在这十年间的总发展速度为 115%2×112%3×109%5=285.88% 平均增长速度为 111.08% == 2)若1997年的国民生产总值为500亿元,以后每年增长8%,到2000年可达到多少亿元? 答:2000年的GNP为 500(1+8%)13=1359.81(亿元) 2.某地有八家银行,从它们所有的全体职工中随机动性抽取600人进行调查,得知其中的486人在银行里有个人储蓄存款,存款金额平均每人3400元,标准差500元,试以95.45%的可靠性推断:(F(T)为95.45%,则t=2) 1)全体职工中有储蓄存款者所占比率的区间范围 答:已知:n=600,p=81%,又F(T)为95.45%,则t=2所以 0.1026% == 故全体职工中有储蓄存款者所占比率的区间范围为 81%±0.1026% 2)平均每人存款金额的区间范围 3.某厂产品产量及出厂价格资料如下表: 要求:对该厂总产值变动进行因素分析。(计算结果百分数保留2位小数) 答:①总产值指数 11 00500010012000604100020 104.08% 600011010000504000020 p q p q ?+?+? ==?+?+? ∑ ∑ 总成本增加量 Σp1q1-Σp0q0=2040000-1960000=80000(元)②产量指数

数理统计-回归分析

国家财政收入的逐步回归分析应用数理统计课程论文 2012届材料科学与工程学院 学号 姓名

2012年11月18日

摘要 财政作为一国政府的活动,是政府职能的具体体现,主要有资源配置、收入再分配和宏观经济调控三大职能。财政收入是政府部门公共收入,是国民收入分配中用于保证政府行使其公共职能,实施公共政策以及提供公共服务的资金需求。财政收入的增长状况关系着一个国家经济的发展和社会的进步。本文选取了我国自1979至2010年间的财政收入数据,并选取了7个可能的影响因素,利用SPSS 统计软件,运用多元线性回归的逐步回归方法建立了国家财政收入的回归模型。得出了影响国家财政收入的显著性变量,并将所得到的模型给予了合理的经济解释。 关键词:财政收入 SPSS 回归分析

目录 1.引言 (1) 1.1 理论回归方程 (1) 1.2研究意义 (1) 1.3 研究内容及方法 (1) 2.数据统计 (2) 2.1 数据的收集 (2) 2.2 散点图 (3) 2.3 逐步回归分析 (5) 3. 结论和讨论 (8) 3.1 结论 (8) 3.2 讨论 (8) 参考文献 (9)

1.引言 1.1 理论回归方程 Y=β0+β1X1+β2X2+……+βp X p +ε E (ε) =0, Var (ε) =σ2 式中,β0,β1,β2,……βp,σ2是与X1,X2,……X p无关的未知参数 ε是不可观测的随机变量。 1.2研究意义 财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。财政收入对国民经济的运行及社会发展具有重要影响。 1.3 研究内容及方法 影响财政收入的因素有很多,如工业总产值、农业总产值、建筑业总产值、社会消费品零售总额等。如何找到影响财政总收入的各个因素,并建立它们与财政收入的数学模型是十分必要的。基于此目的,本文从国家统计信息网上选取了1997-2010年间的年度财政收入及主要影响因素的数据,包括工业总产值、农业总产值、建筑业总产值、社会消费品零售总额等,并进一步采用多元逐步回归分析方法对以上因素进行了显著性分析,从而确定了关于财政收入的最优多元线型回归方程。

应用数理统计大作业1——逐步回归法分析终

应用数理统计多元线性回归分析 (第一次作业) 学院:机械工程及自动化学院 姓名: 学号: 2014年12月

逐步回归法在AMHS物流仿真结果中的应 用 摘要:本文针对自动化物料搬运系统(Automatic Material Handling System,AMHS)的仿真结果,根据逐步回归法,使用软件IBM SPSS Statistics 20,对仿真数据进行分析处理,得到多元线性回归方程,建立了工件年产量箱数与EMS数量、周转箱交换周期以及AGC物料交换服务水平之间的数学模型,并对影响年产量箱数的显著性因素进行了分析,介绍了基本假设检验的情况。 关键词:逐步回归;残差;SPSS;AMHS;物流仿真

目录 1、引言 (1) 2、逐步回归法原理 (4) 3、模型建立 (5) 3.1确定自变量和因变量 (5) 3.2分析数据准备 (6) 3.3逐步回归分析 (7) 4、结果输出及分析 (8) 4.1输入/移去的变量 (8) 4.2模型汇总 (9) 4.3方差分析 (9) 4.4回归系数 (10) 4.5已排除的变量 (11) 4.6残差统计量 (11) 4.7残差分布直方图和观测量累计概率P-P图 (12) 5、异常情况说明 (13) 5.1异方差检验 (13) 5.2残差的独立性检验 (14) 5.3多重共线性检验 (15) 6、结论 (15) 参考文献 (17)

1、引言 回归被用于研究可以测量的变量之间的关系,线性回归则被用于研究一类特殊的关系,即可用直线或多维的直线描述的关系。这一技术被用于几乎所有的研究领域,包括社会科学、物理、生物、科技、经济和人文科学。逐步回归是在剔除自变量间相互作用、相互影响的前提下,计算各个自变量x与因变量y之间的相关性,并在此基础上建立对因变量y有最大影响的变量子集的回归方程。 SPSS(Statistical Package for the Social Science社会科学统计软件包)是世界著名的统计软件之一,目前SPSS公司已将它的英文名称更改为Statistical Product and Service Solution,意为“统计产品与服务解决方案”。SPSS软件不仅具有包括数据管理、统计分析、图表分析、输出管理等在内的基本统计功能,而且用它处理正交试验设计中的数据程序简单,分析结果明了。基于以上优点,SPSS已经广泛应用于自然科学、社会科学中,其中涉及的领域包括工程技术、应用数学、经济学、商业、金融等等。 本文研究内容主要来源于“庆安集团基于物联网技术的航空柔性精益制造系统”,在庆安集团新建的320厂房建立自动化物料搬运系统(AMHS),使用生产仿真软件EM-Plant对该系统建模并仿真,设计实验因子及各水平如表1-1,则共有3*4*6=72组实验结果,如表所示。为方便描述,将各因子定义为:X1表示AGC物料交换服务水平,X2表示周转箱交换周期,X3表示EMS数量,Y表示因变量年产量箱数。本文目的就是建立年产量箱数与AGC物料交换服务水平、周转箱交换周期和EMS数量之间的关系。 表1-1 三因子多水平实验方案

统计学原理第九章(相关与回归)习题答案

第九章相关与回归 一.判断题部分 题目1:负相关指的是因素标志与结果标志的数量变动方向是下降的。() 答案:× 题目2:相关系数为+1时,说明两变量完全相关;相关系数为-1时,说明两个变量不相关。() 答案:√ 题目3:只有当相关系数接近+1时,才能说明两变量之间存在高度相关关系。() 答案:× 题目4:若变量x的值增加时,变量y的值也增加,说明x与y之间存在正相关关系;若变量x的值减少时,y变量的值也减少,说明x与y之间存在负相关关系。() 答案:× 题目5:回归系数和相关系数都可以用来判断现象之间相关的密切程度。() 答案:× 题目6:根据建立的直线回归方程,不能判断出两个变量之间相关的密切程度。() 答案:√ 题目7:回归系数既可以用来判断两个变量相关的方向,也可以用来说明两个变量相关的密切程度。() 答案:×

题目8:在任何相关条件下,都可以用相关系数说明变量之间相关的密切程度。() 答案:× 题目9:产品产量随生产用固定资产价值的减少而减少,说明两个变量之间存在正相关关系。() 答案:√ 题目10:计算相关系数的两个变量,要求一个是随机变量,另一个是可控制的量。() 答案:× 题目11:完全相关即是函数关系,其相关系数为±1。() 答案:√ 题目12:估计标准误是说明回归方程代表性大小的统计分析指标,指标数值越大,说明回归方程的代表性越高。() 答案× 二.单项选择题部分 题目1:当自变量的数值确定后,因变量的数值也随之完全确定,这种关系属于()。 A.相关关系 B.函数关系 C.回归关系 D.随机关系 答案:B 题目2:现象之间的相互关系可以归纳为两种类型,即()。 A.相关关系和函数关系 B.相关关系和因果关系

SPSS典型相关分析及结果解释

SPSS典型相关分析及结果解释 SPSS 11.0 - 23.0 典型相关分析 1方法简介 如果要研究一个变量和一组变量间的相关,则可以使用多元线性回归,方程的复相关系数就是我们要的东西,同时偏相关系数还可以描述固定其他因素时某个自变量和应变量间的关系。但如果要研究两组变量的相关关系时,这些统计方法就无能为力了。比如要研究居民生活环境与健康状况的关系,生活环境和健康状况都有一大堆变量,如何来做?难道说做出两两相关系数?显然并不现实,我们需要寻找到更加综合,更具有代表性的指标,典型相关(Canonical Correlation)分析就可以解决这个问题。 典型相关分析方法由Hotelling提出,他的基本思想和主成分分析非常相似,也是降维。即根据变量间的相关关系,寻找一个或少数几个综合变量(实际观察变量的线性组合)对来替代原变量,从而将二组变量的关系集中到少数几对综合变量的关系上,提取时要求第一对综合变量间的相关性最大,第二对次之,依此类推。这些综合变量被称为典型变量,或典则变量,第1对典型变量间的相关系数则被称为第1典型相关系数。一般来说,只需要提取1~2对典型变量即可较为充分的概括样本信息。 可以证明,当两个变量组均只有一个变量时,典型相关系数即为简单相关系数;当一组变量只有一个变量时,典型相关系数即为复相关系数。故可以认为典型相关系 1

数是简单相关系数、复相关系数的推广,或者说简单相关系数、复相关系数是典型相关系数的特例。 2引例及语法说明 在SPSS中可以有两种方法来拟合典型相关分析,第一种是采用Manova过程来拟合,第二种是采用专门提供的宏程序来拟合,第二种方法在使用上非常简单,而输出的结果又非常详细,因此这里只对它进行介绍。该程序名为Canonical correlation.sps,就放在SPSS的安装路径之中,调用方式如下: INCLUDE 'SPSS所在路径\Canonical correlation.sps'. CANCORR SET1=第一组变量的列表 /SET2=第二组变量的列表. 在程序中首先应当使用include命令读入典型相关分析的宏程序,然后使用cancorr名称调用,注意最后的“.”表示整个语句结束,不能遗漏。 这里的分析实例来自曹素华教授所著《实用医学多因素统计分析方法》第176页:为了研究兄长的头型与弟弟的头型间的关系,研究者随机抽查了25个家庭的两兄弟的头长和头宽,数据见文件canonical lianxiti.sav,希望求得两组变量的典型变量及典型相关系数。显然,代表兄长头形的变量为第一组变量,代表弟弟头形的变量为第二组变量,这里希望求得的是两组变量间的相关性,在语法窗口中键入的程序如下: INCLUDE 'D:\SpssWin\Canonical correlation.sps'. 请使用时改为各自相应的安装目录 CANCORR SET1=long1 width1 列出第一组变量 2

统计学原理例题分析一(20200920021933)

统计学原理例题分析(一) 一、判断题(把“V”或“X”填在题后的括号里) 1.社会经 济统计的研究对象是社会经济现象总体的各个方面。()参考答案:X 2.总体单位是标志的承担者,标志是依附于单位的。() 参考答案:“ 3?标志通常分为品质标志和数量标志两种。() 参考答案:“ 4.当对品质标志的标志表现所对应的单位进行总计时就形成统计指标。() 参考答案:“ 5.调查方案的首要问题是确定调查对象。() 参考答案:“ 6.我国目前基本的统计调查方法是统计报表、抽样调查和普查。() 参考答案:“ 7.调查单位和填报单位在任何情况下都不可能一致。() 参考答案:X 8.按数量标志分组,各组的变量值能准确的反映社会经济现象性质上的差别。() 参考答案:X 9.在确定组限时,最大组的上限应低于最大变量值。() 参考答案:X 10.按数量标志分组的目的,就是要区别各组在数量上的差别。() 参考答案:X 11.离散型变量可以作单项式分组或组距式分组,而连续型变量只能作组距式分组。() 参考答案:2

12.对于任何两个性质相同的变量数列,比较其平均数的代表性,都可以采

用标准差指标。() 参考答案:X 13.样本成数是指在样本中具有被研究标志表现的单位数占全部样本单位数的比重。() 参考答案:“ 14.样本容量指从一个总体中可能抽取的样本个数。() 参考答案:X 15.在抽样推断中,作为推断对象的总体和作为观察对象的样本都是确定、唯一的。() 参考答案:X 16.产量增加,则单位产品成本降低,这种现象属于函数关系。() 参考答案:X 17.在直线回归方程Y = a +bx中,b值可以是正的,也可以是负的。 () 参考答案:“ 18.回归系数b和相关系数丫都可用来判断现象之间相关的密切程度。 () 参考答案:X 19.平均指标指数是综合指数的一种变形。() 参考答案:X 20.序时平均数与一般平均数完全相同,因为它们都是将各个变量值的差异抽象化了。() 参考答案:X 二、单项选择题(从下列每小题的四个选项中,选出一个正确的,请将正确答案的序号填在括号内) 1 ?以产品的等级来衡量某种产品的质量好坏,则该产品等级是() A.数量标志 E.品质标志 C.数量指标 D.质量指标。

统计学原理第三章习题答案

第三章统计资料整理 一.判断题部分 1:对统计资料进行分组的目的就是为了区分各组单位之间质的不同。(×) 2:统计分组的关键问题是确定组距和组数。(×) 3:组中值是根据各组上限和下限计算的平均值,所以它代表了每一组的平均分配次数。(×) 3:分配数列的实质是把总体单位总量按照总体所分的组进行分配。(∨) 4:次数分配数列中的次数,也称为频数。频数的大小反映了它所对应的标志值在总体中所起的作用程度。(∨) 5:某企业职工按文化程度分组形成的分配数列是一个单项式分配数列。(×) 6:连续型变量和离散型变量在进行组距式分组时,均可采用相邻组组距重叠的方法确定组限。(∨) 7:对资料进行组距式分组,是假定变量值在各组内部的分布是均匀的,所以这种分组会使资料的真实性受到损害。(∨) 8:任何一个分布都必须满足:各组的频率大于零,各组的频数总和等于1 或100%。(×) 9:按数量标志分组形成的分配数列和按品质标志分组形成的分配数列,都可称为次数分布。( ∨ ) 10:按数量标志分组的目的,就是要区分各组在数量上的差异。(×) 11:统计分组以后,掩盖了各组内部各单位的差异,而突出了各组之间单位的差异。(∨) 12:分组以后,各组的频数越大,则组的标志值对于全体标志水平所起的作

用也越大;而各组的频率越大,则组的标志值对全体标志水平所起的作用越小。(×) 二.单项选择题部分 1:统计整理的关键在( B )。 A、对调查资料进行审核 B、对调查资料进行统计分组 C、对调查资料进行汇总 D、编制统计表 2:在组距分组时,对于连续型变量,相邻两组的组限( A )。 A、必须是重叠的 B、必须是间断的 C、可以是重叠的,也可以是间断的 D、必须取整数 3:下列分组中属于按品质标志分组的是( B )。 A、学生按考试分数分组 B、产品按品种分组 C、企业按计划完成程度分组 D、家庭按年收入分组 4:有一个学生考试成绩为70分,在统计分组中,这个变量值应归入( B )。 A、60---70分这一组 B、70---80分这一组 C、60—70或70—80两组都可以 D、作为上限的那一组 5:某主管局将下属企业先按轻、重工业分类,再按企业规模分组,这样的分组属于( B )。 A、简单分组 B、复合分组 C、分析分组 D、结构分组 6:简单分组和复合分组的区别在于( B )。 A、选择的分组标志的性质不同 B、选择的分组标志多少不同

北航数理统计回归分析大作业

数理统计(课程大作业1) 逐步回归分析 学院:机械工程学院 专业:材料加工工程 日期:2014年12月7日

摘要:本文介绍多元线性回归分析方法以及逐步回归法,然后结合实际,以我国1995-2012年的财政收入为因变量,选取了8个可能的影响因素,选用逐步回归法对各影响因素进行了筛选分析,最终确定了其“最优”回归方程。 关键字:多元线性回归 逐步回归法 财政收入 SPSS 1 引言 自然界中任何事物都是普遍联系的,客观事物之间往往都存在着某种程度的关联关系。为了研究变量之间的相关关系,人们常用回归分析的方法,而回归分析是数理统计中一种常用方法。数理统计作为一种实用有效的工具,广泛应用于国民经济的各个方面,在解决实际问题中发挥了巨大的作用,是一种理论联系实践、指导实践的科学方法。 财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。 本文将以回归分析为方法,运用数理统计工具探求财政收入与各种统计指标之间的关系,总结主要影响因素,并对其作用、前景进行分析和展望。 2 多元线性回归 2.1 多元线性回归简介 在实际问题中,某一因素的变化往往受到许多因素的影响,多元回归分析的任务就是要找出这些因素之间的某种联系。由于许多非线性的情形都可以通过变换转化为线性回归来处理,因此,一般的实际问题都是基于多元线性回归问题进行处理的。对多元线性回归模型简要介绍如下: 如果随机变量y 与m )2(≥m 个普通变量m x x x 21,有关,且满足关系式: εββββ++++=m m x x x y 22110 2,0σεε==D E (2.1) 其中,2210,,,σββββm 是与m x x x 21,无关的未知参数,ε是不可观测的随机变量,),0(~2N I N σε。

统计学原理例题分析及综合练习

统计学原理例题分析及综合练习 第一部分例题分析 一、判断 1.社会经济统计工作的研究对象是社会经济现象总体的数量方面。【√】 2.全面调查包括普查和统计报表。【×】 3.统计分组的关键是确定组限和组距。【×】 4.变异指标和平均指标从不同侧面反映了总体的特征,因而变异指标的数值越大则平均指标的代表性越高,反之平均指标的代表性越低。【×】 5.抽样极限误差总是大于抽样平均误差。【×】 6.根据样本各单位标志值或标志属性计算的综合指标称为统计量(样本指标)。【√】7.(甲)某产品产量与单位成本的相关系数是-0.8:(乙)产品单位成本与利润率的相关系数是-0. 95;因此,(乙)比(甲)的相关程度高。【√】 8.已知:工资(元)倚劳动生产率(千元)的回归方程为:y。=10+80x因此,当劳动生产率每增长1千元,工资就平均增加90元。【×】 9.在综合指数中,要求其同度量因素必须固定在同一时期。【√】 10.某产品产量在一段时间内发展变化的速度,平均来说是增长的,因此该产品产量的环比增长速度也是年年上升的。【×】 11.已知各期环比增长速度为3%、2%、7%和5%,则相应的定基增长速度的计算方法为【103%×102%×107%×105%】 -100%。【√】二、单选1.设某地区有670家工业企业,要研究这些企业的产品生产情况,总体单位是【C.每一件产品】。 2.对一个统计总体而言【D.可以有多个指标】。 3.在某班学生学习情况调查中【C.全班平均成绩是指标】。 4.全面调查与非全面调查的划分是以【C.调查对象所包括的单位是否完全来划分的】。 5.全国工业企业设备普查,全国每个工业企业是【D.填报单位】。 6.下列分组中哪个是按品质标志分组【B.半成品按品种分组】。 7.某市场销售洗衣机,2009年共销售60000台,年底库存50台。这两个指标是【C.前者是时期指标,后者是时点指标】。 8.反映抽样指标与总体指标之间可允许的误差范围的指标是【B.抽样极限误差】。 9.当所有的观察值y都落在直线yc=a+bx上时,则x与y之间的相关系数为【B.γ=1】。 10.某工厂今年一季度同去年一季度相比,产量提高了5%,产值增长了15%,则产品价格提高了【B.9.5%】。 11.某企业第一、第二季度和下半年的原材料平均库存额分别为l0万元、15万元和20万元,则全年平均库存额为【B.16. 25万元】。 三、多选 1.总体单位是总体的基本组成单位,是标志的直接承担者。因此【A.在国营企业这个总体下,每个国营企业就是总体单位 D.在全部工业产品这个总体下,每一个工业产品就是总体单位】 2.在全国人口普查中【B.每个人是总体单位 C.年龄是变量 E.具有大专以上文化程度的人数是指标】 3.有三个学生,其统计学原理成绩分别是60分、70分、80分。这三个数字是【C.数量标志表现 D.标志值 E.变量值】 4.要了解某市商业企业经营状况,则统计指标是【A.该市商业企业个数 B.该市商业职工数 D.该市商业企业销售额】 5.在对工业企业生产设备的调查中【B.工业企业的全部生产设备是调查对象 C.每台生产设备是调查单位 E.每个工业企业是填报单位】 6.在统计调查中【C.调查时限是调查工作起止的期限 D.抽样调查与典型调查的根本区

应用数理统计吴翊李永乐第四章回归分析课后作业参考答案

第四章 回归分析 课后作业参考答案 炼铝厂测得铝的硬度x 与抗张强度y 的数据如下: i x 68 53 70 84 60 72 51 83 70 64 i y 288 298 349 343 290 354 283 324 340 286 (1)求y 对x 的回归方程 (2)检验回归方程的显著性(05.0=α) (3)求y 在x =65处的预测区间(置信度为 解:(1) 1、计算结果 一元线性回归模型εββ++=x y 10只有一个解释变量 其中:x 为解释变量,y 为被解释变量,10,ββ为待估参数,ε位随机干扰项。 ( )()() ( )685.222 ,959.4116,541.35555 .76725 .19745 .109610 ,5.3151,5.6712 2 1 21 2 1 12 1 2 12 11=-= =-=== =-=-==-=--==-=-======∑∑∑∑∑∑∑∑========n Q U L Q L L U y n y y y L y x n y x y y x x L x n x x x L n y n y x n x e e yy e xx xy n i i n i i yy n i i i n i i i xy n i i n i i xx n i i n i i σ 使用普通最小二乘法估计参数10,ββ 上述参数估计可写为95.193??,80.1?1 01 =-===x y L L xx xy βββ 所求得的回归方程为:x y 80.195.193?+= 实际意义为:当铝的硬度每增加一个单位,抗张强度增加个单位。 2、软件运行结果 根据所给数据画散点图

最新《统计学原理》常用公式汇总及计算题目分析

《统计学原理》常用公式汇总及计算题目分析 第一部分常用公式 第三章统计整理 a)组距=上限-下限 b)组中值=(上限+下限)÷2 c)缺下限开口组组中值=上限-1/2邻组组距 d)缺上限开口组组中值=下限+1/2邻组组距 第四章综合指标 i.相对指标 1.结构相对指标=各组(或部分)总量/总体总量 2.比例相对指标=总体中某一部分数值/总体中另一部分数值 3.比较相对指标=甲单位某指标值/乙单位同类指标值 4.强度相对指标=某种现象总量指标/另一个有联系而性质不同的现 象总量指标 5.计划完成程度相对指标=实际数/计划数 =实际完成程度(%)/计划规定的完成程度(%) ii.平均指标

1.简单算术平均数: 2.加权算术平均数或 iii.变异指标 1.全距=最大标志值-最小标志值 2.标准差: 简单σ= ;加权σ= 3.标准差系数: 第五章抽样估计 1.平均误差: 重复抽样: 不重复抽样: 2.抽样极限误差 3.重复抽样条件下: 平均数抽样时必要的样本数目

成数抽样时必要的样本数目 4.不重复抽样条件下: 平均数抽样时必要的样本数目 第七章相关分析 1.相关系数 2.配合回归方程y=a+bx 3.估计标准误: 第八章指数分数 一、综合指数的计算与分析 (1)数量指标指数

此公式的计算结果说明复杂现象总体数量指标综合变动的方向和程度。 ( - ) 此差额说明由于数量指标的变动对价值量指标影响的绝对额。 (2)质量指标指数 此公式的计算结果说明复杂现象总体质量指标综合变动的方向和程度。 ( - ) 此差额说明由于质量指标的变动对价值量指标影响的绝对额。 加权算术平均数指数= 加权调和平均数指数= (3)复杂现象总体总量指标变动的因素分析 相对数变动分析: = × 绝对值变动分析:

相关文档
相关文档 最新文档