文档视界 最新最全的文档下载
当前位置:文档视界 › 应用统计分析复习要点和答案

应用统计分析复习要点和答案

应用统计分析复习要点和答案
应用统计分析复习要点和答案

《应用统计学》复习要点

(要求:每人携带具有开方功能的计算器)

一、名词解释

(重复啦)

二、计算题

1. 在某地区随机抽取

计算120。解:

2.某银行为缩短顾客到银行办理业务等待的时间,准备了两种排队方式进行试验。为比较哪种排队方式使顾客等待的时间更短,两种排队方式各随机抽取9名顾客,得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟,第二

5.5

6.6 6.7

6.8

7.1 7.3

7.4 7.8 7.8

(1)

(2)比较两种排队方式等待时间的离散程度。

(3)如果让你选择一种排队方式,你会选择哪一种?试说明理由。

解:

3. 某大学为了解学生每天上网的时间,在全校学生中随机抽取36人,调查他们每天上网的时间(单位:小时),得到的数据如下:

3.3 3.1 6.2 5.8 2.3

4.1

4.4 2.0

5.4 2.6

6.4 1.8

2.1 1.9 1.2 5.1 4.3 4.2

4.7 1.4 1.2 2.9 3.5 2.4

5.4 3.6 4.5 0.8 3.2 1.5

3.5 0.5 5.7 3.6 2.3 2.5

z(0.01)统计量值分别为1.65、1.96和2.58)

解:

4. 利用下面的信息,构建总体均值μ的置信区间。

(1)总体服从正态分布,且已知σ=500,n=15,=8900,置信水平为95%。(注:z统计量值为1.96)

(2)总体不服从正态分布,且已知σ=500,n=35,=8900,置信水平为95%。(注:z统计量值为1.96)

(3)总体不服从正态分布,σ未知,n=35,=8900,s=500,置信水平为90%。(注:z统计量值为1.65)

(4)总体不服从正态分布,σ未知,n=35,=8900,s=500,置信水平为99%。(注:z统计量值为2.58)

解:

5.对消费者的一项调查表明,17%的人早餐饮料是牛奶。某城市的牛奶生产商认为,该城市的人早餐饮用牛奶的比例更高。为验证这一说法,生产商随机抽取550人的一个随机样本,其中115人早餐饮用牛奶。在α=0.05的显著性水平下,检验该生产商的说法是否属实?(注:z统计量值为1.96)

解:

6.一项包括了200个家庭的调查显示,每个家庭每天看电视的平均时间为

7.25小时,标准差为2.5小时。据报道,10年前每天每个家庭看电视的平均时间是6.7小时。取显著性水平α=0.01,这个调查能否证明“如今每个家庭每天收看电视的平均时间增加了”?(注:z统计量值为1.96)

解:

7.下面是7个地区2000年的人均国内生产总值GDP(Y)和人均消费水平(X)的统计数据(注:此题对应的t统计量值为2.57

地区人均GDP

(千元)Y

人均消费水

平(千元)X

Y-E(Y) X-E(X)

(Y-E(Y))

×(X-E(X))

(X-E(X))2 (Y-E(Y))2

北京22.460 7.326 10.212 2.810 28.699 7.899 104.276

辽宁11.226 4.490 -1.022 -0.026 0.026 0.001 1.045

上海34.547 11.546 22.299 7.030 156.769 49.427 497.226

江西 4.851 2.396 -7.397 -2.120 15.679 4.493 54.722

河南 5.444 2.208 -6.804 -2.308 15.702 5.325 46.300

贵州 2.662 1.608 -9.586 -2.908 27.873 8.454 91.900

陕西 4.549 2.035 -7.699 -2.481 19.099 6.153 59.281

合计∑85.739 31.609 263.847 81.751 854.751

(1

(2)人均GDP作自变量,人均消费水平作因变量,利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。(3)计算判定系数和估计标准误差,并解释其意义。

(4)检验回归方程线性关系的显著性。(α=0.05)

(5)如果某地区的人均GDP为5千元,预测其人均消费水平。

(6)求人均GDP为5千元时,人均消费水平95%的置信区间和预测区间。

解:

8.随机抽取7家超市,得到其广告费支出(X)和销售额(Y)数据如下:

超市销售额

(万元)Y

广告费支出

(万元)X

Y-E(Y) X-E(X)

(Y-E(Y))

×(X-E(X))

(X-E(X))2 (Y-E(Y))2

A 19 1 -23 -7.143 164.286 51.020 529

B 32 2 -10 -6.143 61.429 37.735 100

C 44 4 2 -4.143 -8.286 17.163 4

D 40 6 -2 -2.143 4.286 4.592 4

E 52 10 10 1.857 18.571 3.449 100

F 53 14 11 5.857 64.429 34.306 121

G 54 20 12 11.857 142.286 140.592 144

合计∑294 57 447 288.857 1002

(1

(2)广告费用支出作自变量,销售额作因变量,利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。(3)计算判定系数和估计标准误差,并解释其意义。

(4)检验回归方程线性关系的显著性。(α=0.05)

(5)如果某超市的广告费用支出为5万元,预测其销售额。

(6)求广告费用支出为5万元时,超市销售额95%的置信区间和预测区间。

Coefficients 标准误差t Stat P-value Lower 95% Upper 95% 下限 95% 上限95% Intercept 29.39911 4.807253 6.115573 0.001695 17.04167 41.75655 17.04167 41.75655 X Variable1 1.547478 0.463499 3.338688 0.020582 0.356016 2.738939 0.356016 2.738939

(1)r=63.86/(6.424*11.964)=0.831

显示两个变量之间高度相关,有很强的线性关系。

(2),代表广告费用每增加1万元,销售额增加1.54748万元。(3)列表中可得:判定系数R2=0.6906,估计标准误差4.807253

(4)根据方差分析所示,Fα=6.608<F=11.14684,即广告费支出与销售额之间的线性关系显著。

(5)当广告支出为5万元时,销售额为y=29.399+1.54748*5= 37.1364元。

(6)

三、论述题

1.简述样本量与置信水平、总体方差、估计误差的关系。

答:

(1)估计总体均值时样本量为n,则

(2)样本量n与置信水平1-α、总体方差σ2、估计误差E之间的关系为:

①与置信水平成正比,在其他条件不变的情况下,置信水平越大,所需要的样本量越大;

②与总体方差成正比,总比的差异越大,所要求的样本量也越大;

③与总体方差成正比,样本量与估计误差的平方成反比,即可以接受的估计误差的平方越大,所需的样本量越小。

2.简述评价估计量的三个标准。(15分)

答:评价估计量好坏的标准主要有:无偏性、有效性和相合性。

①无偏性:估计量抽样分布的数学期望等于被估计的总体参数;

②有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效;

③一致性:随着样本量的增大时,点估计量的值越来越接近被估总体的参数。

3.简要说明残差分析在回归分析中的作用。(15分)

答:残差是因变量的观测值y与根据估计的回归方程求出的预测值之差,它反映了用估计的回归方程去预测y而引起的误差。回归模型中出现残差的前提条件是:平均值及总和是0,标准误差符合正规分布。因此在回归分析中,可以通过残差进行线性回归适用性检验:

①回归模型残差的正态性检验:残差的直方图和累计概率图

②回归模型残差的独立性检验:参数有Dw或D,D的取值范围是0<D<4,其统计学意义为:D≈2,残差与自变量相互独立;D<2,残差与自变量正相关;D>2,残差与自变量负相关。

③残差的方差齐性检验。

另外,残差还可以检验奇异点,评判预测效果等。这在回归分析中对模型的效果检验有着重要的作用。

4.简要误差分解的概念和基本原理。(15分)

答:

(1)误差是测量值与真值之间的差值,误差分为系统误差和随机误差。

①系统误差是某一确定的因素引起的,它可以测量,有确定性,单向性,系统误差是可以消除的,在正确的操作中不应含系统误差。

②随时误差是不可测量的,它不能被避免,只能适当减小,就个体而言,它有不确定性,无规律可循,但在等精度条件下的多次测量,其大多数服从正态分布。

③还有一种是,过失误差是测量过失而产生的明显偏离真值的误差,是完全可以避免的。

(2)误差分解的原理:是通过计算来比较因某一特定因素带来的样本值的差异与随机偶然因素对样本值的差异的大小,从而判断该因素对总体是否有统计意义。

应用统计学试题和答案分析

六、计算题:(要求写出计算公式、过程,结果保留两位小数,共4题,每题10分) 1、某快餐店对顾客的平均花费进行抽样调查,随机抽取了49名顾客构成一个简单随机样本,调查结果为:样本平均花费为元,标准差为元。试以%的置信水平估计该快餐店顾客的总体平均花费数额的置信区 间;(φ(2)=)49=n 是大样本,由中心极限定理知,样本均值的极限分布为正态分布,故可用正态分布对总体均值进行区间估计。 已知:8.2,6.12==S x 0455.0=α 则有: 202275 .02 ==Z Z α 平均误差=4.07 8 .22==n S 极限误差8.04.022 2 =?==? n S Z α 据公式 x x ±=±? 代入数据,得该快餐店顾客的总体平均花费数额%的置信区间为(,) 3 要求:①、利用最小二乘法求出估计的回归方程;②、计算判定系数R 。 附:10805 1 2 ) (=∑-=i x x i 8.3925 1 2 ) (=∑-=i y y i 58=x 2.144=y 3题 解 ① 计算估计的回归方程: ∑∑∑∑∑--= )(22 1x x n y x xy n β) ==-??-?290 217900572129042430554003060 = =-= ∑∑n x n y ββ)) 1 0 – ×58= 估计的回归方程为:y ) =+x ② 计算判定系数: 4 计算下列指数:①拉氏加权产量指数;②帕氏单位成本总指数。 4题 解: ① 拉氏加权产量指数

= 1 000 00 1.1445.4 1.13530.0 1.08655.2 111.60%45.430.055.2q p q q p q ?+?+?==++∑∑ ② 帕氏单位成本总指数= 11100053.633.858.5 100.10%1.1445.4 1.13530.0 1.08655.2q p q q p q ++==?+?+?∑∑ 模拟试卷(二) 一、填空题(每小题1分,共10题) 1、我国人口普查的调查对象是 ,调查单位是 。 2、___ 频数密度 =频数÷组距,它能准确反映频数分布的实际状况。 3、分类数据、顺序数据和数值型数据都可以用 饼图 条图 图来显示。 4、某百货公司连续几天的销售额如下:257、276、297、252、238、310、240、236、265,则其下四分位数 5、某地区2005年1季度完成的GDP=30亿元,2005年3季度完成的GDP=36亿元,则GDP 年度化增长率6、某机关的职工工资水平今年比去年提高了5%,职工人数增加了2%,则该企业工资总额增长了 % 。 7、对回归系数的显着性检验,通常采用的是 t 检验。 8、设置信水平=1-α,检验的P 值拒绝原假设应该满足的条件是 p e M >o M ③、x >o M >e M 3、比较两组工作成绩发现σ甲>σ乙,x 甲>x 乙,由此可推断 ( )

应用多元统计分析课后答案

2.1.试叙述多元联合分布和边际分布之间的关系。 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '=L 的联合分布密 度函数是一个p 维的函数,而边际分布讨论是12(,,)p X X X X '=L 的子向量的概率分布,其概率密度 函数的维数小于p 。 2.2设二维随机向量1 2()X X '服从二元正态分布,写出其联合分布。 解:设1 2()X X '的均值向量为()1 2μμ'=μ,协方差矩阵为21 122212σσσσ?? ? ?? ,则其联合分布密度函数为 1/2 12 2 2112112222122121()exp ()()2f σσσσσσσσ--???????? '=---?? ? ??? ?????? x x μx μ。 2.3已知随机向量12()X X '的联合密度函数为 12121222 2[()()()()2()()] (,)()()d c x a b a x c x a x c f x x b a d c --+-----= -- 其中1a x b ≤≤,2c x d ≤≤。求 (1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数; (3)判断 1X 和2X 是否相互独立。 (1)解:随机变量 1X 和2X 的边缘密度函数、均值和方差; 11212122 2[()()()()2()()] ()()()d x c d c x a b a x c x a x c f x dx b a d c --+-----=--? 1221222222 2()()2[()()2()()]()()()() d d c c d c x a x b a x c x a x c dx b a d c b a d c -------=+----? 121 222202()()2[()2()]()()()() d d c c d c x a x b a t x a t dt b a d c b a d c ------= +----? 221212222 2()()[()2()] 1()()()()d c d c d c x a x b a t x a t b a d c b a d c b a ------=+= ----- 所以 由于1X 服从均匀分布,则均值为2b a +,方差为 ()2 12 b a -。

多元统计分析期末试题

一、填空题(20分) 1、若),2,1(),,(~)(n N X p 且相互独立,则样本均值向量X 服从的分布 为 2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。 4、Q 型聚类是指对_样品_进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、设样品),2,1(,),,(' 21n i X X X X ip i i i ,总体),(~ p N X ,对样品进行分类常用的距离 2 ()ij d M )()(1j i j i x x x x ,兰氏距离()ij d L 6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是: x y 10,多元回归的数学模型是: p p x x x y 22110。 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。 二、计算题(60分) 1、设三维随机向量),(~3 N X ,其中 200031014,问1X 与2X 是否独立?),(21 X X 和3X 是否独立?为什么? 解: 因为1),cov(21 X X ,所以1X 与2X 不独立。 把协差矩阵写成分块矩阵 22211211,),(21 X X 的协差矩阵为11 因为12321),),cov(( X X X ,而012 ,所以),(21 X X 和3X 是不相关的,而正态分布不相关与相互

应用统计学概念整理

并根据样本调查结果来推断总体特征 自下而上地逐级提供基本数据的调查方 应用统计学概念整理 第一章:导论 1. 只能归类于某一类别的非数字型数据称为分类数据 2. 只能归于某一有序类别的非数字型数据称为顺序数据 3. 按数字尺度测量的观测值称为数值型数据 4. 包含所研究的全部个体的集合称为总体 5. 从总体中抽取的一部分的元素的集合称为样本 6. 用来描述总体特征的的概括性数字度量称为参数 7. 用来描述样本特征的概括性数字度量称为统计量 8. 说明事物类别的一个名称称为分类变量 9. 说明事物有序类别的一个名称称为顺序变量 10. 说明事物数字特征的一个名称称为数值型变量 11. 只能取可数值的变量称为离散型变量 12. 可以在一个或多个区间中取任何值的变量称为连续型变量 第二章:数据收集 1. 从总体中随机抽取一部分单位作为样本进行调查, 的数据收集方法,称为抽样调查。 2. 为特定目的而专门组织的全面调查称为普查 3. 按照国家有关法律规定, 自上而下地统一布置, 式 称为统计报表 第三章:数据的图表展示 1. 落在某一特定类别或组中的数据个数,称为频数 2. 把各个类别及其落在其中的相应频数全部列出, 并用表格形式表示出来, 称为频数分布 3. 一个样本或总体中各个部分的数据与全部数据之比,称为比例 4. 将比例乘以 100 得到的数值,称为百分比或百分数,用 %表示 5. 样本或总体中各不同类别数值之间的比值,称为比率 6. 分类数据的图示:条形图, pareto 图,对比条形图,饼图 7. 将各有序类别或组的频数逐级累加起来得到的频数称为累计频数 8. 将各有序类别或组的百分比逐级累加起来称为累计频率 9. 顺序数据的图示:累计频数分布图,环形图 10. 根据统计研究的需要,将原始数据按照某种标准划分成不同的组别称为数据分组 11. 分组后的数据称为分组数据 12. 把变量值作为一组称为单变量值分组 13. 将全部变量值一次划分为若干个区间, 并将这一区间的变量值作为一组, 称为组距分组 14. 在组距分组中,一个组的最小值称为下限,最大值称为上限 15. 一个组的上限与下限的差称为组距 16. 各组组距相等的组距分组称为等距分组 17. 各组组距不相等的组距分组称为不等距分组 18. 每一组的下限和上限之间的重点值称为组中值 19. 用矩形的宽度和高度即面积来表示频数分布的图形称为直方图

多元统计分析期末试题及答案

22121212121 ~(,),(,),(,),, 1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ??? +-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑L 、设则=服从。 ()1 2 34 433,4 92, 3216___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________, __________, ________________。 215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 12332313116421(,,)~(,),(1,0,2),441, 2142X x x x N x x x x x μμ-?? ?'=∑=-∑=-- ? ?-?? -?? + ??? 、设其中试判断与是否独立? (), 1 2 3设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111X σ= 的方差21X g = 1公因子f 对的贡献1213 30.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.10320 13 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???

应用统计学调查报告

应用统计学报告 题目:关于大学生图书阅读量问卷调查分析报告 人员组成:张喜瑞 马腾 高伟 2016年6月6日

调查报告 第一部分调查方案设计 一、调查方案 (一)调查目的:通过了解大学生的图书借阅数目的主要状况,了解大学生的阅读量情况。 (二)调查对象:2014信管班 (三)调查单位:抽取的样本学生 (四)调查程序: 1.设计调查问卷,明确调查方向和内容; 2.分发调查问卷。将调查问卷分发至全班学生; 3.根据回收有效问卷进行分析,具体内容如下: (1)根据样本的借阅量数目、分布状况的均值、方差等分布的数字特征,推断大学生总体分布的相应参数; (2)根据性别进行男女两个总体生活费均值之差的比较以及方差比的区间估计 (3)绘制统计图形使样本数据直观化并对统计量进行分析 (五)调查时间:2016年5月19日—2016年6月6日 关于大学本科生学期图书阅读量调查 本调查是关于大学生图书阅读量的调查,本次调查为无记名式,请大家如实填写,谢谢参与! 1.您是本科大_学生 A.一 B 二 C三 D.四 2.您的性别: A.男 B.女 3.每个学期借阅图书数目大概是______ A.小于4本 B 4—6本 C 6—8本本以上 4. 您阅读的图书以___为主 A.文学 B.娱乐消遣 C.专业用书 D 其它类 5.你经常去图书馆读书吗? ___

A .经常去 B. 偶尔去 C.不经常去 D不去 6.你每天花多长时间去读课本以外的书籍? 小时以上–2小时小时以下 7.您每学期买新书的费用是多少____ A 30元以下 B 30—60元—90元 D 90—120元 E 120元以上 谢谢您的参与! 第二部分数据分析 我们设样本一为抽样总体,样本二为男生的抽样总体,样本三为女生的抽样总体。 一、图书阅读量的分析 1. 对样本一的分析 由整理后输入计算机的数据,我们绘制出样本一学期图书阅读量的频数分布表和直方图,结果如下: 样本一学期阅读量的频数分布表 频率百分比有效百分比累积百分比 有效4本以下16 4-6本14 6-8本13 8本以上9 合计52

应用多元统计分析试题及答案

一、填空题: 1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法. 2、回归参数显著性检验是检验解释变量对被解释变量的影响是否著. 3、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为 Q型聚类和 R型聚类。 4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。 5、因子分析把每个原始变量分解为两部分因素:一部分为公共因子,另一部分为特殊因子。 6、若 () (,), P x N αμα ∑=1,2,3….n且相互独立,则样本均值向量x服从的分布 为_x~N(μ,Σ/n)_。 二、简答 1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。 在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。 2、简述相应分析的基本思想。 相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,其中因素A包含r个水平,因素B包含c个水平。对这两组因素作随机抽样调查,得到一个rc的二维列联表,记为。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素A

和因素B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A 、B 的联系。 3、简述费希尔判别法的基本思想。 从k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 系数: 确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p 个指标值代入线性判别函数式中求出 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。 5、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设 和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2 /21exp 2np n e tr n λ???? =-?? ? ???? S S 00p H =≠ΣΣI : /2 /2**1exp 2np n e tr n λ???? =-?? ? ???? S S

应用统计分析复习要点和答案

应用统计分析复习要点和答案

《应用统计学》复习要点 (要求:每人携带具有开方功能的计算器) 一、名词解释 1.统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。 2.方差分析:是通过分析数据的误差判断各总体均值是否相等,研究分类型自变量对数值型因变量的影响,分为单因素方差分析和双因素方差分析。 3.假设检验:是事先对总体参数或分布形式做出某种假设,然后利用样本信息来判断原假设是否成立。分为参数假设检验和非参数假设检验。一般采用逻辑上的反证法,依据统计上的小概率原理。 4.置信区间:是指由样本统计量所构成的总体参数的估计区间。在统计学中,一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的成都。 5.置信水平:是指总体参数值落在样本统计值某一区内的概率。 6.抽样分布:从已知的总体中以一定的样本容量进行随机抽样,由样本的统计数所对应的概率分布称为抽样分布。抽样分布是统计推断的理论基础。 7.方差分析:是通过分析数据的误差判断各总体均值是否相等,研究分类型自变量对数值型因变量的影响,分为单因素

方差分析和双因素方差分析。(重复啦) 8.相关分析:是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度是研究随机变量之间的相关关系的一种统计方法。 9.推断统计:是研究如何利用样本数据来推断总体特征的统计方法。包含两个内容:参数估计,即利用样本信息推断总体特征;假设检验,即利用样本信息判断对总体的假设是否成立。 二、计算题 1. 在某地区随机抽取 按利润额分组(万元)企业数(个) 300以下19 300~400 30 400~500 42 500~600 18 600以上11 合计120 计算120。 解: 2.某银行为缩短顾客到银行办理业务等待的时间,准备了两种排队方式进行试验。为比较哪种排队方式使顾客等待的时间更短,两种排队方式各随机抽取9名顾客,得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟,第二种排队方式的等待时间(单位:分钟)如下:

多元统计分析期末复习试题

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: )',...,,(),,,(2121P p EX EX EX EX μμμ='=Λ)')((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ

2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的),(~∑μP N X μ∑μp X X X ,,,21Λ),(~∑μP N X ) ,('A A d A N s ∑+μ)()1(,, n X X ΛX )',,,(21p X X X Λ)')(()()(1X X X X i i n i --∑=n 1X μ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

应用统计学调查报告

应用统计学调查报告Newly compiled on November 23, 2020

应用统计学报告 题目:关于大学生图书阅读量问卷调查分析报告 人员组成:张喜瑞 马腾 高伟 2016年6月6日

调查报告 第一部分调查方案设计 一、调查方案 (一)调查目的:通过了解大学生的图书借阅数目的主要状况,了解大学生的阅读量情况。 (二)调查对象:2014信管班 (三)调查单位:抽取的样本学生 (四)调查程序: 1.设计调查问卷,明确调查方向和内容; 2.分发调查问卷。将调查问卷分发至全班学生; 3.根据回收有效问卷进行分析,具体内容如下: (1)根据样本的借阅量数目、分布状况的均值、方差等分布的数字特征,推断大学生总体分布的相应参数; (2)根据性别进行男女两个总体生活费均值之差的比较以及方差比的区间估计 (3)绘制统计图形使样本数据直观化并对统计量进行分析(五)调查时间:2016年5月19日—2016年6月6日 关于大学本科生学期图书阅读量调查 本调查是关于大学生图书阅读量的调查,本次调查为无记名式,请大家如实填写,谢谢参与! 1.您是本科大_学生 A.一 B 二 C三 D.四 2.您的性别: A.男 B.女 3.每个学期借阅图书数目大概是______ A.小于4本 B 4—6本 C 6—8本本以上 4. 您阅读的图书以___为主 A.文学 B.娱乐消遣 C.专业用书 D 其它类

5. 你经常去图书馆读书吗 ___ A .经常去 B. 偶尔去 C.不经常去 D不去 6. 你每天花多长时间去读课本以外的书籍 小时以上–2小时小时以下 7.您每学期买新书的费用是多少____ A 30元以下 B 30—60元—90元 D 90—120元 E 120元以上 谢谢您的参与! 第二部分数据分析 我们设样本一为抽样总体,样本二为男生的抽样总体,样本三为女生的抽样总体。 一、图书阅读量的分析 1. 对样本一的分析 由整理后输入计算机的数据,我们绘制出样本一学期图书阅读量的频数分布表和直方图,结果如下: 样本一学期阅读量的频数分布表 频率百分比有效百分 比 累积百分 比 有效4本以 下 16 4-6本14 6-8本13 8本以 上 9 合计52

多元统计分析期末复习试题

第一章: 多元统计分析研究的容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X均值向量: 随机向量X与Y的协方差矩阵: 当X=Y时Cov(X,Y)=D(X);当Cov(X,Y)=0 ,称X,Y不相关。 随机向量X与Y的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X,Y为随机向量,A,B 为常数矩阵 E(AX)=AE(X); E(AXB)=AE(X)B; D(AX)=AD(X)A’; )' ,..., , ( ) , , , ( 2 1 2 1P p EX EX EX EXμ μ μ = ' = )' )( ( ) , cov(EY Y EX X E Y X- - = q p ij r Y X ? =) ( ) , (ρ

Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变量之间的比较。 4、对数变换:对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。它将具有指数特征的数据结构变换为线性数据结构。 三、样品间相近性的度量 研究样品或变量的亲疏程度的数量指标有两种:距离,它是将每一个样品看作p 维空),(~∑μP N X μ∑μp X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ)()1(,,n X X X )',,,(21p X X X )')(()()(1X X X X i i n i --∑=n 1X μ ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

应用统计分析

采用几何平均法计算平均发展速度的依据是( )。 A.各年环比发展速度之积等于总速度 B. 各年环比发展速度之和等于总速度 C.各年环比增长速度之积等于总速度 D.各年 环比增长速度这和等于总速度 A 编制数量指标指数一般是采用( )作同度量因素。 A.基期质量指标 B.报告期质量指标 C.基期数量指标 D.报告期数量指标 A 离中趋势指标中,最容易受极端值影响的是( )。 A.极差 B.方差 C.标准差 D.标准差系数 A 对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程称为()。 A.假设检验 B.参数估计 C.双边检验 D.单边检验 A 以下哪种场合宜采用标准式访问( )。 A.居民入户调查 B.座谈会 C.当事人或知情者个别采访 D.观察法 A ()表示事物的质的特征,是不能以数值表示的。 A.品质标志 B.数量标志 C.质量指标 D.数量指标 A 以一、二、三等品来衡量产品质地的优劣,那么该产品等级是()。 A.品质标志 B.数量标志 C.质量指标 D.数量指标 A 调查项目( )。 A.是依附于调查单位的基本标志 B.是依 附调查对象的基本指标 C.与调查单位是一致的 D.与填报单位是一致的 A 要了解某商场电视机的库存情况,宜采用()。 A.现场观察法 B.实验采集法 C.问卷法 D.访谈法 A 从统计总体中抽取出来作为代表这一总体的、由部分个体组成的集合体是()。 A.样本 B.总体单位 C.个体 D.全及总体 A 抽样推断的目的是( )。 A.以样本指标推断总体指标 B.取得样本 指标 C.以总体指标估计样本指标 D.以样本的某一指标推断另一指标 A 频数分布用来表明( )。 A.总体单位在各组的分布状况 B.各组变 量值的构成情况 C.各组标志值的分布情况 D.各组变量值的变动程度 A 在抽样推断中,可以计算和控制的误差是( )。 A.抽样实际误差 B.抽样标准误差 C.非随机误差 D.系统性误差 B 计算平均数的基本要求是所要计算的平均数的总体单位应是( )。 A.大量的 B.同质的 C.差异的 D.少量的 B 若无季节变动,则季节指数应该是( )。 A.等于零 B.等于1 C.大于1 D.小于零 B 某市进行工业企业生产设备普查,要求在7月1日至7月10全部调查完毕,则这一时间规定是( )。 A.调查时间 B.调查期限 C.标准时间 D.登记期限 B 某地区进行国有商业企业经营情况调查,则调查对象是( )。 A.该地所有商业企业 B.该地所有国有商业企业 C.该地每一家国有商业企业 D.该地每一家商业企业 B 综合指数包括( )。 A.个体指数和总指数 B.质量指标指数和 数量指标指数 C.平均数指数和平均指标指数 D.定基指数和环比指数 B

应用多元统计分析习题解答_朱建平_第九章

Abbo无私奉献,只收1个金币,BS收5个金币的… 何老师考简单点啊……

第九章 典型相关分析 9.1 什么是典型相关分析?简述其基本思想。 答: 典型相关分析是研究两组变量之间相关关系的一种多元统计方法。用于揭示两组变量之间的内在联系。典型相关分析的目的是识别并量化两组变量之间的联系。将两组变量相关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系。 基本思想: (1)在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。即: 若设(1) (1)(1) (1)12(,,,)p X X X =X 、(2) (2)(2)(2) 12(,,,)q X X X =X 是两组相互关联的随机变量, 分别在两组变量中选取若干有代表性的综合变量Ui 、Vi ,使是原变量的线性组合。 在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大。(2)选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对。 (3)如此继续下去,直到两组变量之间的相关性被提取完毕为此。 9.2 什么是典型变量?它具有哪些性质? 答:在典型相关分析中,在一定条件下选取系列线性组合以反映两组变量之间的线性关系,这被选出的线性组合配对被称为典型变量。具体来说, ()(1) ()(1)()(1)()(1) 11 22i i i i i P P U a X a X a X ' =+++a X ()(2) ()(2)()(2) ()(2) 11 22i i i i i q q V b X b X b X ' =+++b X 在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大,则称 (1)(1)'a X 、(1)(2) 'b X 是(1)X 、(2)X 的第一对典型相关变量。 典型变量性质: 典型相关量化了两组变量之间的联系,反映了两组变量的相关程度。 1. ()1,()1 (1,2,,)k k D U D V k r === (,)0, (,)0 ()i j i j C ov U U C ov V V i j ==≠ 2. 0 (,1,2,,)(,)0()0()i i j i j i r C ov U V i j j r λ≠==?? =≠??>? 9.3 试分析一组变量的典型变量与其主成分的联系与区别。 答:一组变量的典型变量和其主成分都是经过线性变换计算矩阵特征值与特征向量得出的。主成分分析只涉及一组变量的相互依赖关系而典型相关则扩展到两组变量之间的相互依赖关系之中,度量了这两组变量之间联系的强度。 ()(1)()(1)()(1)()(1) 1122i i i i i P P U a X a X a X '=+++a X ()(2)()(2)()(2)()(2) 1122i i i i i q q V b X b X b X '=+++b X (1)(1)(1)(1)1 2 (,,,)p X X X = X 、(2)(2)(2)(2)1 2 (,,,)q X X X = X

多元统计分析期末考试考点整理共5页

多元统计分析 题型一定义、名词解释 题型二计算(协方差阵、模糊矩阵) 题型三解答题 一、定义 二名词解释 1、多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广 2、聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。使类内对象的同质性最大化和类间对象的异质性最大化 3、随机变量:是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。它是由于随机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向量。类似地,所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量:多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量 三、计算题 解: 答:

答: 题型三解答题 1、简述多元统计分析中协差阵检验的步骤 答: 第一,提出待检验的假设和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 2、简述一下聚类分析的思想 答:聚类分析的基本思想,是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕. 3、多元统计分析的内容和方法 答:1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。(1)主成分分析(2)因子分析(3)对应分析等 2、分类与判别,对所考察的变量按相似程度进行分类。(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。(2)判别分析:判别样本应属何种类型的统计方法。

应用多元统计分析课后答案

应用多元统计分析课后答案 第五章 聚类分析 判别分析和聚类分析有何区别 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 对样品和变量进行聚类分析时, 所构造的统计量分别是什么简要说明为什么这样构造 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:1/1 ()() p q q ij ik jk k d q X X ==-∑ q 取不同值,分为 (1)绝对距离(1q =) 1 (1)p ij ik jk k d X X ==-∑ (2)欧氏距离(2q =) 21/2 1 (2)() p ij ik jk k d X X ==-∑ (3)切比雪夫距离(q =∞)

1()max ij ik jk k p d X X ≤≤∞=- (二)马氏距离 (三)兰氏距离 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p 维空间的向量,一般用 (一)夹角余弦 (二)相关系数 在进行系统聚类时,不同类间距离计算方法有何区别选择距离公式应遵循哪些原则 答: 设d ij 表示样品X i 与X j 之间距离,用D ij 表示类G i 与G j 之间的距离。 (1). 最短距离法 ,min i k j r kr ij X G X G D d ∈∈= min{,}kp kq D D = (2)最长距离法 ,max i p j q pq ij X G X G D d ∈∈= 21 ()()()ij i j i j d M -'=--X X ΣX X 11()p ik jk ij k ik jk X X d L p X X =-=+∑ cos p ik jk ij X X θ= ∑ ()() p ik i jk j ij X X X X r --= ∑ ij G X G X ij d D j j i i ∈∈= ,min

多元统计分析期末考试考点整理

二名词解释 1、 多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理 论和方法,是一元统计学的推广 2、 聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方 法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 使类内对象的同质性最大化和类间对象的异质性最大化 3、 随机变量:是指变量的值无法预先确定仅以一定的可能性 (概率)取值的量。它是由于随 机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向 量。类 似地,所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量:多元统计研究的是多指标问题 ,为了了解总体的特征,通过对总体抽样得到代表 总体的样本,但因为信息是分散在每个样本上的 ,就需要对样本进行加工,把样本的信息浓缩 到不包含未知量的样本函数中,这个函数称为统计量 二、计算题 ^16 -4 2 k 设H = 其中启= (1Q —纣眉=-4 4-1 [― 试判断叼+ 2吟与 「花一? [是否独立? 解: "10 -6 -15 -6 1 a 2U -16 20 40 故不独立口 -r o 2丿 按用片的联合分帚再I -6 lti 20 -1G 20 ) -1V16 -4 0 -4 A 2 丿"-1

2.对某地区农村的百名2周宙男翌的身高、胸圉、上半骨圉进行测虽,得相关数据如下』根据汶往资料,该地区城市2周岁男婴的遠三个指标的均值血二(90Q乩16庆现欲在多元正态性的假定下检验该地区农村男娶是否与城市男婴有相同的均值?伽厂43107-14.62108.946^1 ]丼中乂=60.2x^)-1=(115.6924)-1-14.6210 3.172-37 3760 、8.9464-37 376035.S936」= 0.01, (3,2) = 99.2, 03) =293 隔亠4) =16.7) 答: 2、假设检验问题:比、# =险用‘//H地 r-8.o> 经计算可得:X-^A 22 厂 「3107 -14.6210 ST1=(23J3848)-1 -14.6210 3.172 8 9464 -37 3760 E9464 -37.3760 35.5936 构造检验统计量:尸=旳(丟-間)〃丿(巫-角) = 6x70.0741=420.445 由题目已知热“(3,)= 295由是 ^I =^W3,3)^147.5 所以在显著性水平ff=0.01下,拒绝原设尽即认 为农村和城市的2周岁男婴上述三个指标的均 值有显著性差异 (] 4、设盂=(耳兀.昂工/ ~M((XE),协方差阵龙=P P (1)试从匸出发求X的第一总体主成分; 答: (2)试|可当卩取多大时才链主成分册贡蕭率达阳滋以上.

相关文档
相关文档 最新文档