文档视界 最新最全的文档下载
当前位置:文档视界 › 统计学知识点

统计学知识点

统计学知识点
统计学知识点

第一章 概论

1. 总体(Population ):根据研究目的确定的同质对象的全体(集合);样本(Sample ):从总体中随机抽取的部分具有代表性的研究对象。

2. 参数(Parameter ):反映总体特征的统计指标,如总体均数、标准差等,用希腊字母表示,是固定的常数;统计量(Statistic ):反映样本特征的统计指标,如样本均数、标准差等,采用拉丁字字母表示,是在参数附近波动的随机变量。

3. 统计资料分类:定量(计量)资料、定性(计数)资料、等级资料。

第二章 计量资料统计描述

1. 集中趋势:均数(算术、几何)、中位数、众数

2. 离散趋势:极差、四分位间距(QR =P 75-P 25)、标准差(或方差)、变异系数(CV )

3. 正态分布特征:①X 轴上方关于X =对称的钟形曲线;②X =时,f(X)取得最大值;③有两个参数,位置参数和形态参数;④曲线下面积为1,区间±的面积为%,区间±的面积为%,区间±的面积为%。

4. 医学参考值范围的制定方法:正态近似法:/2X u S α±;百分位数法:。

第三章 总体均数估计和假设检验

1. 抽样误差(Sampling Error ):由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。抽样误差不可避免,产生的根本原因是生物个体的变异性。

2. 均数的标准误(Standard error of Mean, SEM ):样本均数的标准差,计算公式:/X n σσ=。反映样本均数间的离散程度,说明抽样误差的大小。

3. 降低抽样误差的途径有:①通过增加样本含量n ;②通过设计减少S 。

4. t 分布特征:

①单峰分布,以0为中心,左右对称;

②形态取决于自由度,越小,t 值越分散,t 分布的峰部越矮而尾部翘得越高; ③当逼近∞,X S 逼近X σ, t 分布逼近u 分布,故标准正态分布是t 分布的特例。

5. 置信区间(Confidence Interval , CI ):按预先给定的概率(1-)确定的包含总体参

数的一个范围,计算公式:/2,X X t S αν±或/2,X X u S αν±。95%CI 含义:从固定样本含量的已知总体中进行重复抽样试验,根据每个样本可得到一个置信区间,则平均有95%的置信区间包含了总体参数。

6. 假设检验的基本原理:小概率反证法的思想。

①反证法:从问题的对立面(H 0)出发间接判断要解决的问题(H 1)是否成立。

②小概率事件:在H 0成立的条件下计算检验统计量,根据概率分布确定检验水准下P 值大小,判断是否为小概率事件(通常P ≤视为小概率事件,通常取

),是则拒绝H 0,接受H 1;否则尚不能拒绝H 0。

7. 假设检验一般步骤:①建立假设(反证法,H 0和H 1),确定检验水准();②计算统计量:u , t ,F ;③确定概率值P ,做出推断结论。

8. t 检验需满足的条件:比较的两个样本相互独立、均服从正态分布。

9. P 的含义:是指从H 0规定的总体随机抽样,抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量(如t 、u 等)值的概率。

10. Ⅰ型错误(Type Ⅰ error ):拒绝了实际上成立的H 0,这类“弃真”的错误称为Ⅰ型错误,Ⅰ型错误的大小为检验水准。Ⅱ型错误(Type Ⅱ error ):接受了实际上不成立的H 0,这类“存伪”的错误称为Ⅱ型错误,Ⅱ型错误的大小用表示,1-表示检验效能。越小,越大,增大样本量可以同时降低和。

11. 置信区间和假设检验的区别和联系:①可以通过判断置信区间是否包含零假设,判断单样本均数是否来自已知的总体;②置信区间不但能回答差别有无统计学意义,还可提示差别有无实际意义。③假设检验可提供置信区间不能提供的信息,如P 值和检验效能等。

第四章 方差分析

1. 方差分析的基本思想:根据研究目的和设计类型,把所有测量值的总变异按照处理因素和水平等分解成两部分(组内变异和组间变异)或更多部分,同时把对自由度相应进行分解,再进行比较,评价由处理因素引起的变异是否具有统计学意义。

2. 方差分析的应用条件:各样本是相互独立的随机样本,均来自正态分布的总体,各样本的总体方差相等(具有方差齐性)。

3. 方差分析表:

变异来源

SS ν MS F P 组间变异

a g-1 a/(g-1) MS 组间/MS 组内 组内变异

b N-g b/(N-g) 总变异 a+b N-1

4. g=2时,随机区组设计的方差分析与配对设计资料t 检验等价,t F =。

5. 多个样本均数间的多重比较:①LSD-t 检验,即最小显著差异t 检验,适用于一对或几对在专业上有特殊意义的样本均数间的比较;②Dunnett-t 检验:适用于g-1个实验组与一个对照组均数差别的多重比较;③SNK-q 检验:适用于多个样本均数两两之间的全面比较。

第五章 计数资料的统计描述

1. 相对数的类型:强度相对数(率,如死亡率、发病率等);结构相对数(构成比);相对比(如性别比等)

2. 应用相对数的注意事项:①结构相对数不能代替强度相对数;②计算相对数应有足够的数量;③正确计算合计率;④注意资料的可比性;⑤对比不同时期资料应注意客观条件是否相同;⑥样本率(或构成比)的抽样误差。

3. 标准化率(Standardization rate ):采用标准化法进行计算,消除数据内部构成的差异,使标化后的合计率具有可比性,这种经过标化后的合计率称为标准化率。

4. 标准化率的注意事项:①只适用于内部构成不同,影响总率的可比性的问题;②选择的标准不同,计算得到的标准化率也不同,多个标准化率比较时,应选同一标准;③标准化率已经不再反映当地的实际水平;④样本标准化率是样本值,存在抽样误差。比较两样本标准化率,当样本量较小时,需做假设检验。

第六章 几种离散型变量的分布及应用

1. 二项分布X ~B (n , )的适用条件:①每次试验只发生两种对立的可能结果之一;②每次试验产生某结果的概率固定不变;③重复试验是相互独立的。

2. 二项分布的性质:①阳性次数X 的总体均数(n μπ=)、标准差((1)n σππ=-;②样本率p 的均数(p μπ=)、标准差((1)p p p S n

-=率的标准误)。③二项分布的

正态近似条件:np和n(1-p)均大于5。

3. 泊松分布X~P()的性质:①总体均数和总体方差2相等;②当n很大,很小,且np=为常数时,二项分布近似泊松分布;③≥20时,泊松分布近似正态分布;④泊松分布具备可加性。

第七章2检验

1. 2检验的基本思想:根据2分布特征,通过比较实际频数与理论频数的差异,确定在

成立的条件下该差异由抽样误差造成是否为小概率事件,进而判断差异是否具有统计学意义。2值反映了实际频数与理论频数的吻合程度。

2. R×C列联表中的各格子T≥1,并且1≤T<5的格子数不宜超过1/5格子总数,否则可能产生偏差。处理方法有三种:①增加样本量,使理论频数增大;②根据专业知识,删除或合并行列;③采用Fisher确切概率法分析。

3. 有序分组资料表线性趋势检验:

①双向无序的R×C列联表:多个样本率的比较采用R×C列联表的2检验;两个分类变量的关联性分析则采用R×C列联表的2检验和Pearson列联系数进行分析。

②单向有序的R×C列联表:行有序而列无序:R×C列联表的2检验;行无序而列有序,采用Wilcoxon秩和检验。

③双向有序属性相同的R×C列联表:配对四格表的扩展,采用一致性检验(Kappa检验)。

④双向有序属性不同的R×C列联表:样本率的比较采用Wilcoxon秩和检验;相关性分析采用Spearman相关分析;线性变化趋势分析采用有序分组资料的线性趋势检验或CMH2检验等。

第八章非参数检验

1. 秩和检验的适用范围:①总体分布偏态的计量资料;②数据两端有不确定值;③等级资料;④各组离散程度相差悬殊,总体方差不齐的资料。

2. 非参数检验对总体分布的形状差别不敏感,只对总体分布位置差别敏感;非参数检验没有充分利用资料信息,较参数检验的检验效低。故能用参数检验尽量采用参数检验,不满足参数检验条件才使用非参数检验。

3. 不同数据类型的统计分析路径:

(1)样本均数与总体均数的比较:正态,样本均数与总体均数的t检验;非正态,Wilcoxon 符号秩检验。

(2)两样本均数比较:①独立正态:两独立样本t检验;②独立非正态:两独立样本的Wilcoxon秩和检验;③配对设计差值正态,配对t检验;④配对设计差值非正态,Wilcoxon 符号秩检验。

(3)多样本均数比较:①独立正态(方差齐),方差分析;②独立非正态 Kruskal-Wails H 检验;③非独立正态,重复测量资料的方差分析;④非独立非正态,Friedman M检验

第九章双变量回归和相关

1. 直线回归应满足的条件:自变量与因变量呈线性关系、观察值之间相互独立、因变量Y

=+,a 随机正态、对任何X因变量Y的标准差相等。直线回归方程的一般形式为:?Y a bX

为截距,b为回归系数,回归系数的估计采用最小二乘法原则(Least Squares Method,使残差平方和最小)进行估计。

2.决定系数(coefficient of determination):回归平方和与总平方和的比值,R2=SS回/SS总。R2取值0~1之间无单位,其数值大小反映回归贡献的相对程度,即总变异中回归模型能够解释的百分比。

3. 秩相关的应用适用范围:(1)不服从双变量正态分布而不宜作Pearson相关分析;(2)总体分布型未知;(3)等级资料的相关分析。

4. 相关与回归的区别与联系区别

(1)区别:

①资料:回归分析资料要求Y为正态随机变量,X为选定变量;相关分析资料X、Y服从双变量正态分布。

②应用:回归分析是由一个变量值推算另一个变量值(依存关系);相关分析只反映两个变量间的相互关系。

③回归系数b与原度量单位有关,而相关系数r无关。b的绝对值越大,回归直线越陡,即X变化1个单位时Y的平均变化越大;r的绝对值越大,所有点越趋近于一条直线,两变量的关系越密切,相关度越高。

(2)联系:

① r 与b 值可相互换算,YY XX l l b r =;

② r 与b 正负号一致;

③ r 与b 的假设检验等价:对于同一资料b r t t =,检验完全等价;

④ 回归可解释相关。相关系数的平方r 2

(决定系数)是回归平方和与总的离均差平方和之比(SS 回/SS 总)。

5. 应用直线回归时的注意事项

(1)作回归分析要有实际意义,不能把毫无关联的两种现象作回归分析,必须对两种现象间的内在联系有所认识。

(2)在进行直线回归分析之前,应绘制散点图,当观察点的分布有直线趋势时,才适宜作直线回归分析,散点图还能提示资料有无异常点。异常点的存在往往对方程中的系数(a 、b )的估计产生较大影响。因此,需对异常点进行复查。

(3)建立直线回归方程后,要对系数进行假设检验,以确定回归方程有无意义。

(4)直线回归方程的适用范围一般以自变量的取值范围为限,避免外延。获得自变量值的手段也应与建立方程时相同。否则会产生较大偏差。 第十章 统计表和统计图

1. 统计表的基本要求

(1)标题:概括表的主要内容(时间、地点、研究内容等),放在表的上方。表编号与标题间间隔一个汉字距离;如整个表指标统一,还应将指标的单位标在标题后面。

(2)标目:分别用横标目和纵标目说明每行和每列内容或数字的意义,标明指标的单位。通常描述的对象为横标目,内容(指标)为纵标目,从左向右读可以构成完整的一句话。

(3)线条:至少用3条线:顶线、底线和纵标目线。顶线和底线将表格与文章其他部分分隔开,纵标目线将标目的文字区与表格的数字区隔开,还可用横线将合计和两重纵标目隔开,其他竖线和斜线一概省去。顶线和底线线条粗细一般为磅,其他线条一般为磅。

(4)数字:用阿拉伯数字表示。无数字用“—”表示,缺失数字用“…”表示,数值为0者记为“0”,不留空项。数字按小数点位数对齐,同一指标最好保留相同位数的小数位数。

(5)备注:表中数字区不要插入文字。必须说明者表“*”,在表下方以备注的形式说明。

高级统计方法

第十二章 重复测量资料的方差分析

1. 重复测量设计与随机区组设计的区别:(1)重复测量设计中“处理”是在区组(受试者)间随机分配,区组内的各时间点是固定的,不能随机分配;(2)重复测量设计区组内实验单位彼此不独立;

2. 球对称(sphericity ):所有两两时间点变量间差值对应的方差相等,即重复测量的误差的协方差经正交对比变换后与单位矩阵成比例。

3. 重复测量资料方差分析的资料条件:

(1)正态性:处理因素的各水平样本个体间是相互独立的随机样本,其总体均数服从正态分布(个体间独立,个体内不独立);

(2)方差齐性:相互比较的各处理水平的总体方差相等,即具有方差齐同;

(3)各时间点组成的协方差阵具有球形性特征。

第十五章 多元线性回归分析

1. 偏回归系数(partial regression coefficient ):多元线性回归模型中自变量X j 的系数j ,表示在其他自变量保持不变时,X j 增加或减少一个单位是Y 的平均变化量。

2. 复相关系数(multiple correlation coefficient ):2R R =

Y 与多个自变量的线性相关程度,也是观察值Y 与估计值?Y 之间的相关程度。若只有一个自变量,R r =。

3. 标准化回归系数:对数据标准化后得到的标准化回归方程的回归系数即为标准化回归系数,j

j j Y S b b S ??'= ???

,用来比较各个自变量j X 对Y 的影响强度,在有统计学意义的前提下,标准化回归系数的绝对值越大说明相应自变量对Y 的作用越大。

4. 多元线性回归模型(01122?m m

Y X X X e ββββ=+++++L )应满足的条件:① Y 与X 1,X 2,…,X m 之间具有线性关系;② 各例观察值Y i 相互独立;③ 残差e 服从正态分布。

5. 哑变量(dummy variable ):在多元线性回归模型中,当自变量为多分类变量(g 个水平)

时,需要将原来的多分类变量转化为(g-1)个哑变量并进行编码,每个哑变量只代表两个级别或多个级别间的差异。应用哑变量时要注意:① 哑变量同时存在,其统计学意义是相对而言的,不能采用常规的逐步回归进行变量选择;②可采用加与不加入哑变量的偏回归平方和F 检验确定哑变量有无意义。

6. 多重共线性(collinearity ):某些自变量间存在较强的线性关系,使得一个或几个自变量可以由另外的自变量的线性关系表示,则该变量与另外的自变量间存在多重共线性。多重共线性可能导致回归方程不稳定、参数估计值标准误变得很大、t 检验不准确、估计值的正负符号与实际不符等。

7. 交互作用:当某一自变量对因变量的作用大小与另一自变量的取值有关,则这两个自变量有交互作用。是否考虑交互作用主要靠专业知识判断。为了检验两个自变量是否具有交互作用,普遍的做法是在模型中加入它们的乘积项(作为交互项)。

8. 线性回归分析的SAS 结果解释:

(1)线性回归方程:? 2.994220.99733Y

x =+; (2)该线性回归模型的统计学检验结果:模型的方差分析统计量F =,P =<,说明该线性回归模型具有统计学意义。

(3)R-Square=的意义:该线性回归模型可以解释因变量Y 的总变异的%;

(4)回归系数估计值b =的意义:表示X 对Y 影响的大小,X 每改变一个单位,Y 改变个单位;其假设检验结果合方差分析结果的联系:方差分析结果说明X 与Y 之间存在的线性关系,t 检验结果说明计算得到的回归系数b 有统计学意义,在此问题中,二者是等价的,均说明该回归模型具有统计学意义。

(5)相关系数及其检验结果并解释该结果:r =,对r 进行t 检验得到P=<,则该相关系数具有统计学意义,说明X 与Y 之间具有中等强度的正相关关系。

第十六章 Logistic 回归分析

1. logistic 回归模型一般形式:011ln logit()exp()1m m P P X X P βββ??==+++ ?-??

L 。将某事件的阳性与阴性结果概率之比去自然对数称为logit 变换,记为logit (P )。

2. 回归系数j β采用最大似然估计(maximum likelihood estimate, MLE ,使在一次抽样中获得现有样本的概率最大)得到表示自变量X j 改变一个单位时logit P 的改变量。多变量调整后的优势比exp()j j OR β=,表示扣除了其他自变量的影响后危险因素的作用。OR j =1,说明X j 对疾病发生不起作用OR j >1,说明X j 是一个危险因素;OR j <1,说明X j 是一个保护因素,OR j 的1α-可信区间为:/2exp()j

j b b u S α±。

3. logistic 回归模型假设检验的方法:似然比法(102(ln ln )G L L =-,适合单个和多个自

变量的假设检验)、Wald 检验(j j b b u S =或2

2j j

b b S χ?? ?= ???,适合单个自变量的假设检验)和计分检验(适合样本量较小的情况)。变量筛选的方法:前进法、后退法、逐步法。

4. 条件logistic 回归:适用于1:M 配对设计资料,条件似然函数估计的是在M+1个观察对象中恰好第一个观察对象属于病例组的条件概率,它只估计了表示危险因素作用的j β,表示匹配组效应的常数项0β被消去。

5. 有序logistic 回归基于累积概率构建回归模型,g 个类别的因变量Y 的有序logistic 回归包括g-1个方程,这些方程的回归系数均相同,差别主要体现在各方程的常数项0β不同。在对因变量Y 赋值时,应将专业上最不利的等级赋最小值,最有利的等级赋最大值。

6. 多分类logistic 回归是二分类logistic 回归的扩展,即选择一个参照类别,拟合剩余各类别相对于参照类别的logistic 回归模型。

第十七章 生存分析

1. 生存分析的数据特点:(1)同时考虑生存时间和生存结局;(2)通常含有删失数据(censoring ,可能的原因:①研究截止但终点事件仍未出现;②失去联系或其他原因导致失访;③死于其他“事件”);(3)生存时间的分布通常不服从正态分布。

2. 统计学分析方法:由于生存时间一般不呈正态分布,且需考虑是否为删失值,所以生存分析有其独特的统计方法。

(1)非参数法:

① 生存率的估计采用Kaplan-Meier 法、寿命表法(频数表资料);

② 两组或多组生存率的比较,常用log-rank 检验(时序法,权重1i ω=,对观察后期差别敏感)和Breslow 检验(权重i i n ω=,i n 为期初人数,随生存时间增大而逐渐减小,Breslow 检验给观察早期差别更大权重,故对观察早期差别敏感)。

(2)半参数法:多因素生存分析常采用Cox 比例风险模型(前提条件:假定风险比值h (t )/h 0(t )为固定值,即协变量对生存率的影响不随时间的改变而改变。检验此前提的方法:①分类协变量每组的K-M 生存曲线无交叉;②协变量与生存时间的交互项无统计学意义等。其参数估计方法为最大似然法)。

(3)参数法:指数分布法、Weibull 分布法等回归模型。

3. 多元线性回归、logistic 回归和Cox 回归的相同点和不同点

(1)相同点:

① 自变量可为连续变量和多分类变量,多分类变量需哑变量化,哑变量在模型中是一个整体,必须同时“进”同时“出”;

② 自变量间存在较强相关关系时可能导致多重共线性问题;

③ 自变量间可能存在交互作用,模型中通常采用自变量的乘积作为交互项;

④ 均可采用逐步回归筛选变量;

⑤ 均可进行影响因素分析、混杂因素校正、预测分析等。

(2)不同点:

第十八、十九章 判别分析和聚类分析

1. 判别分析(discriminant analysis):根据一批分类明确的样本在若干指标上的观察值,建立一个关于指标的判别函数和判别准则,然后根据这个判别函数和判别准则对新的样本进行分类,并且根据回代判别的准确率评估它的实用性。

2. Fisher 判别准则:它使得类间点的距离最大,而类内点的距离最小,适合于两类的判别分析;Bayes 判别准则:它使得每一类中的每个样本都以最大的概率进入该类,适合于多类的判别分析。

3. 评估判别函数的判别效能:原始数据的分类要可靠准确;指标变量对判别函数的作用要

显著;判别函数的回代错判率和事后概率错误率要小。

4. 聚类分析(Cluster Analysis):对于总体分类未知的一群事物依照“物以类聚”思想,把性质相近的事物归入同一类,而把性质相差较大的事物归入不同类的一种统计分析方法。

5. 聚类分析和判别分析的区别和联系

(1)区别:

①聚类分析可以对样本进行分类,也可以对指标进行分类;而判别分析只能对样本进行分类;

②聚类分析事先不知道事物的类别,也不知道应分几类;而判别分析必须事先知道事物的类别,也知道应分几类;

③聚类分析不需要分类的历史资料,能直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类。

(2)联系:先采用聚类分析获得各个个体的类别(classification);然后采用判别分析建立判别函数,对新个体进行类型识别((identification )

第二十章主成分分析和因子分析

1. 主成分的性质

(1)主成分互不相关;

(2)主成分的贡献率和累积贡献率:贡献率越大,表明主成分综合原始指标信息的能力越强;累积贡献率越高,说明前k个主成分综合原始资料信息的比例越高;

(3)主成分个数的选取:①以累计贡献率确定:累积贡献率≥70%为宜;②以特征根值大小确定:特征根值≥1。

(4)因子荷载:因子荷载反映主成分与原始指标间密切程度与作用方向;

(5)样品的主成分得分:根据主成分表达式计算样品的主成分值,推断和评价样品的特性。

2. 因子模型的性质:

(1)公共度:共性方差反映全体原始指标X i对所有公因子的依赖程度;

(2)因子贡献及因子贡献率:的值越大,则F j对原始指标的影响越大;

(3)因子荷载及因子荷载矩阵:因子荷载反映公因子与原始指标间密切程度与作用方向;

2. 主成分分析和因子分析的区别和联系

(1)联系:

① 都是根据变量之间内部相关性来提取主要信息,获得新的变量(公因子变量和主成分变量),达到减少变量个数(降维)的目的;

② 主成分分析模型两端同时乘以A ',则有X A F '=,即为无特殊因子的公因子模型; ③因子分析的结果(主成分解)即为主成分分析的结果,因子分析的主因子解也常常由主成分分析的结果作为的初始值计算。

(2)区别:

主成分分析是将m 个原变量提取I (I ≤m )个互不相关的主成分,准确计算各主成分的得分,其分析重点在于通过主成分综合原始变量的信息;

因子分析是提取I (I ≤m )个支配原变量的共性因子和1个特殊因子,各因子之间可以互不相关或相关,根据共性因子得分系数估计因子得分,其分析重点是通过寻找共性因子解释原始变量之间的关系。

第二十一章 典型相关分析

1. 典型相关(Canonical Correlation Analysis ):是研究两组变量之间相关性的一种统计分析方法。是一种降维技术。

2. 典型相关分析基本思想:借助主成分分析的思想,分别计算得到两组变量的主成分,根据主成分综合原始变量信息的能力配对得到第i 对典型相关变量(U i ,V i )。两个第一主成分间的相关程度最大,即构成了第一对典型相关变量(U 1,V 1)。根据典型相关变量计算典型相关系数,更加全面得反映原来两组变量之间的整体相关性。

3. 典型相关系数(canonical correlation coefficient ):第i 对典型相关变量间(U i ,V i )的相关系数称为第i 典型相关系数,反映了两组变量中存在的多种相关信息中第i 大的一种。

医学研究的统计学设计

1. 统计学设计内容:研究对象(分组、设置对照、样本含量)、处理因素、观察指标、数据的质量控制与管理、统计分析方法。

2. 研究设计的三要素:受试对象、处理因素、实验效应。

3. 实验设计的基本原则:重复、对照、随机化

4. 随机的三个含义:

分组随机-均衡性:每个研究对象有同等机会被分配到各处理组

抽样随机-代表性:总体中每个观察个体有同等机会被抽取

实验顺序随机:每个研究对象先后接受处理的机会相同

5. 影响样本含量大小的因素:

样本含量的估计时,通常是由犯I类错误的概率、检验效能1-、个体值间的离散程度S、以及容许误差d来确定样本含量。

6. 常用的随机抽样方法:单纯随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样等。

7. 对照类型:、空白对照、实验对照、标准对照、相互对照、自身对照

诊断试验评价与ROC分析

1. 常用指标:正确百分率、灵敏度、特异度、Youden指数、阳性似然比、阴性似然比、阳性预测值、阴性预测值。

诊断结果 (T)

金标准(D)

合计病例(D+)对照(D-)

阳性(T+)TP(真阳性)FP(假阳性)TP+FP

阴性(T-)FN(假阴性)TN(真阴性)FN+TN

合计TP+FN FP+TN N

2. ①灵敏度与特异度取值范围均在0~1之间,其值不受患病率的影响;②Youden指数的取值范围在0~1之间,其值越接近于1,诊断准确性越好;③阳性似然比的取值范围为(0, ∞),其值越大,检测方法证实疾病的能力越强;④阴性似然比的取值范围为(0, ∞),其值越小,检测方法排除疾病的能力越好;⑤当灵敏度与特异度为常数时,增加患病率将增加阳性预测值,而降低阴性预测值。

医学统计知识点整理(1)

医学统计学知识点整理 第一节统计学中基本概念 一、同质与变异 同质:统计研究中,给观察单位规定一些相同的因素情况。 如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。 变异:同质的基础上个体间的差异。 “同质”是相对的,是客观事物在特定条件下的相对一致性,而“变异”则是绝对的 二、总体与样本 1、总体:是根据研究目的所确定的,同质观察对象(个体)所构成的全体。 2、样本:是从总体中随机抽取的部分观察单位变量值的集合。 三、参数与统计量 总体参数:根据总体个体值统计计算出来的描述总体的特征量。用希腊字母表示。μ.δ.π 样本统计量:根据样本个体值统计计算出来的描述样本的特征量。用拉丁字母表示。X.S.p 总体参数一般是不知道的,抽样研究的目的就是用样本统计量来推断总体参数,包括区间估计和假设检验 四、误差:实测值与真值之差★ 1.随机误差:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。随机测量误差、抽样误差。 2.系统误差:是一类恒定不变或遵循一定变化规律的误差,其产生原因往往是可知的或可能掌握的。 3.非系统误差:过失误差,可以避免或清除。 五、概率 是用来描述事件发生可能性大小的一个量值,常用P表示。概率取值0~1。 统计上一般将P≤0.05或P≤0.01的事件称为小概率事件,表示其发生的概率很小,可以认为在一次抽样中不会发生。 第二节统计资料的类型★

变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,称为变量。 一、数值变量资料 又称为计量资料、定量资料:观测每个观察单位某项指标的大小而获得的资料。表现为数值大小,带有度、量、衡单位。如身高(cm)、体重(kg)、血红蛋白(g)等。 二、无序分类变量资料 又称为定性资料或计数资料:将观察对象按观察对象的某种类别或属性进行分组计数,分组汇总各组观察单位后得到的资料。 分类:二分类:+ -;有效,无效;多分类:ABO血型系统 特点:没有度量衡单位,多为间断性资料 【例题单选】某地A、B、O、AB血型人数分布的数据资料是( ) A.定量资料 B.计量资料 C.计数资料 D.等级资料 【答案】C 【解析】ABO血型系统人数分布资料属于无序分类变量资料,又称为计数资料。因为是按照变量的血型分类,血型表现为互不相容的属性。所以本题选C。 【例题单选】测量正常人的脉搏数所得的变量是() A.二分类变量 B.多分类变量 C.定量变量 D.定性变量 【答案】C 【解析】脉搏数有数值大小,有度量衡,所以这个资料属于定量资料。本题选C。 三、有序分类变量资料 半定量资料或等级资料:将观察对象按观察对象的某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位后得到的资料。 特点:每一个观察单位没有确切值,各组之间有性质上的差别或程度上的不同举例:- + ++ +++ 第三节统计工作的基本步骤★ 1.统计设计 2.收集资料

统计学考试试卷A及答案

2012—2013学年第二学期闽江学院考试试卷 考试课程:统计学 试卷类别:A卷□√B卷□考试形式:闭卷□√开卷□ 适用专业年级:2011级金融学、国际贸易学、保险学专业 注明:试卷答案请做在答题纸上。 一、单选题(每题1分,共30分,30%) 1. 下列不属于描述统计问题的是() A根据样本信息对总体进行的推断B了解数据分布的特征 C分析感兴趣的总体特征D利用图,表或其他数据汇总工具分析数据 2. 根据样本计算的用于推断总体特征的概括性度量值称作() A.参数 B. 总体C.样本 D. 统计量 3. 通过调查或观测而收集到的数据称为() A.观测数据 B. 实验数据 C.时间序列数据 D. 截面数据 4. 从总体中抽取一个元素后,把这个元素放回到总体中再抽取第二个元素,直至抽取n个元素为止,这样的抽样方法称为()。 A.重复抽样 B.不重复抽样 C.分层抽样 D.整群抽样5. 调查时首先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。这样的调查方式称为()。 A 系统抽样 B 整群抽样 C 滚雪球抽样 D 判断抽样 6. 下面的哪一个图形最适合于描述结构性问题() A.条形图 B.饼图 C.雷达图 D. 直方图 7. 对于大批量的数据,最适合描述其分布的图形是( ) A.条形图 B.茎叶图 C.直方图 D.饼图 8. 将某企业职工的月收入依次分为2000元以下、2000元~3000元,3000元~4000元、4000元~5000元、5000元以上几个组。最后一组的组中值近似为( ) A.5000 B.7500 C.5500 D.6500 9. 下列关于众数的叙述,不正确的是() A.一组数据可能存在多个众数 B.众数主要适用于分类数据 C.一组数据的众数是唯一的 D.众数不熟极端值的影响 10. 一组数据的最大值与最小值之差称为() A.平均数 B.规范差 C.极差 D.四分位差 11.如果一组数据不是对称分布的,根据切比雪夫不等式,对于k=3,其意义是() A.至少有75%的数据落在平均数加减3个规范差的范围之内 B. 至少有89%的数据落在平均数加减3个规范差的范围之内

统计学知识点全归纳__全面、准确

一、统计学 统计学是一门关于数据资料的收集、整理、分析和推断的科学。 二、统计学的产生与发展 (1)政治算术学派 最早的统计学源于17世纪英国。其代表人物是威廉·配第,代表作《政治算术》。政治算术学派主张用大量观察和数量分析等方法对社会经济现象进行研究的主张,为统计学的发展开辟了广阔的前景。其被称为“无统计学之名,有统计学之实”。 (2)记述学派 亦称国势学派,创始人和代表人物是德国康令和阿亨瓦尔,主要使用文字记述方法对国情国力进行研究,其学科内容与现代统计学有较大差别。因此被称为“有统计学之名,无统计学之实”。 (3)社会统计学派 创始人和代表人物,德国恩格尔和梅尔。该学派主张统计是实质性的研究社会现象的社会科学,认为统计学的研究对象是社会现象,目的在于明确社会现象内部的联系联系和相互关系。 (4)数理统计学派 创始人是比利时统计学家凯特勒,他所著的代表作《社会物理学》等将概率论和统计方法引入社会经济方面的研究,其认为统计学是一门通用的方法论科学。 从19世纪中叶到20世纪中叶,数理统计学得到迅速发展。到20世纪中期,数理统计学的基本框架已经形成,数理统计学派成为英美等国统计学界的主流。 三、统计的特点 (1)数量性: 社会经济统计的认识对象是社会经济现象的数量方面,包括现象的数量表现、现象之间的数量关系和质量互变的数量界限。 (2)总体性: 社会经济统计的认识对象是社会经济现象的总体的数量方面。例如,国民经济总体的数量方面、社会总体的数量方面、地区国民经济和社会总体的数量方面、各企事业单位总体数量方面等等。 (3)具体性: 社会经济统计的认识对象是具体事物的数量方面,而不是抽象的量。这是统计与数学的区别。 (4)社会性: 社会经济现象是人类有意识的社会活动,是人类社会活动的条件、过程和结果,社会经济统计以社会经济现象作为研究对象,自然具有明显的社会性。 四、统计工作过程 (1)统计设计 根据所要研究问题的性质,在有关学科理论的指导下,制定统计指标、指标体系和统计分类,给出统一的定义、标准。同时提出收集、整理和分析数据的方案和工作进度等。(2)收集数据 统计数据的收集有两种基本方法,实验法和调查法。 (3)整理与分析 描述统计是指对采集的数据进行登记、审核、整理、归类,在此基础上进一步计算出各种能反映总体数量特征的综合指标,并用图表的形式表示经过归纳分析而得到的各种有用的统计信息。

432--《统计学》考试大纲

432--《统计学》考试大纲 一、基本要求 《统计学》考试的目的在于考查考生对统计学及其在社会经济应用中所涉及的基本概念、基本理论和基本方法的掌握情况以及分析解决实际问题的能力。基本要求是: 1.准确地理解《统计学》中的基本概念; 2.准确地把握《统计学》的基本理论; 3.正确理解统计分析的方法; 4.能够应用《统计学》的基本理论和方法解决社会经济实际问题; 5.了解统计学的发展趋势和发展动态。 《统计学》课程考试对考生的具体要求分为四个层次: 1.识记:能知道有关的名词、概念、知识的含义,并能正确认识和表述。 2.领会:在识记的基础上,能全面把握基本概念、基本原理,能掌握有关概念和原理的区别与联系。 3.简单应用:在领会的基础上,能用学过的一两个知识点分析和解决简单的问题。 4.综合应用:在简单应用的基础上,能用学过的多个知识点,综合分析和解决较复杂的问题。 二、考试范围 1.导论 识记:统计学的概念、数据类型、总体和样本概念。 领会:数据分类的标准、总体和样本的区别、参数和统计量的区别。 2.数据的来源 识记:常用的概率抽样和非概率抽样方法。 领会:不同抽样方法适用的条件。 3.数据的描述 识记:分类数据、顺序数据和数值型数据的集中趋势、离散程度的测度、几种常用图形的使用和区别。 应用:会计算分组数据和原始数据的均值、方差、标准差、离散系数。 4.参数估计 识记:点估计、区间估计概念。 综合应用:一个总体均值和比例的区间估计;两个总体参数的区间估计;样本量的计算。 5、假设检验 识记:两类错误、原假设、临界值概念。 综合应用:一个总体均值和比例的假设检验,包括单侧、双侧、大样本、小样本等情况;两个总体参数的检验。

统计学基础知识要点 很重要

第一章:导论 1、什么是统计学?统计方法可以分为哪两大类? 统计学是收集、分析、表述和解释数据的科学。统计方法可分为描述统计方法和推断统计方法。 2、统计数据可分为哪几种类型?不同类型的数据各有什么特点? 按照所采用的计量尺度不同,分为分类数据、顺序数据和数值型数据;按照统计数据的收集方法,分为观测的数据和实验的数据;按照被描述的对象与时间的关系,分为截面数据和时间序列数据。 按计量尺度分时:分数数据中各类别之间是平等的并列关系,各类别之间的顺序是可以任意改变的;顺序数据的类别之间是可以比较顺序的;数值型数据其结果表现为具体的数值。按收集方法分时:观测数据是在没 有对事物进行人为控制的 条件下等到的;实验数据的 在实验中控制实验对象而 收集到的数据。按被描述的 对象与时间关系分时:截面 数据所描述的是现象在某 一时刻的变化情况;时间序 列数据所描述的是现象随 时间而变化的情况。 3、举例说明总体、样本、 参数、统计量、变量这几个 概念。 总体是包含研究的全部个 体的集合。比如要检验一批 灯泡的使用寿命,这一批灯 泡构成的集合就是总体。样 本是从总体中抽取的一部 分元素的集合。比如从一批 灯泡中随机抽取100个,这 100个灯泡就构成了一个样 本。参数是用来描述总体特 征的概括性数字度量。比如 要调查一个地区所有人口 的平均年龄,“平均年龄” 即为一个参数。统计量是用 来描述样本特征的概括性 数字度量。比如要抽样调查 一个地区所有人口的平均 年龄,样本中的“平均年龄” 即为一个统计量。变量是说 明现象某种特征的概念。比 如商品的销售额是不确定 的,这销售额就是变量。 第二章:数据的收集 1、调查方案包括哪几个方 面的内容? 调查目的,是调查所要达到 的具体目标。调查对象和调 查单位,是根据调查目的确 定的调查研究的总体或调 查范围。调查项目和调查 表,要解决的是调查的内 容。 2、数据的间接来源(二手 数据)主要是公开出版或公 开报道的数据;数据的直接 来源一是调查或观察,二是 实验。 3、统计调查方式:抽样调

统计学考试题库

一、判断题(4个) 1.统计学的研究对象是社会经济总体现象的质量方面。(×) 2.重点调查中的重点单位是根据当前工作的重点来确定的。(×) 3.对于连续型变量,其组限是按照“上限不包括在内”的原则进行汇总的。(√)4.平均数是测定总体各单位的离散程度。(×) 5.在时间序列的乘法合成模型中,季节变动成分S通常是季节的个数(F) 6.用最小二乘法拟合时间序列的直线趋势方程Y=a+bt时,若0≤b≤1则该时间序列的趋势为逐步上升的趋(T) 7.从计算方式看,综合评价指数是一种算术平均指数(F) 8.特殊原因偏差表示过程中固有的偏差,这些偏差随机或偶然出现。(F) 9.当样本量给定时,置信区间的宽度随着置信系数的增大而增大;而当置信水平固定时,置信区间的宽度随着样本量的增大而减小。(√) 10.置信区间是一个随机区间,它因样本量的不同而不同,而且所有的区间都包含总体参数的真值。(×) 11通常是在控制犯取伪错误概率的条件下,尽可能使弃真错误的概率小一点。(×) 12抽样单位既可以是一个简单的个体,也可以是一组个体。(√) 13. 第一类错误是假设检验中出现的第一种错误,是将不真实的现象检验为真实的现象(错误) 14. 正态分布总体有两个参数,即均值与方差,当这两个参数确定以后,一个正态分布也就确定了。(正确) 15. 在一元线性回归模型中,回归模型的标准差等于随机干扰项的标准差。(正确) 16. 根据最小二乘估计,可以得到总体回归方程。(错误) 17.单纯依靠相关与回归分析,无法判断事物之间存在的因果关系。 答:对,因果关系的判断还有赖于实质性科学的理论分析。 18.圆的直径越大,其周长也越大,两者之间的关系属于正相关关系。 答:错。两者是精确的函数关系。 19.X2检验不适用于定类变量和定序变量的相关统计。(错) 20.多样本计量资料的比较,当分布类型不清时选择H检验。(对) 21在多元回归分析中,多重共线性是指模型中因变量与一个自变量相关。(×) 22对回归模型y=β0 +β1X1 +β2X2+…+βpXP+ε的假定有自变量X1 ,X2,…,XP 相互之间不存在较强的线性关系。(√) 23如果经检验所有回归系数都是显著的,则可以判定不存在多重共线性问题。(√) 24.DW 值越接近2, t 序列的自相关性就越小。(√) 二、选择题(4个) 1. “统计”一词的三种涵义是(B )。 A、统计调查、统计资料、统计分析 B、统计工作、统计资料、统计学 C、统计设计、统计调查、统计整理 D、大量观察法、分组法、综合指标法 2. 下列属于品质标志的是(D )。

统计学知识点全归纳全面准确

统计学知识点汇总 一、统计学 统计学是一门关于数据资料的收集、整理、分析和推断的科学。 二、统计学的产生与发展 (1)政治算术学派 最早的统计学源于17世纪英国。其代表人物是威廉·配第,代表作《政治算术》。政治算术学派主张用大量观察和数量分析等方法对社会经济现象进行研究的主张,为统计学的发展开辟了广阔的前景。其被称为“无统计学之名,有统计学之实”。 (2)记述学派 亦称国势学派,创始人和代表人物是德国康令和阿亨瓦尔,主要使用文字记述方法对国情国力进行研究,其学科内容与现代统计学有较大差别。因此被称为“有统计学之名,无统计学之实”。 (3)社会统计学派 创始人和代表人物,德国恩格尔和梅尔。该学派主张统计是实质性的研究社会现象的社会科学,认为统计学的研究对象是社会现象,目的在于明确社会现象内部的联系联系和相互关系。 (4)数理统计学派 创始人是比利时统计学家凯特勒,他所着的代表作《社会物理学》等将概率论和统计方法引入社会经济方面的研究,其认为统计学是一门通用的方法论科学。 从19世纪中叶到20世纪中叶,数理统计学得到迅速发展。到20世纪中期,数理统计学的基本框架已经形成,数理统计学派成为英美等国统计学界的主流。 三、统计的特点 (1)数量性: 社会经济统计的认识对象是社会经济现象的数量方面,包括现象的数量表现、现象之间的数量关系和质量互变的数量界限。 (2)总体性: 社会经济统计的认识对象是社会经济现象的总体的数量方面。例如,国民经济总体的数量方面、社会总体的数量方面、地区国民经济和社会总体的数量方面、各企事业单位总体数量方面等等。 (3)具体性: 社会经济统计的认识对象是具体事物的数量方面,而不是抽象的量。这是统计与数学的区别。 (4)社会性: 社会经济现象是人类有意识的社会活动,是人类社会活动的条件、过程和结果,社会经济统计以社会经济现象作为研究对象,自然具有明显的社会性。 四、统计工作过程 (1)统计设计 根据所要研究问题的性质,在有关学科理论的指导下,制定统计指标、指标体系和统计分类,给出统一的定义、标准。同时提出收集、整理和分析数据的方案和工作进度等。(2)收集数据

专业型硕士《统计学》考试大纲

专业型硕士《统计学》考试大纲 考试科目:统计学 科目代码:432 适用专业:应用统计 参考书目:《统计学》,贾俊平,中国人民大学出版社,2015 《概率论与数理统计教程》,茆诗松、程依明、濮晓龙,高等教育出版社,2011 考试内容要求 I 考查目标 全国硕士研究生入学统一考试应用统计硕士专业学位《统计学》考试是为高等院校和科研院所招收应用统计硕士生设置的具有选拔性质的考试科目。其目的是科学、公平、有效地测试考生是否具备攻读应用统计专业硕士所必须的基本素质、一般能力和培养潜能,以利用选拔具有发展潜力的优秀人才入学,为国家的经济建设培养具有良好职业道德、法制观念和国际视野、具有较强分析与解决实际问题能力的高层次、应用型、复合型的统计专业人才。考试要求是测试考生掌握数据处收集、处理和分析的一些基本统计方法。 具体来说,要求考生: 1.掌握基本的概率论知识。 2.掌握数据收集和处理的基本方法。 3.掌握数据分析的基本原理和方法。 4.具有运用统计方法分析数据和解释数据的基本能力。 II考查内容 一、统计学 1.调查的组织和实施。 2.概率抽样与非概率抽样。 3.数据的预处理。 4.定性、定量数据的图标表示。 5.用统计量描述数据的水平:平均数、中位数、分位数和众数。 6.用统计量描述数据的差异:极差、标准差、样本方差。 7.参数估计的基本原理。 8.一个总体和两个总体参数的区间估计。 9.样本量的确定。 10.假设检验的基本原理。 11.一个总体和两个总体参数的检验。 12.方差分析的基本原理。 13.单因子和双因子方差分析的实现和结果解释。 14.变量间的关系;相关关系和函数关系的差别。

统计学20个重点知识整理

一、统计的含义及其之间的关系 统计一词一般有三种含义,即统计工作、统计资料和统计学。 1、统计工作即统计实践活动,是指按照调查研究的任务,对社会经济现象的数量方面进行搜集资料、整理资料和分析运用资料等一系列调查研究的工作过程。 2、统计资料是指反映社会经济现象特征的各项数字资料以及与之有联系的其他资料,包括调查阶段搜集的原始资料,经过加工整理和分析后的图标和文字资料等系统资料。 3、统计学是研究怎样进行社会经济统计活动的方法论科学,它阐述了统计研究社会经济现象的数量和数量关系时应该遵循的原理、原则和采用的方法等,是系统化的知识体系。 4、关系:统计资料是统计工作的成果,是对社会经济现象进行统计研究的基础;统计学是统计活动经验的科学总结和理论概括,统计学来源于实践,又高于实践,对统计实践起着指导的作用;统计工作要以统计学的理论为指导,并检验和发展统计理论。 二、统计总体和统计单位及其之间的关系 1、统计总体:是由客观存在的、具有某种共同性质的许多个别单位所构成的整体,简称总体。 2、统计总体的特征:大量性、同质性、差异性 3、总体单位:构成统计总体的个别事物 4、例:要研究某一乡镇企业的职工素质情况,则该乡镇企业的全体人员构成一个总体,其中每一个职工就是总体单位。 5、关系:a.总体由总体单位组成; b.组成总体的个体是有差别的; C.根据统计研究目的的不同,总体与总体单位是可以相互转化的。 三、统计指标和统计标志之间的关系 两者之间既有明显的区别,又有密切的联系。主要区别在于: 1、指标说明总体特征;而标志则说明总体单位特征; 2、统计指标必须是可量的;统计标志未必都是可量的; 3、统计指标具有综合性;而统计标志一般不具有综合性; 两者之间的主要联系在于: 1、许多统计指标的指标数值是从总体单位的数量标志值汇总而来; 2、指标与标志之间存在着变换关系; 例如:要了解我国粮食生产状况,则我国的粮食总产量是指标,而某省的粮食总产量是标志。 四、一个完整的统计调查方案包括的内容 1、确定调查目的; 2、确定调查对象和调查单位; 3、确定调查项目,设计调查表; 4、确定调查时间和方法; 5、制定调查工作的组织实施计划 五、统计调查的分类 1、按统计调查方式的不同,可分为定期统计报表和专门调查; 2、按调查总体包括的范围不同,可分为全面调查和非全面调查; 3、按调查登记的时间是否具有连续性,可分为经常性调查和一次性调查; 4、按统计调查是否具有强制性,可分为政府统计调查、民间统计调查和涉外社会调查; 5、按收集资料的方法,可分为直接观察法、报告法、采访法和问卷法

统计学期末考试试题(含答案)

西安交大统计学考试试卷 一、单项选择题(每小题2分,共20分) 1.在企业统计中,下列统计标志中属于数量标志的是(C) A、文化程度 B、职业 C、月工资 D、行业 2.下列属于相对数的综合指标有(B ) A、国民收入 B、人均国民收入 C、国内生产净值 D、设备台数 3.有三个企业的年利润额分别是5000万元、8000万元和3900万元,则这句话中有(B)个变量? A、0个 B、两个 C、1个 D、3个 4.下列变量中属于连续型变量的是(A ) A、身高 B、产品件数 C、企业人数 D、产品品种 5.下列各项中,属于时点指标的有(A ) A、库存额 B、总收入 C、平均收入 D、人均收入 6.典型调查是(B )确定调查单位的 A、随机 B、主观 C、随意D盲目 7.总体标准差未知时总体均值的假设检验要用到(A ): A、Z统计量 B、t统计量 C、统计量 D、X统计量 8. 把样本总体中全部单位数的集合称为(A ) A、样本 B、小总体 C、样本容量 D、总体容量 9.概率的取值范围是p(D ) A、大于1 B、大于-1 C、小于1 D、在0与1之间 10. 算术平均数的离差之和等于(A ) A、零 B、1 C、-1 D、2 二、多项选择题(每小题2分,共10分。每题全部答对才给分,否则不计分) 1.数据的计量尺度包括(ABCD ): A、定类尺度 B、定序尺度 C、定距尺度 D、定比尺度 E、测量尺度 2.下列属于连续型变量的有(BE ): A、工人人数 B、商品销售额 C、商品库存额 D、商品库存量 E、总产值 3.测量变量离中趋势的指标有(ABE ) A、极差 B、平均差 C、几何平均数 D、众数 E、标准差 4.在工业企业的设备调查中(BDE ) A、工业企业是调查对象 B、工业企业的所有设备是调查对象 C、每台设备是 填报单位D、每台设备是调查单位E、每个工业企业是填报单位 5.下列平均数中,容易受数列中极端值影响的平均数有(ABC ) A、算术平均数 B、调和平均数 C、几何平均数 D、中位数 E、众数 三、判断题(在正确答案后写“对”,在错误答案后写“错”。每小题1分,共10分) 1、“性别”是品质标志。(对) 2、方差是离差平方和与相应的自由度之比。(错) 3、标准差系数是标准差与均值之比。(对) 4、算术平均数的离差平方和是一个最大值。(错)

统计学考查内容(资料整理)

《社会经济统计学》考查内容 第一章:绪论 1、统计的含义、研究对象和特点 一、统计的含义:人们对客观事物的数量表现、数量关系和数量变化进行描述和分析的一种计量活动。在不同的场合,统计一词有统计工作、统计资料、统计科学三种含义。 二、统计的研究对象:是统计工作的规律,即搜集、整理和分析统计数据的方法,是一门方法论科学。 三、统计的特点:1)数量性(最基本特点);2)具体性;3)综合性(或者总体性)。 2、统计学的基本概念:总体、总体单位、标志、指标、变量 一、总体:在某种共性的基础上由许多个别事物结合起来的整体。其特征1)同质性;2)大量性;3)差异性。 二、总体单位:构成总体的个别事物。 三、标志:指说明总体单位特征的名称,由标志名称+标志值构成。其分类:1)品质标志、数量标志;2)不变标志、可变标志(包括变异和变量)。 四、指标:是说明总体数量特征的概念。由指标名称+指标值组成。 五、变量:可变的数量标志。 3、标志和指标的区别和联系 1)区别: ①指标说明总体的特征;而标志说明总体单位的特征 ②指标只反映总体的数量特征;标志既可以反映总体单位的数量特征,也可以反映总体单位的品质特征 2)联系:指标的数值是由总体各单位的数量标志的标志值汇总而得到的 第二章:统计数据的搜集、整理和显示 第一节统计调查 一、普查:是指为搜集某种社会经济现象在某时某地的情况而专门组织的一次性全面调查。特点:涉及面广、工作量大、时间性强、耗费较多、组织工作复杂。 二、随机抽样调查:是指按随机原则从总体中抽取部分单位进行调查,并借以推断和认识总体的一种统计方法。特点:最科学的非全面调查。 三、非随机抽样调查:是指调查者有意识地或随意而非随机地从总体中抽取部分单位进行调查的统计方法。特点:一般不用于推算总体指标。 1)重点抽样,是指只对总体中为数不多但影响颇大的重点单位进行研究的一种非全面调查。特点:以较少的人力、物力和财力,几时地掌握总体的基本情况及其发展变化的基本趋势。 2)典型抽样,是指根据对调查对象的初步了解,有意识地从中挑选具有代表性的单位进行研究的一种非全面调查。 四、定期统计报表:是指按国家统一规定的指标体系、表格形式、报送程序和报送时间,定期地自下向上地向国家和上级主管部门报送统计资料的一种统计调查形式。 第二节统计整理 一、统计整理的分组:

统计学知识点梳理

复习提纲:(计算部分全用红色标注了!其他红色的是我的推断,可能出什么题型;有下划线的重点记忆!当然整理的知识点都是重点!都要背和理解!Fighting!) 第一章绪论 一.统计的含义 即统计工作、统计资料和统计学 统计工作:统计实践活动,搜集,整理,分析和提供关于社会现象数字资料工作总称 统计资料:统计实践活动过程中所取得的各项资料,包括原始资料和加工整理资料 统计学:关于认识客观现象总体数量特征和数量关系的科学 二.统计工作过程 就一次统计活动来讲,一个完整的认识过程一般可以分为统计调查、统计整理和统计分析三个阶段。

统计调查:第一阶段,是认识客观经济现象的起点,是统计整理和统计分析的基础。 统计整理:第二阶段,处于统计工作的中间环节,起着承前启后的作用。 统计分析:第三阶段,通过第三阶段,事物由感性认识上升到理性认识。 三.总体与总体单位(会辨析总体与总体单位即可) 总体,亦称统计总体,是指客观存在的、在同一性质基础上结合起来的许多个别单位的整体;构成总体的这些个别单位称为总体单位。 总体由总体单位构成,要认识总体必须从总体单位开始,总体是统计认识的对象。 例如:所有的工业企业就是一个总体,其中的每一个工业企业就是一个总体单位。 四.标志和指标 标志是用来说明总体单位特征的名称。 指标,亦称统计指标,是说明总体的综合数量特征的。一个完整的统计指标包括数量指标名称和指标数值两部分。(以上内容理解即可) 1.指标和标志的区别和联系(简答) 指标与标志的区别:(1)指标是说明总体特征的,而标志是说明总体单位特征的;(2)指标都能用数值表示,而标志中的品质标志不能用数值表示,是用属性表示的;(3)指标数值是经过一定的汇总取得的,而标志中的数量标志不一定经过汇总,可直接取得;(4)一个完整的统计指标,一定要讲时间、地点、范围,而标志一般不具备时间、地点等条件。 指标与标志的联系:(1)有许多统计指标的数值是从总体单位的数量标志值汇总而来的;(2)两者存在着一定的变换关系,即由于研究目的不同,原来的统计总体如果变成总体单位了,则相应的统计指标也就变成数量标志了。 2.标志与标志值(会区分) 标志分为品质标志和数量标志,数量标志用来说明总体单位量的特征,可以用数值表示,即为标志值(如:年龄、工资额、身高) 3.变异与变量(会什么是变异,什么是变量) 变异:品质标志在总体单位之间的不同具体表现。如:性别表现为男、女,民族表现为汉、满、蒙等。 变量:数量标志抽象化即为变量,而数量标志的不同具体表现则称为变量值(或标志值)。如:某职工的年龄是42岁,月工资2200元。 4.统计指标的划分 (1)统计指标按其所反映的总体内容的不同,可分为数量指标和质量指标。数量指标指说明总体规模和水平的各种总量指标。质量指标指反应现象总体的社会经济效益和工作质量的各种相对指标和平均指标。 (2)统计指标按其作用和表现形式的不同,有总量指标(绝对数)、相对指标(绝对数)、平均指标(平均数)三种。 第二章统计调查与整理 一.统计调查的含义 统计调查是统计工作过程的第一阶段。它是按照统计任务的要求,运用科学的调查方法,有组织的向社会实际搜索各项原始资料的过程。统计调查是整个统计认识活动的基础,决定着统计认识过程及其结果的成败。 二.统计调查方案设计的内容+调查对象、调查单位的含义 ⒈确定调查目的;(为什么调查) 根据实际需要和可能确定

统计学考试试题及答案

统计学考试试题及答案文件编码(008-TTIG-UTITD-GKBTT-PUUTI-WYTUI-8256)

《统计学原理》期末考试题 一、单选题{每小题2分,共12分} 1.对某城市工业企业未安装设备进行普查,总体单位是(B )。 A.工业企业全部未安装设备 B.工业企业每一台未安装设备 C.每个工业企业的未安装设备 D.每一个工业企业 2.反映不同总体中同类指标对比的相对指标是( B)。 A.结构相对指标 B.比较相对指标 C.强度相对指标 D.计划完成程度相对指标 3.在组距分组时,对于连续型变量,相邻两组的组限(A ) A.必须是重叠的 B.必须是间断的 C.可以是重叠的,也可以是间断的 D.必须取整数 4.按随机原则直接从总体N个单位中抽取n个单位作为样本,这种抽样组织形式是(A)。 A.简单随机抽样 B.类型抽样 C.等距抽样 D.整群抽样 5.在其它条件不变的情况下,抽样单位数增加一半,则抽样平均误差(A ) A.缩小为原来的% B.缩小为原来的50% C.缩小为原来的25% D.扩大为原来的四倍 6.下列哪两个变量之间的相关程度高(C )。 A.商品销售额和商品销售量的相关系数是0. 9 B.商品销售额与商业利润率的相关系数是0. 84 C.平均流通费用率与商业利润率的相关系数是一 D.商品销售价格与销售量的相关系数是一

二、多选题(每小题2分,共8分) 1.要了解某地区的就业情况( ABE) A.全部成年人是研究的总体 B.成年人口总数是统计指标 C.成年人口就业率是统计标志 D.反映每个人特征的职业是数量指标 E.某人职业是教师是标志表现 2.影响加权算术平均数的因素有(AB ) A.各组频率或频数 B.各组标志值的大小 C.各组组距的大小 D.各组组数的多少 E.各组组限的大小 3.简单随机抽样(ACDE ) A.适用于总体各单位呈均匀分布的总体 B.适用于总体各单位标志变异较大的总体 C.在抽样之前要求对总体各单位加以编号 D.最符合随机原则 E.是各种抽样组织形式中最基本最简单的一种形式 4.下面哪几项是时期数列(BC ) A.我国近几年来的耕地总面积 B.我国历年新增人口数 C.我国历年图书出版量 D.我国历年黄金储备 E.某地区国有企业历年资金利税率 三、填空题(每小题2分.共10分) 1.变量按其取值的连续性可分为(离散变量)和(连续变量)两种。 2.统计调查根据(被研究总体范围)可分为全面调查和非全面调查,根据(调查登记时间是否连续)可分为连续调查和不连续调查。 3.总体是非标志(0,1)分布的平均数为P ,方差为P(1-P)。

《统计学》考试大纲

《统计学》考试大纲 一、考试性质与评价目标 2020年应用统计专业硕士研究生入学考试科目《统计学》是应用统计专业硕士生入学考试科目之一,是教育部授权的应用统计专业硕士生招生院校自行命题的选拔性考试科目,满分均为150分。统计学是研究随机现象数量规律性的方法论科学,是对客观现象进行定量分析的重要工具。《统计学》考试目的是测试考生掌握统计学的基本概念、基本方法与技巧,以及应用它们解决实际问题的能力。《统计学》考试大纲力求能够较充分地反映本专业学位的特点,科学、公平、准确、规范地测评考生是否具备攻读应用统计专业硕士所必须的基本素质、一般能力和培养潜能,以利用选拔具有发展潜力的优秀人才入学,为国家培养具有较强分析与解决实际问题能力的高层次、应用型、复合型的统计专业人才。考试要求是测试考生掌握数据处收集、处理和分析的一些基本统计方法。 具体要求考生: 1.掌握数据收集和处理的基本分方法。 2.掌握统计学的基本方法与技巧。 3.掌握了基本的概率论知识。 4.初步具备应用统计分析、统计推断和统计预测等知识解决实际问题能力。 二、考试内容 《统计学》考试由“统计基本概念”、“统计推断”和“统计分析应用”三部分组成。 统计基本概念包括:统计数据及其分类,统计调查的组织形式,数据整理,频数分布,各种数值算术平均数、加权平均数、标准差、众数、中位数,偏度和峰度等;统计量及其分布。(30分) 统计推断理论包括:事件及关系和运算、事件的概率、条件概率和全概公式、离散型随机变量的分布列和分布函数,二项分布和泊松分布;连续型随机变量的概率密度函数和分布函数,均匀分布、正态分布和指数分布随机变量的期望与方差。随机变量及其概率分布,大数定律及中心极限定理,三个常用的抽样分布(χ2—分布、t—分布和F—分布);参数的点估计(矩估计和极大似然估计)及其优良性评判,正态总体参数的区间估计;假设检验的一

统计学原理考试知识点整理

第1章 绪论 1、统计的含义统计一词最基本的含义是对客观事物的数量方面进行核算和分析,是人们对客观事物的数量表现、数量关系和数量变化进行描述和分析的一种计量活动。 2、统计的特点P3 数量性 具体性 综合性 3、统计学的若干基本概念 总体与总体单位P10: 总体是指在某种共性的基础上由许多个别事物结合起来的整体,构成总体的个别事物叫总体单位; 总体的特征:同质性,大量性,差异性;总体的分类:有限总体与无限总体;标志、变异与变量P10: 标志,是指说明总体单位特征的名称。变异:总体单位之间品质和数量上的差异,即可变标志在总体各单位之间所表现出的差异。变量:可变的数量标志。 连续型变量与离散型变量联系和区别:连续型:变量值可作无限分割的变量离散型:变量值只能以整数出现的变量指标与标志P11 (指标,说明总体数量特征的概念)区别:第一,指标说明总体的特征,而标志则说明总体单位的特征。第二,指标只反映总体的数量特征,所有指标都要用数字来回答问题,没有用文字回答问题的指标。而标志既有反映数量也有反映品质。 第2 章统计调查 1、统计调查的含义及其在统计工作中的地位P13 含义:根据统计研究的目的,有组织、有计划地搜集统计资料的过程地位:是统计工作的第一阶段,是整个统计工作的基础一环 2、统计调查的基本原则P13-14 一、要实事求是,如实反映情况 二、要及时反映,及时预报 三、要数字与情况相结合 3、统计调查的组织形式:普查P14:含义:为搜集某种社会经济现象在某时某地的情况而专门组织的一次性全面调查、优缺点:,适用场合:主要用于一些重要项目呢的调查,如人口普查、耕地普查、基本单位普查、工业普查和库存普查等; 随机抽样调查P14:含义(按随机原则(机会均等原则)从总体中抽取部分单位进行调查,并借以推断和认识总体的一种统计方法)以及具体的抽样方法【第七章】系统抽样、多阶 简单随机、分层抽样、整群抽样、 段抽样)及适用场合;非随机抽样:含义(调查者有意识地或随意而 非随机地从总体中抽取部分单位进行调查的统计方法)以及具体的抽样方法P15 (重点抽样:只对总体中为数不多但影响颇大的重点单位进行研究的一种非

西南财经大学2019统计学432考试大纲

2019年全国硕士研究生入学统一考试 应用统计硕士专业学位《统计学》考试大纲 Ⅰ考核目标 《统计学》考试是为高等院校和科研院所招收应用统计硕士生而设置的具有选拔性质的考试科目。其目的是科学、公平和有效地测试考生是否具备攻读应用统计专业硕士所必须的基本素质、一般能力和培养潜能,以便选拔具有发展潜力的优秀人才入学,为国家的经济建设培养具有良好职业道德、法制观念和国际视野、具有较强分析与解决实际问题能力的高层次、应用型、复合型的统计专业人才。考试要求是测试考生掌握数据收集、处理和分析的一些基本统计方法。 具体来说。要求考生具有以下的能力: 1.能熟练掌握数据收集、整理和分析的基本方法。 2.具有运用统计方法分析数据和解释数据的基本能力。 3.能掌握基本的概率论知识,并将其应用于推断统计中。 Ⅱ考试形式 一、试卷满分及考试时间 试卷满分为150分,考试时间180分钟。 二、答题方式 答题方式为闭卷笔试。 Ⅲ考试主要范围 一、描述统计与数理统计学部分 1.统计调查的组织和实施; 2.抽样调查的基本理论; 3.用图表展示定性数据的方法; 4.用图表展示定量数据的方法; 5.用统计量描述数据的分布特征:平均数、中位数、分位数和众数;

6.用统计量描述数据的差异:方差和标准差 7.参数估计的基本原理,一个总体参数的区间估计; 8.样本量的确定; 9.假设检验的基本原理和基本步骤; 10.一个总体参数的假设检验; 11.方差分析的基本原理; 12.单因素和双因素方差分析的实现和结果解释; 13.变量间的关系、相关关系和函数关系的差别,相关关系的检验; 14.一元线性回归模型的估计和检验; 15.多元线性回归模型的估计和检验; 16.时间序列的指标分析法与组成要素分析; 17.统计指数理论和编制方法; 18.多指标综合评价。 二、概率论部分 1.事件及关系和运算; 2.事件的概率; 3.条件概率、全概率公式和贝叶斯公式; 4.随机变量的定义; 5.离散型随机变量的分布列和分布函数:离散型均匀分布、二项分布和泊松分布; 6.连续型随机变量的概率密度函数和分布函数:均匀分布、指数分布、正态分布; 7.随机变量的期望与方差;

卫生统计学知识点总结

卫生统计学知识点总结-CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN

卫生统计学 统计工作基本步骤:统计设计(调查设计和实验设计)、资料分析{收集资料、整理资料、分析资料【统计描述和统计推断(参数估计和假设检验)】。 ★统计推断:是利用样本所提供的信息来推断总体特征,包括:参数估计和假设检验。a参数估计是指利用样本信息来估计总体参数,主要有点估计(把样本统计量直接作为总体参数估计值)和区间估计【按预先设定的可信度(1-α),来确定总体均数的所在范围】。b假设检验:是以小概率反证法的逻辑推理来判断总体参数间是否有质的区别。 变量资料可分为定性变量、定量变量。不同类型的变量可以进行转化,通常是由高级向低级转化。 资料按性质可分为计量资料、计数资料和等级资料。 定量资料的统计描述 1频率分布表和频率分布图是描述计量资料分布类型及分布特征的方法。离散型定量变量的频率分布图可用直条图表达。 2频率分布表(图)的用途:①描述资料的分布类型;②描述分布的集中趋势和离散趋势;③便于发现一些特大和特小的可疑值;④便于进一步的统计分析和处理;⑤当样本含量足够大时,以频率作为概率的估计值。 ★3集中趋势和离散趋势是定量资料中总体分布的两个重要指标。 (1)描述集中趋势的统计指标:平均数(算术均数、几何均数和中位数)、百分位数(是一种位置参数,用于确定医学参考值范围,P50就是中位数)、众数。算术均数:适用于对称分布资料,特别是正态分布资料或近似正态分布资料;几何均数:对数正态分布资料(频率图一般呈正偏峰分布)、等比数列;中位数:适用于各种分布的资料,特别是偏峰分布资料,也可用于分布末端无确定值得资料。 (2)描述离散趋势的指标:极差、四分位数间距、方差、标准差和变异系数。四分位数间距:适用于各种分布的资料,特别是偏峰分布资料,常把中位数和四分位数间距结合起来描述资料的集中趋势和离散趋势。方差和标准差:都适用于对称分布资料,特别对正态分布资料或近似正态分布资料,常把均数和标准差结合起来描述资料的集中趋势和离散趋势;变异系数:主要用于量纲不同时,或均数相差较大时变量间变异程度的比较。 标准差的应用:①表示变量分布的离散程度;②结合均数计算变异系数、描述对称分布资料;③结合样本含量计算标准误。 定性资料的统计描述 1定性资料的基础数据是绝对数。描述一组定性资料的数据特征,通常需要计算相对数。定性变量可以通过频率分布表描述其分布特征。 2 指标频率型指标强度型指标相对比型指标 概念近似反映某一时间出现概率单位时间内某现象的发生 率 两个有关联的指标A和B之比 计算 公式 A/B 有无 量纲 无有可有、可无 取值 范围 【0,1】可大于1无限制 本质大样本时作为概率近似值分子式分母的一部分频率强度,即概率强度的 似 值 表示相对于B的一个单位,A有多少 位 A和B可以是绝对数、相对数和平均

2018年【统计学原理】考试必备知识点复习考点归纳总结(计算题)(新)1

统计学原理复习(计算题) 1.某单位40名职工业务考核成绩分别为: 68 89 88 84 86 87 75 73 72 68 75 82 97 58 81 54 79 76 95 76 71 60 90 65 76 72 76 85 89 92 64 57 83 81 78 77 72 61 70 81 单位规定:60分以下为不及格,60─70分为及格,70─80分为中,80─90 分为良,90─100分为优。 要求: (1)将参加考试的职工按考核成绩分为不及格、及格、中、良、优五组并 编制一张考核成绩次数分配表; (2)指出分组标志及类型及采用的分组方法; (3)计算本单位职工业务考核平均成绩 (4)分析本单位职工业务考核情况。 解:(1) (2)分组标志为"成绩",其类型为"数量标志";分组方法为:变量分组中的开放组距式分组,组限表示方法是重叠组限; (3)本单位职工业务考核平均成绩 (4)本单位的职工考核成绩的分布呈两头小, 中间大的" 正态分布"的形态,说明大多数职工对业务知识的掌握达到了该单位的要求。 2.2004年某月份甲、乙两农贸市场农产品价格和成交量、成交额资料如下: 试问哪一个市场农产品的平均价格较高?并说明原因。 解:

解:先分别计算两个市场的平均价格如下: 甲市场平均价格()375.14 5 .5/==∑∑= x m m X (元/斤) 乙市场平均价格325.14 3.5==∑∑=f xf X (元/斤) 说明:两个市场销售单价是相同的,销售总量也是相同的,影响到两个市场 平均价格高低不同的原因就在于各种价格的农产品在两个市场的成交量不同。 3.某车间有甲、乙两个生产组,甲组平均每个工人的日产量为36件, 标准差为9.6件;乙组工人日产量资料如下: 要求:⑴计算乙组平均每个工人的日产量和标准差; ⑵比较甲、乙两生产小组哪个组的日产量更有代表性? 解:(1) 50.291001345343538251515=?+?+?+?== ∑∑f xf X (件) 986.8) (2 =-= ∑∑f f X x σ(件) (2)利用标准差系数进行判断: 267.0366.9===X V σ甲 305.05 .29986.8===X V σ乙 因为0.305 >0.267 故甲组工人的平均日产量更有代表性。 4.某工厂有1500个工人,用简单随机重复抽样的方法抽出50个工人作为样本,调查其月平均产量水平,得每人平均产量560件,标准差32.45 要求:(1)计算抽样平均误差(重复与不重复);

相关文档
相关文档 最新文档