当前位置：文档视界 › 医学统计学

医学统计学

第一单元概述

1.研究设计应包括那几方面内容？

答：包括：专业设计和统计设计。

专业设计是针对专业问题进行的研究设计，如选题、形成假说等。统计设计是针对统计数据收集和分析进行的设计，如样本来源、样本量等。统计设计是统计分析的基础。任何设计上的缺陷，都不能在统计分析阶段弥补和纠正。

第二单元资料描述性统计

1.描述计量资料的集中趋势和离散趋势的指标有哪些？各指标的适用范围如何？

答：集中趋势的指标有：算术均数、几何均数、中位数。算术均数适用于描述对称分布资料的集中位置，尤其是正态分布资料；几何均数用来描述等比资料和对数正态分布资料的集中位置；中位数可用于任何资料。

描述离散趋势有：极差、四分位数间距、方差、标准差和变异系数。极差和四分位数间距可用于任何分布，但两个指标都不能反映变异程度；方差和标准差常用于资料为近似正态分布；变异系数可用于多组资料间量纲不同或均数相差较大时变异程度间的比较。

2.变异系数和标准差有何区别和联系？

答：区别：1.计算公式不同：CV=S/X*100%，标准差是方差的平方根。2.单位不同：变异系数无量纲，标准差量纲和原指标一致。3.用途不同。联系：都是适用于对称分布的资料，尤其是正态分布的资料，并且由公式所知，在均数一定时，CV与s呈正比。

3.频数表的用途有哪些？

答：1.描述资料的频数分布的特征；2.便于发现一些特大或特小的可疑值；3.将频数表作为陈述资料的形式，便于进一步的统计分析和处理；4.当样本量足够大时，可以以频数表作为概率的估计值。

4.用相对数时应注意哪些问题？

答：1.在实践工作中，应注意各相对数的含义，避免以比代率的错误现象。2.计算相对数时分母应该有足够的数量，如资料的总数过少，直接报告原数据更为可取。3.正确计算频数指标的合并值。4.相对数的比较具有可比性。5.在随机抽样的情况下，从样本估计值推断总体相对数应该考虑抽样误差，因此需要对相对数指标进行参数估计和假设检验。

第三单元医学统计推断基础

1.正态分布和标准正态分布的联系和区别？

答：联系：均为连续型随机变量分布。区别：标准正态分布是一种特殊的正态分布（均数为0，标准差为1）。一般正态分布变量经标准化转换后的新变量服从标准正态分布。

4.简述二项的应用条件？

答：条件为：1.每次试验只会发生两种互斥的可能结果之一，即两种互斥结果的概率之和为1；2.每次试验产生某种结果固定不变；3.重复试验是相互杜立的，即任何一次试验结果的出现不会影响其他试验结果的概率。

5.简述Q-Q图法的基本原理？

答：u－变换可以把一个一般正态分布变量变换为标准正态分布变量，反之，u－变换的逆变换也可以把一个标准正态分布变量变换为一个正态变量。Q-Q图法实际上就是首先求的小于某个x的积累频率，再通过该积累频率求得相应的u值，如果该变量服从正态分布，则点（u，x）应近似在一条直线上（u－变换直线），否则（u，x）不会近似在一条直线上。Q－Q图法正是根据（u，x）是否近似在一条直线上来判断是否为正态分布。

第四单元参数估计与参考值范围的估计

1.均数的标准差和标准误的区别和联系？

答：区别和联系：标准差是描述个体值变异程度的指标，为方差的算术平方根，该变异不能

通过统计方法来控制；而标准误则是指样本统计量的标准差，均数的标准误实质上是样本均数的标准差，它反映了样本均数的离散程度，也反映了样本均数与总体均数的差异，间接反映了均数的抽样误差大小。

2.简述t分布和标准正态分布间的区别与联系？

答：t分布是进行小样本总体参数区间估计和假设检验的理论基础，t分布比标准正态分布的峰值低，且尾部翘的要高。此外随着自由度的增大，t分布逐渐趋近于标准正态分布，即为自由度趋于无穷时，t分布就是标准正态分布。

3.简述医学中参考值范围的含义和制定参考值范围的一般步骤？

答：含义：医学中把绝大多数正常人的某指标范围称为该指标的参考值范围，也叫正常值范围。步骤：1.定义“正常人”，不同的指标“正常人”的定义也不同；2.选定足够数量的正常人作为研究对象；3.用统一和准确的方法测定相应的指标；4.根据不同的用途选定适当的百分界限，常用95%和99%；5.根据此指标的实际意义，决定用单侧范围还是双侧范围；6.根据此指标的分布决定计算方法，常用的计算方法有正态分布法、百分位数法。

第五单元t检验与单因素方差分析

1.I型错误和II型错误有何区别与联系，这两种错位有何实际意义？

答：I型错误是指实际上成立的H0所犯的“弃真”错误，其概率大小用α表示。II型错误则是指“接受”了实际上不成立的H0所犯的“取伪”错误，其概率大小用β表示。当样本含量n确定时，α愈小，β愈大，反之亦然。意义：若在应用中要重点减少α，则取α＝0.01；若在应用中要重点减少β，则取α＝0.05，0.10，0.20甚至更高。

2.假设检验和区间估计有何联系？

答：联系在于可信区间亦可以回答假设检验的问题，在判断两个或多个总体参数是否相等时，假设检验和可信区间是完全等价的。

3.为什么假设检验的结论不能绝对化？

答：因为通过假设检验的结论具有概率性，其结论不可能完全正确，有可能发生两类错误。拒绝H0是可能犯I型错误；接受H0时可能犯II型错误。因此不能在结论中使用绝对化字词如“肯定”等。

5.如何正确选取单侧或双侧检验？

答：单双侧检验首先应根据专业知识来确定，同时也应该考虑所要解决问题的目的。

1.若从专业知识判断一种方法的结果可能低于或高于另一种方法的结果，则用单侧检验；

2.在尚不能从专业知识判断两种结果谁高谁低时，用双侧检验；

3.若研究者对低于或高于两种结果都关系，用双侧检验；若只关系其中一种可能，用单侧检验。一般认为双侧检验较保守和稳妥；单侧检验由于充分利用了另一侧的不可能性，故更易得出有差别的结论，但应慎用。

6.两样本t检验的应用条件？

答：条件为：两样本相互独立的；所来自的总体为正态总体；两总体方差相等。

7.方差分析的应用条件？

答：条件是：1.各样本是相互独立的随机样本，均服从正态分布；2.相互比较的各样本的总体方差相等，即具有方差齐性。

第六单元列联表分析

1.R*C表的卡方检验中，对于理论频数太小的情况应如何处理？

答：处理方法：1.增加样本含量，以达到增大理论频数的目的，该方法为首先；2.根据专业知识，删除理论频数太小的格子所对应的行或列，可能损失样本信息或随机性，慎用；3.根据专业知识，将理论频数太小的格子所对应的行或列与性质相近的或邻列合并，使重新计算的理论频数变大，但要合并的合理；4.改用双向无序的R*C表的Fisher确切概率法，该方法计算复杂，需要SAS软件实现。

第七单元非参数统计分析方法

1.简述非参数检验的应用条件？

答：条件：1.资料不符合参数统计法的应用条件或总体分布类型未知；2.等级资料；3.个别数值偏大或某一端为不确定数如<0.01；4.在资料满足参数统计的要求时，应首选参数法，以免降低检验效能。

4.对同一资料，又出自同一研究目的，用参数统计和非参数统计所得结果不一致时，应以何种结果为准？

答：两种方法各有适用的条件。如果资料符合参数统计的要求，如满足正态、方差齐性等条件，以参数统计的结果为准；如果资料不符合参数统计的应用条件，如总体为非正态或分布类型不明确等，以非参数统计的结果为准。

第八单元回归与相关

1.试总结从样本数据判断总体回归关系是否成立的统计方法有哪些？

答：用tb、tr作t检验，用F对b作方差分析，直接查r界值表。

2.直线相关与秩相关的区别与联系：

答：二者的联系（1）：两者嗦解决的应用问题相同，都可用来表示两个数值变量间关系的方向和密切程度；（2）：两个相关系数都没有单位，取值在【-1,1】之间；（3）：计算上用秩次作直线相关得到的就是秩相关系数数。二者的区别：（1）：资料要求不同，直线相关系数要求x、y从正态分布，秩相关可以是任意分布；（2）：对于资料要求不同，二者分属于参数和非参数统计方法，所以符合分布条件时，直线相关的效率高于秩相关；（3）：二者假设检验方法不同。

3.简述直线回归和直线相关的区别与联系

答：区别：（1）资料要求不同，直线回归要求Y服从正态分布，进行回归分析时成为2型回归，直线相关要求XY都服从正态分布，进行回归分析时成为2型回归；（2）：应用目的不同，说明两变量的数量关系用回归分析，说明其关联用相关分析；（3）：意义不同；（4）：计算方法不同；（5）：取值范围不同；（6）：单位不同；二者联系：（1）：方向一致；（2）：假设检验等价；（3）：用回归解释相关，回归平方和越接近总平方和，r2越接近1，说明相关性越好。

4.经检验认为回归方程有意义，是否表明两变量间存在因果关系？

答：两变量间不一定存在因果关系，直线回归定量考察应变量与自变量间的线性关系，统计学检验表明回归方程有意义，只是说明二者数量上的线性关系存在，至于内在联系的性质尚需借助医学专业知识确定。

5.秩相关特别适用于哪些资料？

答：(1)：不服从双变量正态分布而不宜作直线相关分析的资料；(2)：总体分布类型未知的资料；(3)：用等级表示的资料；(4)：分布端点无确定数值的资料；(5)：用相对数表示的资料。

第九章实验设计与调查设计

1.简述试验中对照设立的形式

答：（1）：空白对照是在不施加任何处理的“空白”条件下进行观察的对照；（2）：实验对照是在某种与处理因素有关的实验条件下进行观察的对照；（3）：标准对照是以标准值或正常值作为对照，或对照组采用的处理方法为现有标准方法或常规方法；（4）：潜在对照是不专门设立对照组，而是已过去的间就结果作为对照；（5）：相互对照是不专门设立对照组，各实验组之间互为对照；（6）：安慰剂对照是指对照组采用一种无药理作用的物质，但其剂量或处置上不能为受试者识别，这种物质成为安慰剂。

2.什么是随机化？随机化作用是什么？在整个实验设计和实验过程中如何实验随机化？

答：随机化是使各种对比组间在大量不可控制的非研究因素的分布方面尽量保持均衡一致的重要措施，随机化保证了各对比组间的均衡可比性，也是资料统计分析时进行统计推断的前提。随机化既机会均等，应贯穿实验设计和实施的全过程，具体体现在三方面（1）抽样随机，（2）分组随机；（3）实验顺序随机。

3.常用的抽样方法有那些？

答：（1）单纯随机抽样又称简单随机抽样，其抽样原则是使调查总体中每个观察单位被选入的概率完全相同；（2）系统抽样又称机械抽样或等距抽样，即先将调查总体中得所有观察单位排序后按样本例数分段，并从第一段随机抽取一个单位作为起始点，然后以相同间隔机械的从其他段中各抽取一个观察单位构成样本；（3）分层抽样又称类型抽样或分类抽样，即先将总体中所有观察单位按某项特征或标志划分为若干类型或组别，然后再按随机原则从每一层中抽取若干观察单位组成样本；（4）整群抽样是将总体中所有观察单位按某种属性分成若干群体，然后以“群”为初级抽样单位，从所有群体中随机抽取若干群体，由这些群体中的观察单位构成样本。

第十二单元多元线性回顾与相关分析

1.多元回归中截距和偏回归系数的意义分别是什么？

答：截距b0是多元回归方程的常数项，其意义为当X1,X2,…….Xk为0时，应变量Y的平均值。偏回归系数bj表示在其他自变量固定不变的情况下，Xj每改变一个测量单位时所引起的应变量Y的平均改变量。

2.标准化偏回归系数与偏回归系数有何不同？

答：若先对应变量和自变量均实施标准正态离差交换，然后再建立回归方程，则所得回归方程中的偏回归系数b1’,b2’,…….bk’既为标准化偏回归系数。标准化偏回归系数bj’与其自变量Xj的计量单位无关，可利用bj’绝对值的大小来直接评价Xj对应变量Y的贡献强度，即bj’的绝对值越大，表明Xj对应变量Y的贡献越大。而偏回归系数bj与其变量Xj 的统计单位有关，不能直接用来评价Xj对应变量Y的贡献大小，bj表示在其他自变量固定不变的情况下，Xj每改变一个测量单位时所引起的应变量Y的平均改变量。偏回归系数bj 与标准化偏回归系数bj’间的关系为bj’=bjSj/SY。这里Sj和SY分别为自变量Xj和Y的标准差。

3.多元线性回归分析中，自变量筛选的方法有哪些？你认为哪种更好些？

答：方法有全局择优法、向前选择法、后向选择法、逐步选择法。从理论上讲，全局择优法最好，但由于实际中自变量的数目往往较大，采用全局择优法的计算量非常大，这种情况用逐步选择法较为合适。

4.自变量筛选的检验水准如何把握？

答：对选入和剔除自变量的F检验，可以设置相同和不同的检验水准，一般对于小样本可把a值定为0.10或0.15，对大样本把a值定为0.05.a值定的越小，表示选取自变量的标准越严格，被选入的自变量个数相对越少；反之，a值定的越大，表示选取的标准越宽，被选入的自变量个数越多。

5.多元线性回归分析的前提条件有哪些？

答：1.应变量Y为连续型随机变量；2.自变量之间不存在多重共线性，即自变量之间相对独立；3.自变量与残差是独立的；4.残差服从均数为0，方差为1的正态分布，且各观察值的残差之间的相互独立的。

6.什么是多重共线性？多重共线性对多元线性回归分析的影响是什么？消除多重共线性的方法有哪些？

答：在多元回归分析中，当一个或几个自变量可以有另外的自变量线性表达时，称为该自变量与另外的自变量间存在有多重共线性。如果自变量之间共线性呈高度很高（相关系数接近

于1），使用最小二乘法建立的回归方程可能失效，偏回归系数的估计容易失真且稳定性差。消除的方法有：1.剔除造成共线性的某个自变量；2.将具有多重共线性的变量合并成一个新的变量；3.逐步回归法。

7.多元线性回归可以使用哪些类型的变量？

答：典型的多元线性回归使用的自变量应该是连续的，但是如果自变量中含有分类变量，经过适当的处理后仍然适合作为多元回归分析。1.二分类变量可以直接使用。2.如果自变量是一个有序分类变量，则可以根据不同级别赋予不同分数后按连续变量处理，也可以按名义分类变量的方式处理。3.如果自变量是一个名义分类变量可将其转化为若干个二分类变量后进行处理。

8.如何评价所建立的多元线性回归方程的优劣？残差分析有何作用？

答：一般情况下，可采用方差分析法和求决定系数R2法，方差分析的F检验是把所有的自变量作为一个整体，检验他们对应变量Y的影响是否有统计学意义，F值越大，则P值越小，表示越有理由拒绝自变量与应变量没有线性关系的无效假设。决定系数R2表示方程中的自变量能够解释应变量Y变化的百分比，其值越接近1，说明模型对数据的拟合程度越好。R2虽然可以直接度量回归方程的合适程度，但也有局限，即便增加一些无统计学意义的变量，其数值也会增加，为此可以选择校正决定系数。残差分析是检查资料是否符合回归模型条件的一种简单方法。通过残差分析，常可以检查出数据模型的错误，如应变量Y与自变量的非线性关系、异方差结构、离群值等。

第十四单元多因素方差分析

1.简述析因设计与正交设计的联系与区别？

答：联系：两者都是多因素设计，即实验至少有两个处理因素，每个处理因素至少有两个水平。区别：析因设计是全面实验，g个处理组是各因素各水平的全面组合；正交设计则是非全面实验，g个处理组是各因素各水平的部分组合。当实验因素较多时，采用正交设计可成倍的减少试验次数。要注意，正交设计之所以能成倍的减少试验次数，是以牺牲分析各处理因素的部分或大部分交互作用为代价的。

2.重复测量数据的主要特征是什么？

答：特征是：1.重复测量设计中“处理”是在区组间随机分配，区组内的各时间点固定的，不能随机分配。2.重复测量设计区组内试验单位彼此不独立。

3.前后测量设计、设立对照的前后测量设计为什么不等同于配对设计和随机区组设计？

答：1.前后测量设计不能同期观察实验结果，虽然可以在前后测量之间安排处理，但本质上比较的是前后差别，推论处理是否有效是有条件的。配对设计中同一对子的两个实验单位可以随机分配处理，两个试验单位同期观察结果,可以比较处理组间差别。2.前后测量设计前后两次观察结果通常与差值不独立，大多数情况第一次观察结果与差值存在负相关的关系。配对t检验和随机区组设计要求同一区组的试验单位的观察结果相互独立的。

4.重复测量设计、随机区组设计、两因素析因试验有何联系与区别？

答：联系：在数据处理时，三者都采取两因素方差分析。区别：实验设计与处理的分配方式不同。重复测量设计在区组间随机分配处理，随机区组设计在去组内随机分配处理，两因素析因设计有两个干预因素，每个试验单位只接受一种处理。

5.重复测量资料方差分析时的前提条件有哪些？

答：进行重复测量方差分析时，除需满足一半方差分析的前提条件即正态性与方差齐姓的要求外，还需满足协方差阵的求对称性或复合对称。判断求对称性通常采用统计软件进行Mauchly检验来完成。

6.简述裂区设计与析因设计的联系与区别？

答：联系：两者都是多因素试验，即试验至少有两个处理因素，每个处理因素至少有两个水

平。区别：析因设计的g个处理全部作用于同一级别的试验单位，如完全随即设计全部作用于一级试验单位，随机区组设计全部作用于二级实验单元；但裂区设计A因素的I个水平只作用于一级试验单位，只有B因素的J个水平作用于二级试验单位。

7.简述嵌套设计与析因设计的联系与区别？

答：联系：两者都是多因素试验。区别：嵌套设计的处理不是各因素各水平的全面组合，而是各因素按其隶属关系系统分组，各因素水平不存在交叉组合。

8.二阶段交叉设计为何要安排清洗期？

答：由于交叉试验处理间的差别是在受试者内进行比较，允许受试者内有较大的个体差异，特别适用于不易控制个体差异的临床试验。一个较为严格的限制条件是前一个试验阶段的处理效应不能传递到下一个试验阶段，即各处理终止后没有残留效应消失，通常称此为清洗期。第十五单元协方差分析

1.协方差的基本思想是什么？它与方差分析有何区别与联系？

答：是将回归分析与方差分析结合起来使用的一种分析方法。基本思想是将未加控制或难以控制的定量变量的影响看作协变量，建立观察变量随协变量变化的回归方程，并利用种回归关系将协变量化为相等后再进行各组观察变量的修正均数间差别假设检验。区别：协方差分析是一种将回归分析和方差分析结合起来的统计分析方法，按方差分析的不同设计类型有相应的协方差分析方法，协变量也可以是一个或多个；联系：其分析原理相近，只是分解变异时多分解出相应的其他因素项。

2.协方差分析时应注意哪些应用条件与问题？

答：条件：1.与方差分析一样要观察变量满足正态性、方差齐性和独立性；2.要求各种样本回归系数本身有统计学意义而且各样本回归系数间差别无统计学意义；3.协变量应是定量变量，且不能是影响处理的变量，也不能受到处理的影响。问题：协方差分析中比较的是修正均数，而修正均数间的差别与实际均数间的差别并不是一回事，采用协方差分析只是作合理的比较。

3.当各比较组协变量之间有明显差别时，能否作协方差分析？

答:不宜作协方差分析。因为修正均数是假设检验变量取值固定在其总均数时的观察变量的均数，当各比较组的协变量均数相差悬殊时，协变量的总均数可能不落在各比较组协变量的实测范围内，这时的修正均数实际上只是对回归线的一种外推，但这种外推是否仍满足线性和平行的条件无人可知，因此可能导致修正均数间的差别不真实，且难以给出较恰当、合理的解释。

4.修正均数在协方差分析中有何意义？

答：协方差分析就是利用协变量X与观察变量Y之间存在的线性回归关系扣除X对Y的影响。所谓修正系数就是就是将各对比组的X化为相等时的Y的均数，以作更合理的比较。

5.避免和扣除协方差变量影响的方法有哪些？

答:方法：1.严格的试验设计，除了所施加的处理因素不同外，要尽可能均衡或控制好其他因素对观察指标的影响；2.可考虑采用协方差分析；3.可采用多元回归分析。

第十六单元Logistic回归分析

1. Logistic回归分析适用于应变量为（A分类值的资料）。

2.在500名病例与500…，可以计算出优势比OR为（A无法计算）。

3. Logistic回归按照反应变量的类型可以分为（D以上都包括）。

4. Logistic回归按照研究设计的类型可以分为（E包括ABC）。

5. Logistic模型参数估计方法(B最大似然函数法)。

1. Logistic回归的参数估计用最大似然函数法，似然函数法基本思路是什么？

答：基本思路是：先建立似然函数或对数似然函数，然后求得似然函数或对数似然函数达到

极大值时参数的取值，称为参数的最大似然函数估计值。

2. Logistic回归模型中偏回归系数Bj的解释意义是什么？

答：意义是在其他自变量固定不变的情况下，自变量Xj的暴露水平每改变一个测量单位时所引起的优势比的似然对数。当Bj>0时，随着Xj的增加，OR值也增加，Xj是危险因素；当Bj<0时，随着Xj的增加，OR值减少，Xj是保护因素。

3. Logistic回归与多元回归有何不同两种方法各有何特点？

答：不同：Logistic回归属于概率型非线性回归，应变量Y是一个二值变量或多分类变量（服从二项分布）；而多元线性回归的应变量一般为连续变量（服从正态分布）。特点:多元线性回归分析既适合大样本资料又可用于小样本资料，但要求对自变量的不同取值，应变量Y 服从正态分布和等方差；Logistic回归除要求应变量为分类变量外，对资料几乎没有什么限制，而且参数具有明确的实际意义，但要求有较大的样本含量。

4. Logistic回归分析可使用哪些类型的自变量？

答：可使用可使用连续型变量、名义变量和有序分类变量。当Logistic回归模型中自变量含有分类变量，需要将分类变量转换为哑变量；若变量既有连续变量又有分类变量，最好将连续变量转化为分类变量去处理，以便解释。

5. Logistic回归主要用于哪种类型的资料？

答：主要用于配对资料的分析。最常用的是每一个匹配组中有一个病例和一个对照，即1：1配对研究。

6.用逐步回归法得到的方程是否最优？为什么？

答：不一定，逐步回归法是一种有进有出的双向筛选方法，虽然能够保证进入方程的每一个自变量具有统计学意义，并可以将一些退化为“不显著”的自变量从方程中剔除，但是没有全面考虑不同自变量间的组合作用，得到的只是一个局部最优的回归方程。

第十七单元：生存分析

1.生存分析中出现截尾数据常见的原因有哪些？

答：原因有：1.失访；2.退出；3.终止。

2.生存率和生存概率的区别和联系：

答：区别：生存概率，记为p，表示在某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小；生存率，记为S（k），是指观察对象活过tk时刻的概率，实质上是累积生存概率。联系：生存概率是单个时段的概率，生存率是从0到tk多个时段的积累结果。3.为什么两个样本比较的生存时间资料不适宜采用t检验或卡方检验进行分？

答：因为随访资料具有特殊性，观察对象既有随访结果又有随访时间，随访期间可能有失访等情况出现，生存时间时间不完整，分布类型复杂，因而不能简单的套用t检验或卡方检验进行分析。

4.一个完整的生存分析资料应包括哪些内容？基本要求是什么？

答：包括的内容有:1.每个观察对象的开始随访时间，如入院时间、确诊时间等。2.随访结局以及终止随访时间，如以死亡为终点事件，随访结局可能有以下几种：死亡、失访、死于其他原因、随访结束时观察对象仍然存活。3.可能影响生存的有关因素，如患者的年龄、性别、病程、病情，癌症分期等。

5.Cox回归与Logisitic回归都可用于临床研究中的预后分析，二者的主要区别是？

答：Logisitic回归模型可以用于多因素预后分析，控制混杂因素效应，并可进行优势比OR 估计，但不能处理随访中常见的删失数据。另外Logisitic回归模型仅考虑随访结局，而未考虑出现该结局的时间长短。Cox比例风险回归模型的应变量是观察结局和有关时间，它不仅从结局的好坏，而且可以从出现改结局的时间长短进行分析比较，并可进行相对危险度RR的估计，因而Cox回归具有Logisitic回归模型的所有优点，并可处理删失数据，特别适

用于长期随访资料的分析，如肿瘤及慢性病的预后分析。但当数据删失较少或终点事件较少时，宜用Logisitic回归。

6.生存分析的主要用途及其统计学方法有哪些？

答：意义：1.估计，根据样本生存资料估计总体生存率及其他生存指标，估计生存率常用乘积限法和寿命表法。2.比较，Log－rank检验可用于两组或多组生存率的整体比较。3.影响因素分析，目的是为了探索和了解影响生存时间长短和生存率的因素。Cox回归模型是目前多因素生存分析的最主要方法。4.预测，具有不同因素水平的个体生存预测。借助Cox回归模型。

医学统计学课件：2统计描述

1、这150名正常成年男子红细胞数的平均水平是多少，变异度有多大？ 2、这150名正常成年男子红细胞数与当地成年男子红细胞数总体相比是否有差别？一、频数分布表表4-3 某地150名正常成年男子红细胞数（10 3.98 5.39 4.54 4.74 5.13 4.43 4.81 4.98 3.79 5.49 4.66 5.26 4.90 4.90 4.17 4.28 4.63 4.94 4.33 4.84 4.75 4.01 4.49 4.57 5.16 5.69 4.84 5.03 5.32 4.54 4.68 4.60 4.39 4.80 4.97 4.80 4.85 5.21 4.45 4.62 5.05 4.13 5.07 4.40 5.08 4.73 5.10 4.73 4.42 4.81 4.98 3.89 5.46 4.53 4.74 4.10 4.90 4.91 4.27 4.29 4.66 5.23 5.31 4.86 4.67 4.43 4.57 5.00 5.16 5.69 4.83 5.04 4.46 4.61 5.00 4.36 4.75 4.96 5.04 5.37 4.95 4.70 4.83 4.42 4.13 4.78 4.86 4.78 5.23 4.78 5.20 4.80 4.55 4.82 4.98 3.94 4.54 4.74 5.10 4.43 4.58 4.99 4.31 4.64 4.66 5.26 5.28 4.83 4.15 4.35 4.93 5.17 5.61 4.87 5.04 3.98 4.48 4.57 4.77 4.11 4.95 5.00 5.36 5.06 4.68 4.63 4.40 5.30 4.97 5.29 4.85 5.88 4.49 4.62 4.53 4.10 4.53 4.70 4.80 5.23 5.67 4.67 4.67 5.40 5.29 4.77 5.38 5.15 4.64 5.19

医学统计学题库1

绪论知识点 1. 只要增加例数就可以避免抽样误差。 A. + B. – 2. 等级资料也可认为是一种计数资料。 A. + B. - 3. 概率的取值一定在0～1范围内，频率的取值则不一定。 A. + B. - 4. 客观事物中同质是相对的，变异是绝对的。 A. + B. - 5. 观察单位数不确定的总体称为有限总体。 A. + B. - 6. 统计量针对于样本，参数针对于总体。 A. + B. - 7. 统计描述就是用样本推断总体的统计过程。 A. + B. - 8. 有序分类资料就是等级资料。

A. + B. - 9. 统计分析一般包括统计描述和统计推断。 A. + B. - 10. 如果对全部研究对象都进行了调查或测定就没有抽样误差。 A. + B. - 11. 对于统计资料的描述可用统计指标和统计图表两种手段。 A. + B. - 12. 有序变量也称连续型变量，变量值可取连续不断的实数。 A. + B. - 13. 分类资料中的各类别必须互相排斥，不能相互包含。 A. + B. - 14. 离散变量在数值很大时可以取小数值，可近似地看成连续型变量。 A. + B. - 15. 统计指标是用来综合说明总体某一特征的，而标志是说明个体某一特征的。

A. + B. - 16. 若以舒张压>90mmHg为高血压,调查某地1000人中有多少个高血压患者, 这是________。 a．计量资料b．还不能决定是计量资料还是计数资料 c．计数资料d．既可作计量也可作计数资料 e．等级资料 17. 某医院用一种中草药治疗9名高血压病人，治疗前后的舒张压见下表。病人号 1 2 3 4 5 6 7 治疗前 11 5 11 12 9 11 11 6 10 9 10 9 治疗后 11 6 90 10 8 92 90 11 0 87 欲比较治疗前后有无差异, 这是_________。 a．计量资料b．还不能决定是计量资料还是计数资料 c．计数资料d．既可作计量也可作计数资料e．等级资料 18. 一批病人的血球沉降率（%）是________。 a．计量资料b．还不能决定是计量资料还是

医学统计知识点整理(1)

医学统计学知识点整理第一节统计学中基本概念一、同质与变异同质：统计研究中，给观察单位规定一些相同的因素情况。如儿童的生长发育，规定同性别、同年龄、健康的儿童即为同质的儿童。变异：同质的基础上个体间的差异。 “同质”是相对的，是客观事物在特定条件下的相对一致性，而“变异”则是绝对的二、总体与样本 1、总体：是根据研究目的所确定的，同质观察对象（个体）所构成的全体。 2、样本：是从总体中随机抽取的部分观察单位变量值的集合。三、参数与统计量总体参数：根据总体个体值统计计算出来的描述总体的特征量。用希腊字母表示。μ.δ.π 样本统计量：根据样本个体值统计计算出来的描述样本的特征量。用拉丁字母表示。X.S.p 总体参数一般是不知道的，抽样研究的目的就是用样本统计量来推断总体参数，包括区间估计和假设检验四、误差：实测值与真值之差★ 1.随机误差：是一类不恒定的、随机变化的误差，由多种尚无法控制的因素引起。随机测量误差、抽样误差。 2.系统误差：是一类恒定不变或遵循一定变化规律的误差，其产生原因往往是可知的或可能掌握的。 3.非系统误差：过失误差，可以避免或清除。五、概率是用来描述事件发生可能性大小的一个量值，常用P表示。概率取值0~1。统计上一般将P≤0.05或P≤0.01的事件称为小概率事件，表示其发生的概率很小，可以认为在一次抽样中不会发生。第二节统计资料的类型★

变量：确定总体之后，研究者应对每个观察单位的某项特征进行观察或测量，这种特征能表现观察单位的变异性，称为变量。一、数值变量资料又称为计量资料、定量资料：观测每个观察单位某项指标的大小而获得的资料。表现为数值大小，带有度、量、衡单位。如身高（cm）、体重(kg)、血红蛋白（g）等。二、无序分类变量资料又称为定性资料或计数资料：将观察对象按观察对象的某种类别或属性进行分组计数，分组汇总各组观察单位后得到的资料。分类：二分类：+ -；有效，无效；多分类：ABO血型系统特点：没有度量衡单位，多为间断性资料【例题单选】某地A、B、O、AB血型人数分布的数据资料是( ) A.定量资料 B.计量资料 C.计数资料 D.等级资料【答案】C 【解析】ABO血型系统人数分布资料属于无序分类变量资料，又称为计数资料。因为是按照变量的血型分类，血型表现为互不相容的属性。所以本题选C。【例题单选】测量正常人的脉搏数所得的变量是（） A.二分类变量 B.多分类变量 C.定量变量 D.定性变量【答案】C 【解析】脉搏数有数值大小，有度量衡，所以这个资料属于定量资料。本题选C。三、有序分类变量资料半定量资料或等级资料：将观察对象按观察对象的某种属性的不同程度分成等级后分组计数，分组汇总各组观察单位后得到的资料。特点：每一个观察单位没有确切值，各组之间有性质上的差别或程度上的不同举例：- + ++ +++ 第三节统计工作的基本步骤★ 1.统计设计 2.收集资料

医学统计学教学大纲

医学统计学教学大纲一、课程的性质、任务《医学统计学》是开展医学研究的重要手段，是认识和揭示医学领域里各种数量特征的科学分析方法，是使医学科研得以成功的一种重要辅助工具。科技的迅速发展，大量信息的产生要求我们面对纷乱复杂的数据世界能够正确、科学地去认识和处理，医学统计分析是医学生教育培训必修课程，特别是中、高级医学人才的培养，应该使其懂得和掌握一些基本的医学科研设计原则或实验研究方法，能正确处理医学信息和数据，在未来的实践工作中发挥作用。医学统计是一种有力工具。它同科研的总体设计、资料采集、整理、分析直到最后作出结论都有密切关系。掌握了这个工具可以使用较少的人力、物力和时间获得比较可靠的结果。只有正确运用统计分析方法，才不致于造成不应有的缺陷或得出错误的结论。数据作为信息的主要载体广泛存在。我们就要借助统计学这个工具，在混沌中发现规律。统计学就是研究数据及其存在规律的科学。（本大纲规定教学时数为62学时，理论讲授38学时，实习或讨论24学时）二、课程教学目标本教学大纲适用于大专检验专业学生。同学在具备一定医学基础知识后，再通过本课程的学习使学生理解和知道随着现代医学的发展，正确地运用统计学方法和理念，进行实验设计和实验数据处理，系统地学习统计学使学员对医学科研工作的认识和提高自身文化素质和业务水平，具有十分重要的实际意义。大纲中应当体现理论联系实际的原则，教学过程中完全采用医学中的实例，讲述基本概念及基本原理，注意贯彻启发式教学原则，把统计思维方法的训练作为课堂教学的内容，对于统计公式着重讲解其意义、使用方法、应用条件和应用时注意事项，不必追究公式的数学原理和推导过程。本课程通过讲授、课堂实习、课堂讨论，使学生熟悉统计的基本理论、掌握统计方法的应用，通过课后复习、完成作业，加深对基本理论和基本概念的理解，进一步掌握基本方法。理论讲授38学时，实习或讨论24学时【教学内容分作三级要求】第一级是学生必须掌握的内容，教师应于理论课详细讲授，亦为实习课与考试的重点。第二级是要求熟悉的内容，教师应选择性讲授，未讲授部分由学生自学。第三级为一般了解内容，供学有余力的学生自学，教师亦可选择性讲授，但不在考试范围内。三、教学内容和要求

医学统计学章节重点归纳

医学统计学章节重点归纳第一节概述 1、主要内容：a、卫生统计学的基本原理和方法（研究设计和数据处理中的统计理论和方法）b、健康统计（医学人口统计、疾病统计和生长发育统计）c、卫生服务统计（卫生资源、医疗卫生服务的需求和利用、医疗保健制度和管理中的统计问题）。 2、卫生统计工作的步骤：设计、资料的搜集、资料的整理、资料的分析 3、医学统计资料主要四个方面：统计报表、报告卡（单）、日常医疗卫生工作记录，专题研究或实验。 4、观察单位：是获得数据的最小单位，观察单位是根据研究目的确定的，观察单位可以是人、标本、家庭、国家等。 5、变异：是指客观事物的多样性和不确定性。 6、变量：观察单位的某种特征，称为变量。a、数值变量（定量变量）b、分类变量（定型变量或字符变量）。 7、总体：根据研究目的所确定的同质研究对象的全体。确切的说是性质相同的所有观察单位的某种变量的集合。 8、样本：从总体中随机抽取部分观察单位，其变量值就构成样本，通过样本信息来推断总体特征。 9、概率：事件发生的可能性大小的量度，通常以符号P表示。 10、误差：测量值与真值之差或样本指标和总体指标之差。分为随机误差和系统误差。第二节数值资料的统计描述 1、频数分布就是观察值在所取得范围内分布的情况。重要特征：集中趋势和离散趋势。 2、频数分布类型：正态分布型频数、正偏态分布型频数，负偏态分布型频数。 3、集中趋势指标：算术平均数（均数）、几何均数、中位数。指标使用条件计算公式算术平均数适用于正态或近似正态分布的数值变量资料几何均数①对数正态分布，即数据经过对数变换后呈正态分布的资料；②等比级数资料，即观察值之间呈倍数或近似倍数变化的资料。中位数①非正态分布资料（对数正态分布除外）；②频数分布的一端或两端无确切数据的资料③总体分布不清楚的资料。为奇数 , 为偶数, 4、离散型趋势指标：极差、标准差和变异系数指标计算公式主要优缺点极差R=Xmax-Xmin 计算简单，便于理解；只考虑最大值与最小值之差异，不能反映组内其它观察值的变异度，不稳定，受样本量影响很大。

医学统计学考试重点整理

一、基本概念 1.总体与样本总体：所有同质观察单位某种观察值（即变量值）的全体样本：是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查普查：就是全面调查，即调查目标总体中全部观察对象抽样调查：是一种非全面调查，即从总体中抽取一定数量的观察单位组成样本，对样本进行调查 3.参数与统计量参数：总体的某些数值特征统计量：根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误假设检验的结论真实情况拒绝H0不拒绝H0 H0正确Ⅰ型错误(ɑ) 推断正确(1 ?ɑ) H0不正确推断正确(1?β) Ⅱ型错误(β) Ⅰ型错误（ɑ错误）: H0为真时却被拒绝，弃真错误 Ⅱ型错误（β错误）: H0为假时却被接受，取伪错误 5.随机化原则与安慰剂对照随机化原则:是将研究对象随机分配到实验组和对照组，使每个研究对象都有同等机会被分配到各组中去，以平衡两组中已知和未知的混杂因素，从而提高两组的可比性，避免造成偏倚。（意义:①是提高组间均衡性的重要设计方法；②避免有意扩大或缩小组间差别导致的偏倚；③各种统计学方法均建立在随机化基础上）安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物，是一种无药理作用的制剂，不含试验药物的有效成分，但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样，不能被受试对象和研究者所识别。（安慰剂对照主要用于临床试验，其目的在于控制研究者和受试对象的心理因素导致的偏倚，并提高依从性。安慰剂对照还可以控制疾病自然进程的影响，显示试验药物的效应） 6.误差与标准误（区分率与均数）㈠均数抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。标准误：是指样本均数的标准差，反映抽样误差大小的定量指标，其公式表示为S x =S/√n ㈡样本率率的抽样误差:样本率p和总体率π的差异率的标准误:样本率的标准差,公式为σp=√π（1-π）/n

医学统计学第二版高等教育出版社课后习题答案剖析

第一章绪论 1.举例说明总体和样本的概念。研究人员通常需要了解和研究某一类个体，这个类就是总体。总体是根据研究目的所确定的所有同质观察单位某种观察值（即变量值）的集合，通常有无限总体和有限总体之分，前者指总体中的个体是无限的，如研究药物疗效，某病患者就是无限总体，后者指总体中的个体是有限的，它是指特定时间、空间中有限个研究个体。但是，研究整个总体一般并不实际，通常能研究的只是它的一部分，这个部分就是样本。例如在一项关于2007年西藏自治区正常成年男子的红细胞平均水平的调查研究中，该地2007年全部正常成年男子的红细胞数就构成一个总体，从此总体中随即抽取2000人，分别测的其红细胞数，组成样本，其样本含量为2000人。 2.简述误差的概念。误差泛指实测值与真实值之差，一般分为随机误差和非随机误差。随机误差是使重复观测获得的实际观测值往往无方向性地围绕着某一个数值左右波动的误差；非随机误差中最常见的为系统误差，系统误差也叫偏倚，是使实际观测值系统的偏离真实值的误差。 3.举例说明参数和统计量的概念。某项研究通常想知道关于总体的某些数值特征，这些数值特征称为参数，如整个城市的高血压患病率。根据样本算得的某些数值特征称为统计量，如根据几百人的抽样调查数据所算得的样本人群高血压患病。统计量是研究人员能够知道的，而参数是他们想知道的。一般情况下，这些参数是难以测定的，仅能够根据样本估计。显然，只有当样本代表了总体时，根据样本统计量估计的总体参数才是合理的。 4.简述小概率事件原理。当某事件发生的概率小于或等于0.05时，统计学上习惯称该事件为小概率事件，其含义是该事件发生的可能性很小，进而认为它在一次抽样中不可能发生，这就

医学统计学知识点梳理

医学统计学知识点梳理 Revised as of 23 November 2020

医学统计学知识点梳理医学统计学:是用统计学原理和方法研究生物医学问题的一门学科。他包括了研究设计、数据收集、整理、分析以及分析结果的正确解释和表达。统计描述：用统计指标、统计图表对资料的数量特征及分布规律进行客观的描述和表达。统计推断：在一定的置信度和概率保证下，用样本信息推断总体特征： ①参数估计：用样本的指标去推断总体相应的指标 ②假设检验：由样本的差异推断总体之间是否可能存在的差异同质：一个总体中有许多个体，他们之所以共同成为人们研究的对象，必定存在共性，我们说一些个体处于同一总体，就是指他们大同小异，具有同质性。总体（population）是根据研究目的确定的同质的观察单位的全体，更确切的说，是同质的所有观察单位某种观察值（变量值）的集合。总体可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体，反之为无限总体。样本：从总体中随机抽取部分观察单位，其测量结果的集合称为样本（sample）。样本应具有代表性。所谓有代表性的样本，是指用随机抽样方法获得的样本。随机抽样：随机抽样（random sampling）是指按照随机化的原则（总体中每一个观察单位都有同等的机会被选入到样本中），从总体中抽取部分观察单位的过程。随机抽样是样本具有代表性的保证。变异：在自然状态下，个体间测量结果的差异称为变异（variation）。变异是生物医学研究领域普遍存在的现象。严格的说，在自然状态下，任何两个患者或研究群体间都存在差异，其表现为各种生理测量值的参差不齐。（1）计量资料：对每个观察单位用定量的方法测定某项指标量的大小，所得的资料称为计量资料（measurement data）。计量资料亦称定量资料、测量资料。.其变量值是定量的，表现为数值大小，一般有度量衡单位。（2）计数资料：将观察单位按某种属性或类别分组，所得的观察单位数称为计数资料（count data）。计数资料亦称定性资料或分类资料。其观察值是定性的，表现为互不相容的类别或属性。（3）等级资料：将观察单位按测量结果的某种属性的不同程度分组，所得各组的观察单位数，称为等级资料（ordinal data）。

医学统计学课后习题答案(第2版高等教育出版社)

医学统计学课后习题答案(第2版高等教育出版社) 第一章绪论 1.举例说明总体和样本的概念。研究人员通常需要了解和研究某一类个体，这个类就是总体。总体是根据研究目的所确定的所有同质观察单位某种观察值（即变量值）的集合，通常有无限总体和有限总体之分，前者指总体中的个体是无限的，如研究药物疗效，某病患者就是无限总体，后者指总体中的个体是有限的，它是指特定时间、空间中有限个研究个体。但是，研究整个总体一般并不实际，通常能研究的只是它的一部分，这个部分就是样本。例如在一项关于2007年西藏自治区正常成年男子的红细胞平均水平的调查研究中，该地2007年全部正常成年男子的红细胞数就构成一个总体，从此总体中随即抽取2000人，分别测的其红细胞数，组成样本，其样本含量为2000人。 2.简述误差的概念。误差泛指实测值与真实值之差，一般分为随机误差和非随机误差。随机误差是使重复观测获得的实际观测值往往无方向性地围绕着某一个数值左右波动的误差；非随机误差中最常见的为系统误差，系统误差也叫偏倚，是使实际观测值系统的偏离真实值的误差。 3.举例说明参数和统计量的概念。某项研究通常想知道关于总体的某些数值特征，这些数值特征称为参数，如整个城市的高血压患病率。根据样本算得的某些数值特征称为统计量，如根据几百人的抽样调查数据所算得的样本人群高血压患病。统计量是研究人员能够知道的，而参数是他们想知道的。一般情况下，这些参数是难以测定的，仅能够根据样本估计。显然，只有当样本代表了总体时，根据样本统计量估计的总体参数才是合理的。 4.简述小概率事件原理。

当某事件发生的概率小于或等于0.05时，统计学上习惯称该事件为小概率事件，其含义是该事件发生的可能性很小，进而认为它在一次抽样中不可能发生，这就是所谓的小概率事件原理，它是进行统计推断的重要基础。第二章调查研究设计 1.调查研究主要特点是什么？调查研究的主要特点是：①研究的对象及其相关因素（包括研究因素和非研究因素）是客观存在的，不能人为给予干预措施②不能用随机化分组来平衡混杂因素对调查结果的影响。 2.简述调查设计的基本内容。 ①明确调查目的和指标②确定调查对象和观察单位③确定调查方法④确定调查方式⑤确定调查项目和调查表⑥制定资料整理分析计划⑦制定调查的组织计划。 3.试比较常用的四种概率抽样方法的优缺点。（1）单纯随机抽样优点是：均数（或率）及标准误的计算简便。缺点是：当总体观察单位数较多时，要对观察单位一一编号，比较麻烦，实际工作中有时难以办到。（2）系统抽样优点是：①易于理解，简便易行②容易得到一个按比例分配的样本，由于样本相应的顺序号在总体中是均匀散布的，其抽样误差小于单纯随机抽样。缺点是：①当总体的观察单位按顺序有周期趋势或单调递增（或递减）趋势，系统抽样将产生明显的偏性。但对于适合采用系统抽样的情形，一旦确定了抽样间隔，就必须严格遵守，不能随意更改，否则可能造成另外的系统误差②实际工作中一般按单纯随机抽样方法估计抽样误差，因此这样计算得到的抽样误差一般偏大。（3）分层抽样优点是：①减少抽样误差：分层后增加了层内的同质性，因而观测值的变异度减小，各层的抽样误差减小，在样本含量先锋等的情况下其标准误一般小于单纯随机抽样、系统抽样和整群抽样的标准误②便于对不同的层采用

医学统计学案例分析(1)

案例分析—四格表确切概率法【例1-5】为比较中西药治疗急性心肌梗塞的疗效，某医师将27例急性心肌梗塞患者随机分成两组，分别给予中药和西药治疗，结果见表1-4。经检验，得连续性校正χ2=3.134，P＞0.05，差异无统计学意义，故认为中西药治疗急性心肌梗塞的疗效基本相同。表1-4 两种药物治疗急性心肌梗塞的疗效比较药物有效无效合计有效率（％）中药12（9.33）2（4.67）1485.7 西药 6（8.67）7（4.33）1346.2 合计1892766.7【问题1-5】（1）这是什么资料？（2）该资料属于何种设计方案？（3）该医师统计方法是否正确？为什么？【分析】 (1) 该资料是按中西药的治疗结果（有效、无效）分类的计数资料。 (2) 27例患者随机分配到中药组和西药组，属于完全随机设计方案。 (3) 患者总例数n=27＜40，该医师用χ2检验是不正确的。当n＜40或T＜1时，不宜计算χ2值，需采用四格表确切概率法（exact probabilities in 2×2 table）直接计算概率案例分析－卡方检验（一）【例1-1】某医师为比较中药和西药治疗胃炎的疗效，随机抽取140例胃炎患者分成中药组和西药组，结果中药组治疗80例，有效64例，西药组治疗60例，有效35例。该医师采用成组t检验（有效=1，无效=0）进行假设检验，结果t＝2.848，P＝0.005，差异有统计学意义检验（有效=1，无效=0）进行进行假设检验，结果t＝2.848，P＝0.005，差异有统计学意义，故认为中西药治疗胃炎的疗效有差别，中药疗效高于西药。

【问题1-1】（1）这是什么资料？（2）该资料属于何种设计方案？（3）该医师统计方法是否正确？为什么？（4）该资料应该用何种统计方法？【分析】(1) 该资料是按中西药疗效（有效、无效）分类的二分类资料，即计数资料。(2) 随机抽取140例胃炎患者分成西药组和中药组，属于完全随机设计方案。(3) 该医师统计方法不正确。因为成组t检验用于推断两个总体均数有无差别，适用于正态或近似正态分布的计量资料，不能用于计数资料的比较。(4) 该资料的目的是通过比较两样本率来推断它们分别代表的两个总体率有无差别，应用四格表资料的 X2检验（chi-square test）。【例1-2】 2003年某医院用中药和西药治疗非典病人40人，结果见表1-1。表1-1 中药和西药治疗非典病人有效率的比较药物有效无效合计有效率（％）中药西药14（11.2） 2 （4.8） 14（16.8） 10 （7.2） 28 12 50.0 16.7 步骤如下： 1．建立检验假设，确定检验水准 H 0：两药的有效率相等，即π 1 ＝π 2 H 1：两药的有效率不等，即π 1 ≠π 2 2．计算检验统计量值 (1) 计算理论频数根据公式计算理论频数，填入表7-2的括号内。 (2) 计算χ2值具体计算略。

医学统计学重点总结

医学统计学第一章医学统计中的基本概念 1 医学统计工作的内容:设计,收集资料,整理资料,分析资料。 2 资料的类型:计量资料(数值变量),计数资料(无序分类),等变异(variation):在同质的基础上被观察个体的差异。级分组资料(有序分类)。 3 同质(homogeneity):对研究指标有影响的非实验因素相同。 4 总体(population):根据研究目的确定的同质的全部研究对象称总体。样本(sample):根据随机化的原则从总体中抽出有代表性的一部分观察单位组成的子集称样本。 5 参数(parameter):总体的设计指标称为参数。统计量(statistic):样本的统计指标称为统计量。 6 变量(variable):观察对象的特征或指标称为变量,测量的结果即为变量值。 7 概率(probability):描述随机事件发生的可能性的大小的一个量度,其概率介于0与1之间。第二章集中趋势的统计描述一算术均法(mean)简称为均数,适用于正态或近似正态分布资料（一）直接法 X n x n X X X n ∑= +?++= 21 (二)加权法(针对频数表)n fx n x f f f X k k ∑= +++= (21) 二几何均数(geometic mean,G)适用于倍数关系变化,经对数转换后呈正态分布(如:抗体滴度, 血清凝集效价,细菌计数,某些物质浓度等) G= n n X X X ?21 为了计算方便,常改用对数的形式计算,即=G lg 1 -( n X ∑lg ) 对于频数表资料,可用公式 G=lg 1 -( n x f ∑lg ) 三中位数(M)与百分位数中位数:适用于偏态分布资料,末端无确切数值的资料及分布情况不确定公式:M=L+( M L f f n -5.0) M i L,M i ,M f 分别为M 所在组段的下限,组距与频数,L f 为M 所在组段之前各组数的累积频数。百分位数:用符号X P 表示,x 即百分位公式:x P =L+( x L f f x n -%·)x i 式中L,x i ,x f 分别为x P 所在组段的下限,组距与频数,L f 为x P 所在组段之前各组段的累积频数

2医学统计学试题及答案

第一套试卷及参考答案一、选择题（40分） 1、根据某医院对急性白血病患者构成调查所获得的资料应绘制（ B ） A 条图 B 百分条图或圆图C线图D直方图 2、均数和标准差可全面描述 D 资料的特征 A 所有分布形式Ｂ负偏态分布Ｃ正偏态分布Ｄ正态分布和近似正态分布 3、要评价某市一名5岁男孩的身高是否偏高或偏矮，其统计方法是（A ） A 用该市五岁男孩的身高的95%或99%正常值范围来评价 B 用身高差别的假设检验来评价 C 用身高均数的95%或99%的可信区间来评价 D 不能作评价 4、比较身高与体重两组数据变异大小宜采用（A ） A 变异系数 B 方差 C 标准差 D 四分位间距 5、产生均数有抽样误差的根本原因是（ A ） A.个体差异 B. 群体差异 C. 样本均数不同 D. 总体均数不同 6. 男性吸烟率是女性的10倍，该指标为（A ）（A）相对比（B）构成比（C）定基比（D）率 7、统计推断的内容为（ D ） A.用样本指标估计相应的总体指标 B.检验统计上的“检验假设” C. A和B均不是 D. A和B均是 8、两样本均数比较用t检验，其目的是检验（ C ） A两样本均数是否不同B两总体均数是否不同 C两个总体均数是否相同D两个样本均数是否相同 9、有两个独立随机的样本，样本含量分别为n1和n2，在进行成组设计资料的t检验时，自由度是（D ）（A）n1+ n2 （B）n1+ n2–1 （C）n1+ n2 +1 （D）n1+ n2 -2 10、标准误反映（A ） A 抽样误差的大小 B总体参数的波动大小 C 重复实验准确度的高低 D 数据的离散程度 11、最小二乘法是指各实测点到回归直线的(C) Ａ垂直距离的平方和最小Ｂ垂直距离最小Ｃ纵向距离的平方和最小Ｄ纵向距离最小 12、对含有两个随机变量的同一批资料,既作直线回归分析,又作直线相关分析。令对相关系数检验的t值为t r，对回归系数检验的t值为t b，二者之间具有什么关系？（C） A t r>t b B t r

《医学统计学》教学大纲

《流行病学》教学大纲供临床医学专业使用锦州医学院教务处 2003年5月

《流行病学》教学大纲适用专业: 临床医学总学时：24，其中理论学时：18、实验学时：6 一、课程的性质和任务流行病学（Epidemiology）是研究特定人群中与健康相关的状态和事件的分布和决定因素并用以控制健康问题的学科。近数十年来，随着危害人类生命和健康疾病谱的变化，随着医学模式由单纯生物学向生物学、心理学、社会医学相结合模式的转变，流行病学的研究对象、研究方法、研究内容也在不断发展。到现在为止，比较一致认可的流行病学定义为：流行病学是研究人群中疾病与健康状态的分布及其影响因素，制定和评价预防、控制和消灭疾病的对策和措施，并评价这些对策和措施的效果。其研究对象已由仅研究传染病扩大到非传染性疾病，又从疾病扩大、引伸到健康和与健康有关的事件；研究内容既包括了描述“分布”，分析“决定因素”，又包括了研究、提出、评价预防、保健的对策与措施。由此可见流行病学既是一门方法学，又是一门应用性很强的学科。其研究范围已包括了与人类疾病和健康有关的一切问题。通过本课程的教学使学生掌握流行病学的基本原理、方法和技能，拓宽学生的思路，开阔学生的视野，提高学生能够应用流行病学方法，在疾病的预防、健康促进、病因研究和预防效果评价等方面独立分析问题和解决问题的能力，为今后从事疾病预防和控制工作打下基础。二、相关课程的衔接本门课程的前继课程是：基础医学相关课程、计算机基础和医学统计学。三、教学的基本要求教学目的培养学生掌握流行病学基本理论、基本知识、流行病学方法的选择与应用，并了解相应的扩展知识和新进展知识，为学习预防医学各类卫生专业课程奠定流行病学理论基础，也为今后在卫生防疫实际工作中或其他有关学科中运用流行病学的理论和方法奠定基础。教学要求 1、基本理论理论课教学要根据教学大纲的要求，重点突出教授基本理论和基本知识，详细讲授和解释，同时注意教授一定比例的扩展知识、新进展知识和实际应用知识，加强学生创新能力的培养，开拓思路、启发思维，调动学生的学习积极性。内容精练，条理清楚，合理使用教学设备和教具。也可根据本章节的特点规定学生必要的自学内容。

医学统计学重点总结

<<医学统计学>>重点总结 1. 总体：根据研究的目的确定的同质研究对象中所有的观察单位变量值的集合。 2. 样本：按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。 3. 同质：影响研究指标的主要因素易控制的因素基本上相同。 4. 抽样误差：在抽样研究中，由于变异的存在，即使在同一总体中抽取的几个样本，各样本统计量往往不等。样本统计量与总体参数也不等，这种由于抽样研究所至样本之间和样本与总体之间的差异称为。。。 5. 变量：观察指标在统计学上统称为指标变量，它反应的是生物个体间的变异情况，根据其性质可分为定性变量（分类）和定量变量（连续）。 6. 截尾数据：生存时间观察过程被人为的截止称为截尾，又称删失或终检。原因：失访/退出/ 终止（研究时限已到而终止观察）。 7. 卡方基本思想：X2分布是一种连续型分布，可用于检验资料的实际频数和按检验假设计算的理论频数是否相等等问题。X2反应实现了实际频数与理论频数的吻合程度。如果检验假设成立，则A-T 一般不大，X2应很小，即出现大X2值概率很小。即X2越大，P越小，若P≤a时，就怀疑假设的成立，拒绝H0。若P>a则没有理由拒绝H0。 8. X2用途：（1）实际频数与拟合频数拟合优度：A推断两个或两个以上总体率或构成比有无差别（四格表/行x 列表）。B两变量之间有无相互关系。C频数分布的拟合优度检验（判断次样本是否来自某种分布）。（2）某些分布可用X2近似。（3）间接应用：如t分布和F分布就是在X2分布基础上推导出来的。 9. 方差分析的基本思想：根据研究目的和设计类型，把总体变异中离均差平方和分解成两部分或更多部分，也把总变异中的自由度相应分成两部分或更多部分，然后再进行比较，评价由某种因素引起的变异是否具有统计学意义。 10. 假设检验中P，a,b（倍他）的关系及统计学意义： a：检验水准，即显著性检验，在此概率之下的认为是小概率事件，统计学上以为此事件“不可能发生”，以此判断是否不拒绝H0无效假设，在假设检验中，按a检验水准，拒绝了原来正确的H0，即犯了第1类错误，犯此错误的概率为a。 b：在T假设检验中，按照a检验标准，没有拒绝原来错误的无效假设，即犯了第2类错误，犯次错误的概率是b。 P：是在H0成立时大于等于用样本计算的统计值出现的概率用P值与检验水准a比较，根据比较的结果作出统计判断。如果P≤a时，就怀疑假设的成立，拒绝H0。若P>a则接受H0拒绝H1。P值越小只能说明作出拒绝H0，接受H1的推论时犯错误的机会越小。 11．行x列表X2检验应注意：（1）行x列表中不宜有1/5以上格子的理论频数小于5或有一个格子的理论频数小于1，若发生上述情况可采用：A将理论频数过小的格子所在的行或列与性质相近的邻近行或列中的实际频数合并，使重新计算的理论频数增大。B删去理论频数过小的行或列。C增大样本含量以增大理论频数。（2）当效应按强弱分为若干级别，则按实验结果可整理为单向有序行x列表，在比较各处理组的效应有无差别时，宜用秩和检验，ridit分析等。如作X2检验只说明各组构成比的差异有无统计学意义。

医学统计学完整

对于均数为，标准差为的正态分布，95%的变量值分布范围为 A. － ~ ＋ B. －1.96 ~ ＋1.96 C. －2.58 ~ ＋2.58 D. 0 ~ ＋1.96

10.从一个数值变量资料的总体中抽样，产生抽样误差的原因是 A．总体中的个体值存在差别B．样本中的个体值存在差别 C．总体均数不等于0 D．样本均数不等于0 11从偏态总体抽样，当n足够大时（比如n > 60），样本均数的分布。 A. 仍为偏态分布 B. 近似对称分布 C. 近似正态分布 D. 近似对数正态分布 12某市250名8岁男孩体重有95%的人在18~30kg范围内，由此可推知此250名男孩体重的标准差大约为 A．2.0kg B．2.3kg C．3.1kg D．6.0kg 13.单因素方差分析中，造成各组均数不等的原因是 A．个体差异B．测量误差C．各处理组可能存在的差异D．以上都有 14.医学中确定参考值范围是应注意 A．正态分布资料不能用均数标准差法B．正态分布资料不能用百分位数法 C．偏态分布资料不能用均数标准差法D．偏态分布资料不能用百分位数法 15.方差分析中，当P<0.05时，则 A．可认为各总体均数都不相等B．可认为各样本均数都不相等 C．可认为各总体均数不等或不全相等D．以上都不对 16.两样本中的每个数据减同一常数后，再作其t检验，则 A．t值不变B．t值变小C．t值变大D．无法判断t值变大还是变小 17.在抽样研究中，当样本例数逐渐增多时 A．标准误逐渐加大B．标准误逐渐减小C．标准差逐渐加大D．标准差逐渐减小18.计算样本资料的标准差这个指标 A．不会比均数大B．不会比均数小C．决定于均数D．不决定于均数 19.各观察值均加（或减）同一个不等于0的数后 A．均数不变，标准差改变 B. 均数改变，标准差不变 C．两者均不变 D. 两者均改变 20.描述一组偏态分布资料的变异度，以下哪个指标为好 A．全距B．四分位数间距C．标准差D．变异系数 21.正态曲线的横轴上从均数到+1.96的面积为 A．95% B．45% C．47.5%D．97.5% 22.设同一组7岁男童的身高的均数是110cm，标准差是5cm，体重的均数是25kg，标准差是3kg，则比较两者变异程度的结论为 A．身高的变异程度小于体重的变异程度B．身高的变异程度等于体重的变异程度

医学统计学重点总结

1.简述总体和样本的定义，并且举例说明。总体是研究目的确定的所有同质观察单位的全体。样品是从研究总体中抽取部分有代表性的观察单位。 2.简述参数和统计量的定义，并且举例说明。描述总体特征的指标称为参数，描述样本特征的指标称为统计量。 3.变量的类型有哪几种？举例说明各种类型变量有什么特点。 ①定量数据：计量资料；定量的观测值是定量的，其特点是能够用数值的大小衡量其水平的高低。 ②定性数据：计数资料；变量的观测值是定性的，表现为互不相容的类别或属性。 ③有序数据：半定量数据/等级资料；变量的观测值是定性的，但各类别（属性）有程度或顺序上的差异。 4.请举例说明一种类型的变量如何变换为另一种类型的变量。定量数据>有序数据>定性数据 ---------------> 5.请简述什么是小概率事件？概率是描述事件发生可能性大小的度量，P0.05事件称为小概率事件。 6．举例说明什么是配对设计。配对设计是将受试对象按某些重要特征相近的原则配成对子，每对中的两个个体随机地给予两种处理。①同源配对：同一受试对象或同一标本的两个部分，随机分配接受两种不同处理；②异源配对：为消除混杂因素的影响，将两个同质受试对象配对分别接受两种处理。 7.非参数假设检验适合什么类型数据进行分析？ ①总体分布类型未知或非正态分布数据；②定量或半定量数据；③数据两端无确定的数值。 8．简述P 25 P 5０ P ７5 的统计学意义。（条件：明显偏态且不能转化为正态或近似对称；一端或两端无确定数值；分布情况未知）用来描述资料的观测值序列在某百分位置的水平，四分位数间距可以作为说明个体差异的指标（说明个体在不同位置的变异情况）。 9.直条图、直方图、圆饼图的使用条件是什么？直条图：各自独立的统计指标的数值大小和他们之间的对比；直方图：连续变量频数分布情况；圆饼图：全体中各部分所占的比例。 10.统计分析包括哪两个方面的内容？为什么要进行统计推断？统计描述和统计分析；统计描述用来描述及总结一组数据的重要特征，其目的是使实验或观察得到的数据表达清楚并便于分析。统计推断指由样本数据的特征推断总体特征的方法，包括参数估计（点估计和区间估计）和假设检验（判断随机波动引起差别的概率大小）。统计推断是通过样本推断总体的统计方法/根据样本提供的信息和抽样分布的规律，以一定的概率推断总体的特征。总体是通过总体分布的数量特征即参数 (如方差) 来反映的。很多时候并不知道总体的参数，只能由样本统计量推断获得。 11.定量数据如何进行统计描述？请举例说明。通过具体数值反应高低水平。 12.定性数据如何进行统计描述？请举例说明。根据类别或属性的不同分类。 13.简述均数的抽样误差及率的抽样误差。由抽样造成的样本统计量与总体参数的差异称为抽样误差，样本均数不等于总体均数μ，总体率参数π不等于样本率p。 14.简述正态分布和标准正态分布的关系。 (μ=0，)关系：标准正态分布是正态分布的一种，具有正态分布的所有特征。所有正态分布都可以通过Z分数公式转换成标准正态分布。区别：正态分布的平均数为μ，标准差为σ；不同的正态分布可能有不同的μ值和d值，正态分布曲线形态因此不同。标准正态分布平均数μ＝0，标准差σ＝1，μ和σ都是固定值；标准正态分布曲线形态固定。

【免费下载】医学统计学课程教学大纲

《医学统计学》课程教学大纲课程编号：140087 学分：1.5 总学时：34 大纲执笔人：刘艺敏大纲审核人：一、课程性质与目的使学生掌握医学统计学的基本理论知识、方法和技能，为其运用到医学实践，进行科学研究，学习其它课程和阅读专业书刊打下必要的统计学基础。二、面向专业临床医学专业、口腔医学专业五年制采用多媒体演示教学和学生每人一台计算机操作，要求学生通过实习课重点掌握统计学的基本概念和不同资料的统计分析思路，同时要求学生基本掌握国际流行统计软件SAS或SPSS的使用方法，能用软件来完成课后的习题。并通过接触真实的科研资料，逐步引导学生提出分析思路、分析方法，直至用计算机软件完成统计分析的全过程。使学生在掌握统计学基本理论知识的基础上，进一步培养他们综合分析问题、动手解决问题的能力，拓宽学生的知识面，有利于学生实践能力和创新精神的培养。三、课程基本要求学习医学统计学应着重理解基本概念、基本理论，掌握收集资料、整理资料和分析资料的基本知识、基本技能。培养科学的统计思维方法。四、实验基本要求采用多媒体演示教学和学生每人一台计算机操作，要求学生通过实习课重点掌握统计学的基本概念和不同资料的统计分析思路，同时要求学生基本掌握能用软件来完成课后的习题。并通过接触真实的科研资料，逐步引导学生提出分析思路、分析方法，直至用计算机软件完成统计分析的全过程。使学生在掌握统计学基本理论知识的基础上，进一步培养他们综合分析问题、动手解决问题的能力，拓宽学生的知识面，有利于学生实践能力和创新精神的培养。五、课程基本内容第一章绪论第一节统计学与医学统计方法了解统计学与医学统计学的定义、医学统计学在医学研究中的应用。第二节统计学基本概念重点掌握内容：随机变量的概念及其分类-离散型变量及连续型变量；误差的定义，系统误差与随机误的概念；三种数据类型-计数资料、计量资料、等级资料及三者间的转换；总体与样本的概念，总体参数与样本统计量的概念，抽样误差的概念；概率与频率的概念。

医学统计学重点精选文档

医学统计学重点精选文档 TTMS system office room 【TTMS16H-TTMS2A-TTMS8Q8-

医学统计学重点第一章绪论 1.基本概念：总体：根据研究目的确定的性质相同或相近的研究对象的某个变量值的全体。样本：从总体中随机抽取部分个体的某个变量值的集合。总体参数：刻画总体特征的指标，简称参数。是固定不变的常数，一般未知。统计量：刻画样本特征的指标，由样本观察值计算得到，不包含任何未知参数。抽样误差：由随机抽样造成的样本统计量与相应的总体参数之间的差异。频率：若事件A在n次独立重复试验中发生了m次，则称m为频数。称m/n为事件A在n次试验中出现的频率或相对频率。概率：频率所稳定的常数称为概率。统计描述：选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。统计推断：包括参数估计和假设检验。用样本统计指标(统计量)来推断总体相应指标(参数)，称为参数估计。用样本差别或样本与总体差别推断总体之间是否可能存在差别，称为假设检验。 2.样本特点：足够的样本含量、可靠性、代表性。 3.资料类型：（1）定量资料：又称计量资料、数值变量或尺度资料。是对观察对象测量指标的数值大小所得的资料，观察指标是定量的，表现为数值大小。每个个体都能观察到一个观察指标的

数值，有度量衡单位。（2）分类资料：包括无序分类资料（计数资料）和有序分类资料（等级资料） ①计数资料：是将观察单位按某种属性或类别分组，清点各组观察单位的个数(频数)，由各分组标志及其频数构成。包括二分类资料和多分类资料。二分类：将观察对象按两种对立的属性分类，两类间相互对立，互不相容。多分类：将观察对象按多种互斥的属性分类 ②等级资料：将观察单位按某种属性的不同程度、档次或等级顺序分组，清点各组观察单位的个数所得的资料。 4.统计工作基本步骤：统计设计、资料收集、资料整理、统计分析。第二章实验研究的三要素 1.实验设计三要素：被试因素、受试对象、实验效应 2.误差分类：随机误差（抽样误差、随机测量误差）、系统误差、过失误差。 3.实验设计的三个基本原则：对照原则、随机化分组原则、重复原则。 4.实验设计方法有析因设计正交试验设计均匀试验设计交互作用两组：异体配对设计同体配对设计交叉设计无随机同期对照实验设计（单因素两水平）扩展多组：单因素多水平配伍组设计拉丁方设计