文档视界 最新最全的文档下载
当前位置:文档视界 › 统计笔记统计学复习

统计笔记统计学复习

统计笔记统计学复习
统计笔记统计学复习

第一章

第一节中医药统计学的意义和内容

1 中医药统计学:是将数理统计学的原理和方法应用于生物医药特别是中医药科研,收集、整理和分析资料,推断不确定现象(随机现象)客观数量规律的一门应用学科。

2 中医药统计学的主要内容:

(1)统计学基本原理

(2)统计分析方法(统计设计、统计描述和统计推断、因素间的关系、生存分析、多元分析)

第二节统计学发展及有关问题

1、20世纪20年代,英国统计学家 R.A. Fisher爵士(1890-1962)创立了实验设计方法和统计分析技术,奠定现代生物统计的基础。

1948年,英国发表了评价链霉素治疗肺结核疗效的随机对照的临床试验报告,第一次采用生物统计方法进行临床干预试验。

生物统计学方法在我国医学界的传播与运用始于20世纪初。

1948年,郭祖超教授(1912~1999)编著的《医学与生物统计方法》,是我国第一部医学统计方法的教科书。

2、评价链霉素治疗肺结核疗效试验

目标总体:15~30岁肺双侧进行性肺结核患者

样本人群:目标总体中的107例患者

试验方法:将107例患者随机(尽可能保证两组患者的病情相同,见下表1)分为两组,分到试验组的55例患者用链霉素治疗,分到对照组的52例患者用常规疗法(主要是卧床休息)试验结果:6个月后,试验组的生存率为93%,对照组的生存率为77%。两组的生存率有较

大差别,并且P<0.05。应用统计学理论,可以得出链霉素对所有15~30岁肺双侧进行性肺

结核患者都有效果的结论

表1 随机化分组后两组患者的病情比较表2 两组疗效比较

分组疗效合计生存率(%)分组身体状况血沉降/(mm.h-1) 生存死亡好一般差 0~ 11~ 21~ >50 试验组51 4 55 93 试验组 8 17 30 0 3 16 36 对照组40 12 52 77 对照组 8 20 24 1 2 20 29 3、医学论文中的统计:

医学论文的两个作用:

(1)通过撰写和发表论文,报告自己观察或试验的研究结果。撰写论文,要求我们对自己研究结果的数据资料能够正确地表达和分析。

(2)阅读别人的论文,吸取新知识,了解学术进展。阅读论文,要求我们能够理解和评价别人研究成果的可信程度。

4、医学论文中的统计学问题:

60年代到80年代,国外医学杂志调查结果:有统计错误的论文20%~72%。

国内1984年对《中华医学杂志》、《中华内科杂志》、《中华外科杂志》、《中华妇产科杂志》、《中华儿科杂志》595篇论文的调查结果,相对数误用为11.2%,抽样方法误用15.9%,统计图表误用11.7%。

1996年对4586篇论文统计(中华医学会系列杂志占6.9%),数据分析方法误用达55.7%。

5、伪造统计数据违反科学道德:

1976年New Science (新科学)杂志关于科研舞弊行为的调查:

(1)74%的调查表反映有不正当修改数据的情况(2)17%拼凑实验结果;

(3)7%凭空捏造数据;(4)2%故意曲解结果。

第三节统计学基本概念:

1、同质与变异:

同质:性质相同

个体的同质性是构成研究总体的必备条件;

研究内容不同,对同质的要求不同。

变异:指同质的个体之间的差异

(1)一种或多种不可控因素作用下所产生的反应的综合表现。

(2)结果是随即的(无法正确的预测)。

(3)个体变异是普遍存在的。

(4)个体变异是有规律的

(5)没有个体变异就没有统计学。

同质与变异的例子:

例1 调查20XX年沈阳市7岁男童的身高和体重例2 研究某降压药的疗效同质:20XX年(年份)、沈阳市(地区)、7岁同质:高血压患者、病情相近、用(年龄)男(性别)童某药治疗

变异:身高和体重各不相同变异:疗效各不相同

2、总体与样本:

总体:根据研究目的确定的同质研究对象(个体)的全体(集合)。分有限总体与无限总体。

样本:从总体中随机抽取的部分观察单位。

随机抽样:为了保证样本的可靠性和代表性,需要采用随机的抽样方法(在总体中每个个体具有相同的机会被抽到)。

3、参数与统计量:

(1)参数:总体的统计指标,如总体均数μ、标准差σ,采用希腊字母分别记为μ、σ。固定的常数。

(2)统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为。参数附近波动的随机变量。

4、抽样误差:

抽样误差:由随机抽样造成的样本统计量和总体参数间的差异。

原因:个体变异+抽样

表现:(1)样本统计量与总体参数间的差别

(2)不同样本统计量间的差别

(3)抽样误差是有规律的

5、随机变量:

随机变量(变量):对某项变异进行观察或测量得到的指标(个体观察指标)变量值(观察值):变量的观察结果

特征:不确定性、规律性

6、变量的表示:

变量(variable),统计上习惯用大写拉丁字母表示,如X、Y 、Z、…。

变量值习惯用小写拉丁字母表示,如性别x

1=1 (男)、x

2

=1 (男)、x3 =

0 (女)、…。

7、医药统计中的变量类型

(1)按取值结果分类:离散型——取值为有限个连续型:取值可充满某个区间(2)按观察指标的性质分类:定量变量:计量变量

分类变量:二分类变量、多分类变量(无序分类

变量(名义变量)、有序分变量(等

级变量)

8、医药统计中的资料类型

定量资料:计量资料

分类资料:二分类资料:计数资料

多分类资料:无序分类资料:计数资料

有序分类资料:等级资料

9、概率与频率

确定性现象:在一定条件下,一定会发生或一定不会发生的现象。

其表现结果为两种事件:肯定发生某种结果的叫必然事件;肯定不发生某种结果的叫不可能事件。

随机现象:在同样条件下可能会出现两种或多种结果,究竟会发生哪种结果,事先不能确定。其表现结果称为随机事件。

随机事件的特征:①随机性;②规律性:每次发生的可能性的大小是确定的。10、频率与概率

概率 probability:描述随机事件发生的可能性大小的数值,用大写的P表示;取值[0,1]。

频率 frequency:样本的实际发生率。设在相同条件下,独立重复进行n次试验,事件A出现m次,则事件A出现的频率为m / n。(0≤m / n≤1)

11、小概率事件

必然事件 P = 1 P ≤ 0.05(5%)或P ≤ 0.01(1%)称为小概不可能事件 P = 0 率事件(习惯),统计学上认为小概率事

随机事件 0 < P < 1 件在一次抽样中不大可能发生。

12、频率与概率间的关系:

(1)频率是统计量,反映样本特

(2)随着样本含量n增大,频率将稳定在一个常数------概率

(3)概率是频率的稳定值。是总体参数,刻画总体特征

(4)n足够大时,频率近似概率

掷币实验:当实验次数很大时,出现正面的频率逐渐趋于稳定(稳定于0.5)13、统计描述与统计推断

统计描述:通过统计指标、统计图、统计表等方法来描述资料的特征(分布的形状、集中趋势、离散趋势)

统计推断:包括参数估计与假设检验

14、常用的统计表:由标题、标目、线条、数据等四部分组成。

分为:简单统计表(分组变量1个)、组合统计表(分组变量多于1个)。

常用的统计表:频数表、列联表等。

15、常用的统计图:直条图、直方图、百分条图、圆形图、普通线图、箱图、散点图、回归线图、生存线图等。

16、常用的统计指标:计量资料:均数、中位数、标准差等

计数资料:率、构成比、相对比等

变量间关系:相关系数、回归系数等

第四节变量及资料类型

1、计量资料:对观察对象测量指标的数值大小所得的资料,即为计量资料,也

叫定量资料。

特点:有计量单位,如患者的身高(cm)、体重(kg)、血压(mmHg)、脉搏(次/分)、

红细胞计数(1012/L)

2、计数资料:按某种属性分类,然后清点每类的数据,称计数资料,也叫定性

资料。

特点:无固有计量单位,如肤色(黑、白)、血型(ABO)、职业(工农兵)、性别(男女)

3、等级资料:半定性或半定量的观察结果。有大小顺序,所以也叫有序分类资料。

1)癌症分期:早中晚。2)药物疗效:治愈好转无效死亡3)尿蛋白:++,+++及以上

4、三类资料间关系

例:一组2040岁成年人的血压(计量资料)

<8 低血压 8正常血压 12轻度高血压 15中度高血压 17重度高血压(等级资料)

以12kPa为界分为正常与异常两组,统计每组例数(计数资料)

第五节统计工作的基本步骤

1、统计设计:

(1)包括调查、实验设计。运用医学统计学的起点,也是高质量地完成整个研

究的重要础。

(2)收集资料:在研究设计基础上,通过试验或调查,取得准确可靠的原始资料

(3)整理资料:对资料进行清理、改错,数量化

(4)分析资料:包括统计描述、统计推断。将所得数据进行统计学处理的过程(5)作出结论:在数据分析的基础上,应用统计学处理的结果,进行统计学推断。同时,依据相应的专业知识,作出专业性的结论。

2、SPSS软件的特点

(1)操作简便,方便自学。数据转换功能较强:可存取和转换多种数据类型(2)数据管理功能强大且操作直观:在基本界面上集数据录入、转换、检索、统计分析、作图、制表及编辑等功能于一身;

(3)可用SPSS命令编程,形成SPSS环境下的可执行文件。

(4)统计分析方法比较全面:包括一般统计描述、简单列联表分析、均数比较、一般线性模型、混合模型、相关回归、对数线性模型、聚类和判别、因子分析、非参数检验、时间序列、生存分析及缺失值估计等内容;

(5)SPSS结果输出的管理也很有特色;

(6)绘图和图形编辑功能也很方便、全面。

3、变量加权:作用:加权后的变量被说明成频数,常用于频数表资料。

第二章

医药研究的类型:

1、实验研究(干预,第2章):将同一总体的研究对象根据研究目的与内容随机分组,对各处理组的研究对象施加不同的干预,比较结果差异。

2、调查研究(观察性研究,无干预,第14章):不对研究对象施加任何人为干预,是在自然条件下观察、记录研究对象的特征,可根据研究目的与内容进行随机抽样,但不能随机分组。

3、医药研究的类型:实验研究:

研究对象:人——临床试验动物——动物实验

临床试验:治疗——临床疗效实验预防——社区干预实验联系:调查研究可为实验研究提供线索,而实验研究还需通过调查研究加以证实。第一节实验研究的三要素

三要素:1)处理因素;2)受试对象;3)实验效应

1、处理因素:

因素:实验研究中,对实验指标产生影响的各种原因。

(1)处理因素:研究者根据研究目的欲施加或欲观察的,能作用于受试对象并引起直接或间接效应的因素,又称试验因素或研究因素。

实验研究的目的:阐明处理因素的作用

处理因素的数目与水平:单因素实验:t检验、单因素方差分析。

多因素实验:析因设计、正交设计方差分析

除了处理因素对实验结果产生影响外,还有一些“非研究因素”也会对研究结果产生影响。

(2)混杂因素:与处理因素同时存在,能使受试对象产生效应的其他非研究因素称非处理因素或混杂因素。研究者在确定处理因素的同时,根据专业知识与实验条件,尽可能找出对研究结果产生影响的非处理因素,并加以控制是十分重要的。

(3)处理因素与混杂因素

1)区分处理因素与混杂因素:混杂因素在各处理组中条件基本相同,以凸显处理因素作用。

2)常见的混杂因素:年龄、性别、病情、病程、病史、家族史

3)对混杂因素的处理:采用良好的设计:排除、平衡

4)处理因素必须标准化:处理因素在整个实验过程中始终如一,保持不变。2、受试对象

受试对象:处理因素作用的客体

基本条件:(1)敏感性:对处理因素敏感

(2)特异性:不易受非处理因素干扰

(3)稳定性:反应稳定。

动物的选择:种类、品系、年龄、体重、窝别、营养……

病例的选择:纳入标准、剔除标准

3、实验效应:处理因素作用于受试对象后所表现出来的效果,通过观察指标表达,有定量指标和定性指标。观察指标应客观、精确、灵敏、特异。

第二节实验设计的基本原则

1、实验设计三原则

对照:去除随机变异和其他非研究因素的影响,凸显研究药物的效果

随机:保证受试者情况在各组间的均衡性

重复:充足的样本量,保证能检出的确存在的差异

2、对照原则

对照的意义:运用比较的手段将处理因素的效应充分显露出来

(1)区分处理因素与非处理因素的效应,是比较的必要基础

(2)消除和减少实验误差

常用对照方法:空白对照、安慰剂对照、标准对照、实验对照、自身对照、相互对照、历史对照等

1)空白对照:对照组不加任何处理因素。例:

特点:简单易行,但容易引起心理差异,从而影响实验效应的测定。2)安慰剂对照:

安慰剂:指对受试对象无任何副作用和药理作用的“假药”,它不含试验药物的有效成分,而其感官如颜色、大小、剂型、重量、口感、气味等与试验药物应尽可能一致,不能被受试对象所识别。

作用:①克服由于心理因素而形成的偏倚②分离试验药物引起的不良反应3)标准对照:以公认的标准方法或常规方法施加处理,或者以现有的标准或正常值作对照。

4)实验对照:对照组施加某种与处理因素有关的实验因素(非处理因素)

5)自身对照:对照与实验在同一受试对象上进行。

特点:简单易行,使用广泛。但若试验前后某些环境或自身因素发生改变,并且会影响试验结果,就难以说明问题。

6)相互对照:不设对照组,几个实验组互相对照。例:比较几种药物治疗同一疾病的疗效

7)历史对照:以过去的研究结果作对照。

3、随机化原则:随机≠“随便”, 指每个受试对象以机会均等的原则随机地分配到试验组和对照组。目的是使各组非实验因素的条件均衡一致,以消除对实验结果的影响。

(1)随机化分组:.

抽签:

随机数字表:

1)将n个受试对象编号,动物可按体重大小,患者可按就诊顺序;

2)取随机数;

3)确定组别:将随机数由小到大排列,按排列号分组计算器或计算机(产生伪随机数)

随数例2-3将18只同品种、同性别、体重相近的小鼠随机等分成甲、乙、丙三组。

(1)按小鼠体重编号(2)从附表16的第33行,第1个数起由左向右查18个随机数(3)将随机数由小到大排列,按排列号:1-6号分到甲组,7-12号分到乙组,13-18号分到丙组

4、重复的原则

概念:重复是指各处理组与对照组要有一定样本含量。

无限地增加样本含量,将加大实验规模,延长实验时间,浪费人力物力,反而增加系统误差出现的可能性。样本含量不足,检验效能(Power,1-β)偏低,导致总体中本来具有的差异无法检验出来。

第三节常见实验设计方法

1、单因素设计:单组设计、配对设计、完全随机设计(单因素多水平设计)等

2、多因素设计(不便考察交互作用):随机区组设计、拉丁方设计、交叉设计、嵌套设计(组内分组设计)等

3、多因素设计(可以考察交互作用):析因设计、正交设计等

4、重复测量设计

第三章

第一节频数表与频数分布

1、频数表的编制步骤:

(1)求极差(range):即最大值与最小值之差,又称为全距。

(2)决定组数、组段和组距:根据研究目的和样本含量n确定。组距=极差/组数,通常分8-15个组

(3)列出组段:第一组段的下限略小于最小值,最后一个组段必须包含最大值,其它组段上限值忽略。

(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。

2、频数分布的特征

(1)集中趋势:反映数据的平均水平或分布的集中位置。本例在组段“482~512”

频数最多,集中形成高峰。——平均水平指标

离散趋势:反映个体间的差异。两侧频数逐渐减小,离散形成尾势。变异水平指标

3、对称分布与偏态分布

(1)对称分布(图3-1):中间高,两边低,左右对称

(2)左偏态、正偏态(图3-2):高峰偏向左侧,长尾向右延伸

(3)右偏态。负偏态(图3-3):高峰偏向右侧。长尾向左延伸

第二节描述集中趋势的指标

总称为平均数反映了资料的集中趋势。常用的有:

1、算术均数,均数:Σ为求和符号。适用条件:资料呈正态或近似正态。

2、几何均数变量对数值的算术均数的反对数。适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料,同一资料,几何均数<均数

3、中位数是将一批数据从小至大排列后位次居中的数据值,符号为M,反映一批观察值在位次上的平均水平。

适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料;②资料有不确定数值;③资料分布不明等。

中位数计算公式:先将观察值按从小到大顺序排列,按以下公式:

4、众数:出现次数(或频数)最多的观察值;在频数分布图中对应于高峰所在位置的观察值。适用于大样本;较粗糙。

均数、中位数、众数三者关系:正态分布时:均数=中位数=众数

正偏态分布时:均数>中位数>众数

负偏态分布时:均数<中位数<众数

第三节描述离散趋势的指标

描述离散趋势的指标:反映数据的离散度:,即个体观察值的变异程度。常用的指标有:(1)极差R:优点:简便。缺点:1)只利用了两个极端值 2)n大,R也会大3)不稳定(2)四分位数间距:四分位间距:QR=P75- P25

(3)百分位数:数据从小到大排列;在百分尺度下,所占百分比对应的值。记为Px。

应用:确定医学参考值范围;如95%参考值范围P2.5 ~P97.5;表示有95%正常个体的测量值在此范围;中位数M与四分位数间距QR一起使用,描述偏态分布资料的特征

(4)方差也称均方差,样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。(5)标准差:标准差即方差的正平方根;其单位与原变量X的单位相同。

(6)变异系数CV,适用条件①观察指标单位不同如身高体重②同单位资料,但均数相差悬殊

(7)小结:极差较粗,适合于任何分布;标准差与均数的单位相同,最常用,适合于近似正态分布;变异系数主要用于单位不同或均数相差悬殊资料;平均指标和变异指标分别反映资料的不同特征,常配套使用。如正态分布:均数、标准差;偏态分布:中位数、四分位数间距。

第四节描述分布形态的指标

1、偏度系数:描述分布的对称性。

2、理论上总体偏度系数为0时,分布是对称的;取正值时,分布为负偏态;取负值时,分布为正偏态。

3、峰度系数:反映分布是否有正态峰。理论上正态分布的总体峰度系数为0。

第五节正态分布

正态分布,也叫高斯分布是最常见、最重要的一种连续型分布。

μ为总体均数,σ为总体标准差,f (X){表示正态曲线下X左侧面积}称为概率密度函数变量X服从正态分布记作X~N(μ,σ2) 。

以X为横轴, f (X)为纵轴绘制的曲线就是正态曲线。

1、正态分布的特征:(1)高峰在均数处,均数两侧完全对称(2)正态分布有两个参数:位置参数(均数)和变异度参数(标准差)(3)正态曲线下的面积有一定的分布规律。

2、标准正态分布μ=0,σ=1 记为 N(0,1) 一般正态分布为一个分布族:N(μ,σ2) ;标准正

态分布只有一个 N(0,1)

3、曲线下面积的分布规律:标准正态曲线下双侧尾部面积为α时对应的z 值——双侧z 界

值;标准正态曲线下双侧尾部面积为α时对应的z 值——双侧z 界值。

4、正态分布法:

双侧100(1-α)%正常值范围:

单侧100(1-α)%正常值范围:

双侧95%正常值范围:

单侧95%正常值范围:

5、百分位数法:双侧95%正常值范围 P2.5~P97.5。单侧95%正常值范围< P95(上限)或>

P5(下限),适用资料:偏态分布

第四章

第一节 总体均数的估计

1、抽样误差:由随机抽样造成的样本统计量和总体参数间的差异。

原因:个体变异+抽样

表现:样本统计量与总体参数间的差别;不同样本统计量间的差别;抽样误差是有规律的

2、中心极限定理 case1 从正态总体N(μ,σ2)中随机抽样(每个样本的含量为n ),可得无数个样本,

每个样本计算样本均数,则样本均数也服从正态分布,样本均数的均数为μ;样本均数的标准差 中心极限定理 case2 从非正态分布总体(均数为μ,方差为σ2)中随机抽样,可得无数个样本,每个样

本计算样本均数,样本含量小时,样本均数不服从正态分布。但样本含量足够大(如n>50)时,样本均数

也近似服从正态分布。样本均数的均数仍等于μ样本均数的标准差仍为: 3、标准误; 样本统计量的标准差称为标准误;样本均数的标准差称为均数的标准误;均数的标准误:衡

量均数抽样误差大小的统计指标;当总体标准差未知时,用样本标准差代替;增大样本含量

可以减小抽样误差

4、t 分布

在实际工作中,总体方差未知,所以用样本方差代替总体方差。样本方差代替总体方差,

此时不服从正态分布,而服从t 分布

t 分布的特征:

(1)单峰分布,曲线在t =0 处最高,并以t =0为中心左右对称

(2)t 分布是一簇分布,与自由度有关

(3)与标准正态分布相比,高峰位置较矮,两尾部翘得高,即相同尾部面积对应的界值比

z 界值大。例如: z0.05=1.645, t 0.05,3=3.182

(4)随自由度增大,曲线逐渐接近标准正态分布;t 分布的极限为标准正态分布。

5、总体均数的估计

(1)总体均数的点估计与区间估计

(下限)上限S z X S z X S z X ααα->+<±)(2/(下限)

上限S X S X S X 64.1)(64.196.1->+<±n

X /σσ=n

X /σσ

=

参数的估计:点估计:由样本统计量 直接估计、总体参数 区间估计:以一定概率1-α(可信度)估计出总体参数可能存在的范围。考

虑抽样误差

(2)可信区间的意义:95%可信区间的意义:该区间以95%的概率包含了待估计的总体参

数。从总体中作随机抽样,每个样本可算得一个可信区间,若作100次抽样,可得100个可

信区间,平均有95个可信区间包括μ(估计正确),只有5个可信区间不包括μ(估计错误)。

(3)可信度:区间的可信度(如95%或99%):是重复抽样(如1000次)时,样本(如

n=5)区间包含总体参数(μ)的百分数。常用100(1-α)%或(1-α)表示,α(称为显著水平)

值一般取0.05或0.01。

(4)可信区间的两要素:准确度(可靠性):由(1-α)的大小决定。精确度:由区间长度

决定95%可信区间精确度高,准确度低;95%可信区间反之。

(5)影响可信区间大小的因素:可信度越大,区间越宽;个体变异越大,区间越宽;样本

含量越大,区间越窄

第二节 假设检验

假设检验(也称显著性检验):是先对总体的参数或分布提出某种假设,如假设两总体均数

相等、总体服从正态分布或两总体分布相同等,然后用适当的统计方法计算检验统计量,根

据检验统计量大小推断假设是否成立。

1、假设检验的分类:参数检验:非参数检验:

2、假设检验的依据:小概率事件.....

: P ≤ 0.05(或P ≤ 0.01)的事件称为小概率事件。 小概率(事件)原理:统计学上认为小概率事件在一次试验中是不可能发生的。

若小概率事件在一次试验中发生了,即认为不合理或出现矛盾,可推断原假设不成立。

3、假设检验的一般步骤:

(1)建立检验假设(包括原假设H 0和备择假设H1),确定检验水准a

(2)确定检验统计量及其分布,并根据样本值计算检验统计量的值;

(3)确定概率P ,做出推断结论:P ≤α,拒绝原假设H 0,接受备择假设H 1;否则,就不拒

绝原假设H 0。

4、假设检验的两类错误

第一类错误(Ⅰ型错误):当假设检验得到P ≤α时,做出“拒绝H 0,可认为各总体间有差

别”的结论时,这有可能将事实上没有差别的结果错误地判断为有差别,即这时可能犯第一

类错误。其犯错误的概率用表示,若α取0.05,此时犯Ⅰ型错误的概率小于或等于0.05

第二类错误(Ⅱ型错误):当假设检验得到P >α时,做出“不拒绝H 0,还不能认为各总体

间有差别”的结论时,这有可能将事实上有差别的结果错误地判为没有差别,即这时

可能犯第二类错误,其犯错误的概率用β表示,在通常情况下犯Ⅱ类错误的概率未知。

5、两类错误与假设检验结论的关系:

当假设检验得到P ≤α时,可能犯第一类错误(α)。此时,P 值比0.05越小,犯一类错

误的概率越小,其结论的可靠程度也越好。

当假设检验得到P >α时,可能犯第二类错误(β)。此时,虽然 是个未知数,但假设检

验的P 值越大,犯二类错误的概率越小。其结论的可靠程度也越好。

6、两类错误α、间的关系:增大α,可以减小β;减小α,可以增大β。常常增大α,

如α=0.1或0.2,以减小β。减少(增加)I 型错误,将会增加(减少)II 型错误,增大n ,

同时降低α与 β

p S X 、、πσμ、、

第四节 t 检验

1、配对t 检验:(三棱莪术)

(1)配对设计:将受试对象按某些特征或条件配成对子(非随机),再将每对中的两个受

试对象随机分配到实验组和对照组,给予不同的处理。

(2)受试对象配对的特征或条件:可能影响实验结果的主要非处理因素。

动物实验:将动物按种属、品系、性别、年龄、体重等配对;

临床疗效观察:将患者按病种、病型、性别、年龄、生活习惯、工作环境等配对;

病因研究:将患者按性别、年龄、职业、居住年限等与相同条件的健康人配对。

异体配对设计:将两个条件相同或相近的受试对象配成对子,分别接受两种不同的处理。

同期自身配对:对同一受试对象分别给予两种不同处理。

自身前后配对:同一受试对象处理前后的比较

2、配对数据检验注意的问题:

r > 0,则有 ,即差值的方差小于两组数据方差的和,此时采用配对检验可提高检验精度

r < 0,则有 ,即差值的方差反而大于两组数据方差的和,此时采用配对检验会降低检验精度

3、单样本t 检验:(人参)

样本均数与总体均数的比较:

目的:推断样本所代表的未知总体均数μ与已知总体均数μ0有无差别。条件:样本来自正

态总体已知总体均数μ0一般为:理论值、标准值或经大量观察所得的稳定值。统计量t 的

计算公式:

4、成组t 检验 适用于完全随机设计资料的两均数比较。 假设检验目的:推断两总体均数是否相同。

应用条件:样本来自正态总体,方差齐σ12=σ22

完全随机设计也叫成组设计。是一种单因素k 水平单效应变量的设计方法。

分组方式: 1)将受试对象完全随机分配到两处理组中

2)分别从两个不同总体中进行随机抽样

5、方差齐性检验(转铁蛋白测定)

(1)适用条件:两总体方差的齐性检验

原理:是看较大样本方差与较小样本方差的比值是否接近“1”。若接近“1”,则可

认为两样本代表的总体方差齐,否则,两方差不齐。

(2)Levene 检验:

适用条件:两总体或多总体方差的齐性检验

(3)方差不齐两小样本均数的比较(补益法):1)用适当的变量变换,使达到方差

齐性要求,再用t 检验。2)采用非参数检验。3)采用t`检验。

第五章

第一节 方差分析的基本思想

22

212S S S d +<22

212S S S d +>1,00-=-=-=

n df n

S X S X t X μμ

1、将所研究的对象分为多个处理组,施加不同的干预,施加的干预称为处理因素,处理因素至少有两个水平。用这类资料的样本信息来推断各处理组间多个总体均数是否存在差别,

常采用的统计分析方法为方差分析。

2、方差分析的基本思想:根据变异的不同来源,将全部观察值总的离均差平方和及自由度

分解为两个或多个部分,除随机误差外,其余每个变异可由某个因素加以解释。

通过比较不同变异的均方(MS ),借助F 分布做出统计推断,从而了解该因素对观察指标有

无影响。

3、试验数据有三个不同的变异:

总变异:全部测量值X ij 与总均数 间的差异

组间变异:各组的均数 与总均数 间的差异

组内变异:每组的n i 个原始数据与该组均数

的差异 4、总变异:SS 总反映了所有测量值之间总的变异程度, SS 总=各测量值Xij 与总均数

差值的平方和

5、组间变异:SS 组间反映了各组均数间的变异程度;组间变异=随机误差+处理因素效应

6、组内变异:在同一处理组内,虽然每个受试对象接受的处理相同,但测量值仍各不相同,

这种变异称为组内变异。SS 组内仅仅反映了随机误差的影响。也称SS 误差:

7、三种“变异”之间的关系:

组间变异 : 处理因素 + 随机误差 组内变异

: 随机误差

8、均方MS :变异程度除与离均差平方和的大小有关外,还与其自由度有关,由于各部分自

由度不相等,因此各部分离均差平方和不能直接比较,须将各部分离均差平方和除以相应自

由度,其比值称为均方差,简称均方(MS)。

9、均方之比

F 值接近于1,就没有理由拒绝H 0;反之,F 值越大,拒绝H 0的理由越充分。数理统计

的理论证明,当H 0成立时,F 统计量服从F 分布。

第二节 完全随机设计的方差分析

1、完全随机设计的方差分析

完全随机设计也叫成组设计。单因素多水平(k>2)设计K=2时,用成组t 检验;

K>2时,采用单因素方差分析

分组方式:1)将受试对象随机分配到各处理组中 2)分别从不同总体中进行随机抽样

样本含量:可以相等(平衡设计),也可不等(称非平衡设计)。平衡设计时检验效能较高。

2、完全随机设计:

(1)是最常用的一种设计方法,不受组数的限制

(2)各组样本含量可以相等,也可以不等。但在总样本含量不变的情况下,各组样本含量

相等时的设计效率较高

(3)对照组可以不止一个,各组应达到均衡一致 X i X i X 组内

组间总组内

组间总df df df SS SS SS +=+=组间SS 组内SS 组内

组间MS MS F =组内

组间,df df df df ==21 X X

(4)对个体间同质性要求较高,在个体间同质性较差时,完全随机设计不是最佳设计 3、方差分析的应用条件:

1)独立性:各样本是相互独立的随机样本;

2)正态性:各样本来自正态总体;

3)方差齐性:各处理组总体方差相等。

上述条件与两均数比较的t 检验的应用条件相同。

当组数为2时,方差分析与两均数比较的t 检验是等价的,对同一资料,有

4、方差分析的步骤:建立假设并确定检验水准,计算F 值(方差分析表),下结论

第三节 随机区组设计的方差分析 1、随机区组设计又称配伍组设计,采用双因素方差分析。是配对设计的扩展。 2、随机分组方法(每个区组内随机):

1)相同年龄组的病人为一个区组,并编号1~5;

2)给同组中3个病人编号1~3;规定随机数小者分到甲组,中等分到乙组,大者分到丙组;

3)给每个病人一个随机数;

4)按规定分组

3、变异来源从组内变异中分解出区组变异与误差变异。

变异分解:1)总变异:所有观察值之间的变异

2)处理间变异:处理因素+随机误差

3)区组间变异:区组因素+随机误差

4)误差变异: 随机误差

4、t 检验与F 检验的关系:

当处理组数为2时,对于相同的资料,如果同时采用t 检验与F 检验,则有:随机区组设计ANOVA 的处理组F 值与配对设计的t 值;完全随机设计ANOVA 的F 值与两样本均数比较的t 值间均有: 第五节 析因设计的方差分析

1、析因设计是一种多因素多水平交叉分组进行全面试验的设计方法

2、析因设计所关心的问题:两个或两个以上处理因素的各处理水平间的均数有无差异?即主效应有无统计学意义?:两个或两个以上处理因素之间有无交互作用?

3、交互作用A 因素处于不同水平时,B 因素的作用不同,反之亦然。

4、变异分解:(1) 总变异:(2) 处理因素A 的变异:A 因素+随机误差(3) 处理因素B 的

变异:B 因素+随机误差(4) A 与B 交互作用的变异: (5) 误差变异:随机

误差

5、交叉设计资料的方差分析

将受试对象随机分为两组,分别接受两种不同的处理,经过一段时间后交换处理因素进行试验,分析两阶段的结果。三因素(处理、阶段、个体)设计。它可在同一病人身上观察两种或多种处理的效应。

6、交叉设计的优缺点:优点:节约样本例数;可控制时间因素和个体差异对处理的影响;每一个实验对象同时接受实验因素和对照因素,每个患者利益均等(符合医德)。缺点:设计要求高,统计分析较复杂。注意:1)间歇期;2)病程长;3)盲法

第六章

t

F =F t =

简单相关,用于双变量正态分布资料。

相关分析的步骤:(1)绘制散点图

(2)计算样本相关系数

(3)检验总体相关系数是否等于0

1、散点图:散点呈椭圆形分布,X 、Y 同时增减---正相关 X 、Y 此增彼减---负相关 散点在一条直线上,X 、Y 变化趋势相同----完全正相关;反向变化----完全负相关。 X 、Y 无直线变化关系----零相关

2、相关系数:定量描述两变量间直线相关的密切程度和相关方向的指标。

ρ—总体相关系数r —样本相关系数

3相关系数的意义:

r 无单位,-1 ≤ r ≤ 1。r 的正负表示相关方向:r 值为正,正相关;r 值为负,负相关;(与回归系数b 的符号相同)

r 的绝对值大小表示相关密切程度:|r|越接近1,相关越密切; |r|=0,零相关; |r|=1,完全相关

第二节 等级相关

适用资料:⑴ 不服从双变量正态分布 ⑵ 总体分布类型未知 ⑶ 原始数据用等级表示 等级相关系数 rs ——反映两变量间相关的密切程度与方向 。

第三节 直线回归

1、直线回归:线性回归,要求Y 为正态变量,X 为可控变量。

2、回归分析的步骤:(1)绘制散点图;(2)建立样本直线回归方程;(3)检验总体回归系数是否等于0(即检验回归方程有无统计学意义。

3、直线回归方程 :X 每改变一个单位,Y 平均改变b 个单位:

4、回归方程参数的计算 :最小二乘法原则使各散点到直线的纵向距离的平方和最小。 因为直线一定经过“均数”点

5、回归参数a 、b 的解释 :

斜率 (b):当X 每改变1个单位时, Y 平均改变 b 个单位

Y 的截距 (a):X = 0时Y 的平均值

为残差,即点到直线的纵向距离 6、直线回归方程的检验:b ≠0原因:① 由于抽样误差引起,总体回归系数 β=0 ② 存在回归关系,总体回归系数 β ≠0 决定系数:表示回归平方和SS 回归在总平方和SS 总中所占的比例。R2越接近1,回归方 程的拟合越好。

第四节 直线回归与相关的区别与联系

区别:1. 资料:回归——Y 正态随机变量,X 为选定变量

相关——X 、Y 服从双变量正态分布

2. 应用 :回归 —— 由一个变量值推算另一个变量值

相关 —— 只反映两变量间互依关系

3. 回归系数有单位,相关系数无单位

联系:1)方向一致,r 与b 的正负号一致。 2)假设检验等价t r =t b

3)YY XX l l b r = 4)用回归解释相关

Y

Y ?-

直接进行曲线拟合-建立反映变量间曲线关系的曲线回归方程,步骤:(1)绘制散点图,根据图形和专业知识选取曲线类型(可同时选取几类)(2)选用适当的估计方法求得回归方(3)作假设检验,计算决定系数(4)比较决定系数选取“最佳”曲线方程。

第七章

1、率:频率指标,表示某现象发生的频率或强度

2、构成比:又称构成指标,表示某一事物内部各组成部分所占的比重或分布。

3、率或构成比的比较应注意可比性:1)研究对象是否同质(方法、时间、种族、地区、环境等)。(2)其它影响因素(年龄、性别)在各组的内部构成是否相同。3)同地区不同时期资料对比时, 应注意客观条件是否一致。

4、(贝努利试验)的特点:对立性、固定性、独立重复性

统计学整理笔记

● 例1:某企业计划规定劳动生产率比上年提高10%,实际提高15%。试计算劳动生产率计划完成百分数。 ● ● 例2:某企业计划规定某产品单位成本降低5%,实际降低7%,试计算成本计划完成指标。 ● 答案: 答案: 答案: 起重量(吨)X 台数f 起重总量(吨)xf 40 1 40 25 2 50 10 3 30 5 4 20 合计 10 140 起重量(吨) 起重机台数构成(%) (吨) 40 10 4 25 20 5 10 30 3 5 40 2 合计 100 14 技术级别 月工资(元) 工资总额(元) 1 146 730 2 152 2280 3 160 1880 4 170 1700 5 185 370 合计 —— 7960

答案: 答案: 某地区国内生产总值的资料 单位:亿元 答案: 某企业2014年第三季度职工人数:6月30日435人,7月31日452人,8月31日462人,9月30日576人,要求计算第三季度平均职工人数. 答案如右图 计划完成程度(%) 组中值(%) 企业数 实际完成数(万元) 计划任务数(万元) 90—100 95 5 95 100 100—110 105 8 840 800 110—120 115 2 115 100 合计 — 15 1050 1000 日产量 (公斤) 工人数(人)f 组中值 (公斤)x xf 20—30 10 25 250 30—40 70 35 2450 40—50 90 45 4050 50—60 30 55 1650 合计 200 — 8400 2009年 2010年 2011年 2012年 2013年 2014年 18530.7 21617.8. 26635.4 34515.1 45005.8 57733

《概率论与数理统计》笔记

《概率论和数理统计》笔记 一、课程导读 “概率论和数理统计”是研究随机现象的规律性的一门学科 在自然界,在人们的实践活动中,所遇到的现象一般可以分为两类: 确定性现象随机现象 确定性现象 在一定的条件下,必然会出现某种确定的结果.例如,向上抛一枚硬币,由于受到地心引力的作用,硬币上升到某一高度后必定会下落.我们把这类现象称为确定性现象(或必然现象).同样,任何物体没有受到外力作用时,必定保持其原有的静止或等速运动状态;导线通电后,必定会发热;等等也都是确定性现象. 随机现象 在一定的条件下,可能会出现各种不同的结果,也就是说,在完全相同的条件下,进行一系列观测或实验,却未必出现相同的结果.例如,抛掷一枚硬币,当硬币落在地面上时,可能是正面(有国徽的一面)朝上,也可能是反面朝上,在硬币落地前我们不能预知究竟哪一面朝上.我们把这类现象称为随机现象(或偶然现象).同样,自动机床加工制造一个零件,可能是合格品,也可能是不合格品;射击运

动员一次射击,可能击中10环,也可能击中9环8环……甚至脱靶;等等也都是随机现象. 统计规律性 对随机现象,从表面上看,由于人们事先不能知道会出现哪一种结果,似乎是不可捉摸的;其实不然.人们通过实践观察到并且证明了,在相同的条件下,对随机现象进行大量的重复试验(观测),其结果总能呈现出某种规律性.例如,多次重复抛一枚硬币,正面 朝上和反面朝上的次数几乎相等;对某个靶进行多次射击,虽然各次弹着点不完全相同,但这些点却按一定的规律分布;等等.我们把随机现象的这种规律性称为统计规律性. ●使用例子 摸球游戏中谁是真正的赢家 在街头巷尾常见一类“摸球游戏”.游戏是这样的:一袋中装有16个大小、形状相同,光滑程度一致的玻璃球.其中8个红色、8个白色.游戏者从中一次摸出8个,8个球中.当红白两种颜色出现以下比数时.摸球者可得到相应的“奖励”或“处罚”: 结果(比数) A (8:0) B (7:1) C (6:2) D (5:3) E (4:4) 奖金(元)10 1 0.5 0.2 -2 注:表中“-2”表示受罚2元

卫生统计学整理笔记

如何绘制频数表? 求组距 确定各组段的两个端点 归组计数 频数分布表与分布图作用 1.揭示变量分布形态 2.揭示变量分布趋势 3.便于发现特大的或特小的极端值 4.便于进一步计算统计指标和分析 5.作为一种数据陈述的形式 算数应用条件: 对称分布,尤其正态分布 几何应用条件: 1.对数对称分布、等比资料 2.变量值中不能有0;不能同时有正值和负值;若全是负值,计算时可先把负号去掉,得出结果后再加上负号。 中位数条件: 所有分布、尤其偏态分布: 1.变量值中出现个别特小或特大的数值 2.资料的分布呈明显偏态 3.含有不确定数值 4.资料的分布不清 极差应用条件:所有分布、尤其偏态分布 不足: 不能全面的反映所有值的偏离程度 不稳定、小样本小于大样本、样本小于总体 四分位数间距应用条件 所有分布、尤其偏态分布: 1.变量值中出现个别特小或特大的数值 2.资料的分布呈明显偏态 3.含有不确定数值 4.资料的分布不清 方差应用条件: 对称分布,尤其正态分布 变异系数应用 1.量纲不一致

散点图作用 观察两组数据的总体趋势和明显偏离趋势的观察点 判断两组数据的关联形式、方向和密切程度 相关分类 线性相关 秩相关 分类变量相关 线性相关意义 r>0表示正相关,r=1表示完全正相关;r<0表示负相关,r=-1表示完全负相关。 |r|→0表示相关性越弱,|r|→1表示相关性越强。 r=0表示没有线性相关,不代表没有相关。 如何判断线性相关 画散点图 计算线性相关系数 假设检验 如何进行秩相关 编秩次 计算秩相关系数 假设检验 回归分析:利用样本信息,找到变量间数量依存关系。 线性回归分析:利用样本信息,找到变量间线性数量依存关系。 决定系数:反映回归贡献的相对程度,即Y的变异被X解释的比例。 如何进行分类变量的相关分析 交叉表的制作,计算各种概率 计算列联系数 假设检验 相关分析的条件 线性相关系数:二元正态分布的定量变量 秩相关系数:非二元正态分布的定量变量、有序分类变量 列联系数:无序分类变量 轶闻数据:由坊间流传或各种媒体报道的一些个案数据,由于其特殊性往往给公众留下突出和深刻的印象。 特点:缺乏代表性,常诱导人们进行简单的推论,得到一些具有倾向性的结论。 可得数据:为了某些特定目的已收集或积累的数据。如:各类监测数据、统计年鉴等。

基础统计学笔记 统计学基础笔记整理

一、统计学概论 分理论统计和应用统计 应用统计分为描述统计学和推断统计学。 描述统计为一组数据的中(位置均值、中位数)、散(极差、方差、标准差)、形|(偏度)描述。 推断统计分为参数估计和假设检验。技能 1、经验——数据收集加工——画成图形——数理(规律)(数据不等于数字) PPT 原则用图不用表、用表不用栏、用栏不用字实际问题 5M1E ——组成过程——产品(结果)——属性(包括几何(形位方尺)、物理、生化、人文)——集合统计问题 ——(构成)总体——样本——数据——类型分计数型(离散性)和计量型(连续性),即概率分布为计量型分布和技术型分布)——规律分描述和推断。

1、总体与样本中间有一种学问抽样验收抽样、统计抽样样本量 2、样本和数据中间有一门测量技术MSA 3、分布规律 总体参数平均值() 标准差() 总位数() 比例(p ) 样本统计量的特点随机变化,不要轻易用样本下结论。拉丁字母在数学上用于总体参数阿拉伯字母表示样本统计量希腊字母表示计算 总体参数统计分参数统计和非参数统计。推断统计分 估计总体总体某参数未知,用对应的样本统计量去猜测。检验假设总体某参数已知,用对应的样本统计量去验证。 二统计数据收集与整理1、数据不等于数字 2、数据的两种类型 描述性分类——响应变量(因变量)和预报因子(独立变量)如性别叫因子,男女叫水平。 四种尺度定类、定序、定距、定比

3.数据管理的7个层次无假不乱浅深系4.软件每一列表示一个变量,每一行表示一个样本鱼骨图只适用于一个为什么, 变量程序图IPO 适用于多个为什么。 I (变量)P O 水质烧开水色香味器皿材质火燃料风压强 目的要抓住关键的变量。 2、统计数据的表现形式绝对数——时期数和时点数相对数——比例部分比总体比率部分比部分 统计的数据来源直接来源和间接来源。 1、数据收集分被动收集(利用历史和现场)和主动收集(DOE 试验设计)现场收集数据是被动收集,分临时数据和常态数据。试验是临时数据。 数据好的特征。。。。 数据不好的7个陷阱缺少假混窄异病

统计学笔记(精修版)

绪论 第一节统计学的含义和作用 一、什么是统计学 1.统计学的含义 统计学是有效收集、处理、分析和解释数据,发现规律,以便更好决策的一门方法论学科。 2. 分析数据的方法有描述统计、推断统计。 ⑴描述统计 ①描述统计是将所收集的数据处理后,用数值、表格或图形形式表现的有用信息。 ②描述统计是基础,它为推断统计、统计咨询、统计决策提供必要⑵推断统计就是根据样本数据特征去估计或检验总体的数据特征。 二、统计学的作用和重要性 1.统计学的作用 人们用数据发现的规律做出更好的决策。 2.要发现规律,对统计数据通常有要求:客观性、适用性、准确性 和及时性。 三、统计学是如何解决实际问题的? 统计学解决实际问题的基本思路是: ①提出与统计有关的实际问题; ②建立有效的指标体系;

③收集数据; ④选用或创造有效的统计方法处理、显示所收集数据的特征; ⑤根据所收集数据的特征、结合定性、定量知识作出总体特征的合理推断; ⑥根据推断给出更好决策的建议; 不解决问题时,重复第②-⑥步。 第二节统计学的基本概念 一、总体、单位和样本 1.总体 统计总体是根据一定目的确定的,由客观存在的、具有某种同质性的许多个别事物构成的整体。 ⑴同质性是确定统计总体的基本标准,它是根据统计的研究目的而定的。研究目的不同,所确定的总体也不同,其同质性的意义也随之变化。 ⑵统计总体还应具备大量性,即统计总体应应该由足够数量的同质性单位构成。 2.总体单位(简称单位)是组成总体的各个个体。如典型案例1中英军的每架战机;事例4中的每个居民。 3.由总体的部分单位组成的集合称为样本(又称子样)。构成样本的单位称为样品,样本中样品的数目称为样本容量。 4. 统计学解决问题的目的是认识总体的数据特征。但是,当调查是破坏性的,或者出于成本、时间等因素考虑时,不必要或不可能对构成总体的所有单位都进行调查。

统计学复习笔记

统计学复习笔记 第七章 一、 思考题 1. 解释估计量和估计值 在参数估计中,用来估计总体参数的统计量称为估计量。估计量也是随机变量。如样本均值,样本比例、样本方差等。 根据一个具体的样本计算出来的估计量的数值称为估计值。 2. 简述评价估计量好坏的标准 (1)无偏性:是指估计量抽样分布的期望值等于被估计的总体参数。 (2)有效性:是指估计量的方差尽可能小。对同一总体参数的两个无偏估计量,有更小方差的估计量更有效。 (3)一致性:是指随着样本量的增大,点估计量的值越来越接近被估总体的参数。 3. 怎样理解置信区间 在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间。置信区间的论述是由区间和置信度两部分组成。有些新闻媒体报道一些调查结果只给出百分比和误差(即置信区间),并不说明置信度,也不给出被调查的人数,这是不负责的表现。因为降低置信度可以使置信区间变窄(显得“精确”),有误导读者之嫌。在公布调查结果时给出被调查人数是负责任的表现。这样则可以由此推算出置信度(由后面给出的公式),反之亦然。 4. 解释95%的置信区间的含义是什么 置信区间95%仅仅描述用来构造该区间上下界的统计量(是随机的)覆盖总体参数的概率。也就是说,无穷次重复抽样所得到的所有区间中有95%(的区间)包含参数。 不要认为由某一样本数据得到总体参数的某一个95%置信区间,就以为该区间以0.95的概率覆盖总体参数。 5. 简述样本量与置信水平、总体方差、估计误差的关系。 1. 估计总体均值时样本量n 为 2. 样本量n 与置信水平1-α、总体方差、估计误差E 之间的关系为 其中: 2222α2222)(E z n σα=n z E σα2=

卫生统计学重点笔记之令狐文艳创作

医师资格考试蓝宝书-预防医学 令狐文艳 医学统计学方法 第一节基本概念和基本步骤(非常重要) 一、统计工作的基本步骤 设计(最关键、决定成败)、搜集资料、整理资料、分析资料。 总体:根据研究目的决定的同质研究对象的全体,确切地说,是性质相同的所有观察单位某一变量值的集合。总体的指标为参数。 实际工作中,经常是从总体中随机抽取一定数量的个体,作为样本,用样本信息来推断总体特征。样本的指标为统计量。 由于总体中存在个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体,这种由抽样引起的差异称为抽样误差。抽样误差愈小,用样本推断总体的精确度愈高;反之,其精确度愈低。 某事件发生的可能性大小称为概率,用P表示,在0~1之间,0和1为肯定不发生和肯定发生,介于之间为偶然事件,<0.05或0.01为小概率事件。

二、变量的分类 变量:观察单位的特征,分数值变量和分类变量。 第二节数值变量数据的统计描述(重要考点) 一、描述计量资料的集中趋势的指标有 1.均数均数是算术均数的简称,适用于正态或近似正态分布。 2.几何均数适用于等比资料,尤其是对数正态分布的计量资料。对数正态分布即原始数据呈偏态分布,经对数变换后(用原始数据的对数值lgX代替X)服从正态分布,观察值不能为0,同时有正和负。 3.中位数一组按大小顺序排列的观察值中位次居中的数值。可用于描述任何分布,特别是偏态分布资料的集中位置,以及分布不明或分布末端无确定数据资料的中心位置。不能求均数和几何均数,但可求中位数。百分位数是个界值,将全部观察值分为两部分,有X%比小,剩下的比大,可用于计算正常值范围。 二、描述计量资料的离散趋势的指标 1.全距和四分位数间距。 2.方差和标准差最为常用,适于正态分布,既考虑了离均差(观察值和总体均数之差),又考虑了观察值个数,方差使原来的单位变成了平方,所以开方为标准差。均为数值越 小,观察值的变异度越小。 3.变异系数多组间单位不同或均数相差较大的情况。变

(完整word版)医学统计学 重点 终极笔记

Medical Statistics 【Introduction】 医学统计工作的内容 ⒈实验设计:最关键、最重要 ⒉收集资料:最基础 [原始资料] 实验数据,现场调查资料,医疗卫生工作记录、报告、报表 质量控制:精度和偏倚 ⒊整理资料:资料的逻辑、一致性检查,原始数据的加工(频数分布表) ⒋分析资料:统计描述(表、图、离散趋势、集中趋势)和统计推断 资料的类型 ⑴计量资料:定量方法测定数值大小所得的资料 ⑵计数资料:按性质或类别分组,然后计数 ⑶等级分组资料:具有计数资料的特性,又有半定量的性质(“+ , -”表示) 变异:不同个体在相同环境下,对外界环境因素发生的不同反应,即个体差异 总体:同质的个体所构成的全体。 [同质性,大量性,差异性] 样本:从总体中抽取部分个体的过程称为抽样,所抽得的部分是样本。 样本包含的个体数目称为样本含量 样本的特征:⑴代表性 ⑵随机性 ⑶可靠性 *抽样的要求:代表性,随机性,可靠性,可比性 完全随机设计:将受试对象随机分配到各处理组或对照组中,或分别从不同总体中随机抽样进行研究。可为两样本或多样本得比较,但样本含量 不宜相差太大。 随机区组设计:也称配伍设计,是配对设计的扩展。配对设计的每一“对子”中的受试对象分别随机分到两个处理组中,而配伍组设计中的每个 “配伍组”,包含多个受试对象,要将它们分别随机分到各处理 组中。 误差:泛指观测值与真实值之差,以及样本统计量与总体参数之差 ⑴系统误差:在收集资料过程中,由于仪器调整、试剂校验、医生对疗效的掌 握等因素,造成观察结果倾向性的偏大活偏小。要尽量查明原因,必须克服。 ⑵随机测量误差:在收集资料过程中,即使系统误差已经避免,由于各种偶然 因素的影响造成对同一对象多次测定的结果不完全一致。譬如操作员技术、电压、环境温度的差异。 没有固定的倾向,时高时低;应采取措施加以控制。

基础统计学笔记统计学基础笔记整理

基础统计学笔记统计学基础笔记整理 一、统计学概论: 分理论统计和应用统计: 应用统计分为描述统计学和推断统计学。 描述统计为一组数据的中(位置:均值、中位数)、散(极差、方差、标准差)、形|(偏度)描述。 推断统计分为参数估计和假设检验。技能: 1、经验——数据收集加工——画成图形——数理(规律) (数据不等于数字) PPT 原则:用图不用表、用表不用栏、用栏不用字实际问题: 5M1E ——组成过程——产品(结果)——属性(包括:几何(形位方尺)、物理、生化、人文)——集合统计问题:

——(构成)总体——样本——数据——类型:分计数型(离散性)和计量型(连续性),即概率分布为计量型分布和技术型分布)——规律分描述和推断。 1、总体与样本中间有一种学问:抽样:验收抽样、统计抽样样本量 2、样本和数据中间有一门测量技术:MSA 3、分布规律 总体参数:平均值() 标准差() 总位数() 比例(p ) 样本统计量的特点:随机变化,不要轻易用样本下结论。拉丁字母在数学上用于总体参数阿拉伯字母表示样本统计量希腊字母表 示计算 总体参数统计分参数统计和非参数统计。推断统计分 估计:总体总体某参数,用对应的样本统计量去猜测。检验:假设总体某参数已知,用对应的样本统计量去验证。 二:统计数据收集与: 1、数据不等于数字

2、数据的两种类型: 描述性分类——响应变量(因变量)和预报因子(独立变量)如性别叫因子,男女叫水平。 四种尺度:定类、定序、定距、定比 3.数据管理的7个层次:无假不乱浅深系 4.软件每一列表示一个变量,每一行表示一个样本鱼骨图只适用于一个为什么, 变量程序图IPO 适用于多个为什么。 I (变量) P O 水质烧开水色香味器皿材质火燃料风压强 目的要抓住关键的变量。 2、统计数据的表现形式:绝对数——时期数和时点数相对数——比例:部分比总体比率:部分比部分 统计的数据:直接和间接。

贾俊平《统计学》复习笔记课后习题详解及典型题详解(数据的搜集)【圣才出品】

第2章数据的搜集 2.1 复习笔记 一、数据的来源 1.数据的直接来源 数据的直接来源是指通过直接调查或实验活动直接获得一手数据,直接来源的数据又分为调查数据和实验数据。它们的不同之处在于: (1)调查数据为通过调查方法得到的数据,而实验数据为通过实验方法得到的数据。 (2)调查数据通常是针对社会现象而获取的,而实验数据大多是针对自然现象而获取的; (3)调查数据通常取自有限总体,即总体所包含的个体单位是有限的;而实验数据是指在实验中通过控制实验对象所搜集到的变量的数据。 2.数据的间接来源 (1)间接来源的数据(二手资料) 如果与研究内容有关的原信息已经客观存在,只是对这些原信息重新加工、整理,使之成为进行统计分析可以使用的数据,则称为间接来源的数据。 (2)二手资料的优点 搜集方便;数据采集快;采集成本低。 (3)二手资料的作用

分析所要研究的问题;提供研究问题的背景,帮助研究者更好地定义问题,检验和回答某些假设和疑问,寻找研究问题的思路和途径。 (4)二手资料的局限性 针对性不够;资料的相关性不够;口径可能不一致;数据也许不准确,也许过时等。 (5)对二手资料进行评估的内容 ①资料是谁搜集的?数据搜集者的实力和社会信誉度会在一定程度上影响数据说服力; ②搜集的目的是什么?为了某种特殊的利益而搜集的数据是值得怀疑的; ③数据是怎样搜集的?搜集数据的方法有很多,不同方法所采集到的数据,其解释力和说服力都是不同的。如果不了解搜集数据所用的方法,很难对数据的质量做出客观的评价。数据的质量来源于数据的产生过程; ④什么时候搜集的?过时的数据的说服力会受到质疑。 (6)使用二手数据的注意事项 使用二手数据,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。在引用二手数据时,应注明数据的来源,以尊重他人的劳动成果。 二、调查方法 1.概率抽样和非概率抽样 (1)概率抽样 概率抽样(随机抽样):指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。 ①概率抽样的特点 a.抽样时是按一定的概率以随机原则抽取样本,随机原则就是在抽取样本时排除主观

应用统计分析复习笔记

应用统计分析复习笔记 BY 东海 2009年12月1日星期二 第一章 导论 1、统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。内容:收集数据(取得数据);处理数据(整理与图表展示);分析数据(利用统计方法分析数据);数据解释(结果的说明);得到结论(从数据分析中得出客观结论)。 2、统计研究的循环过程:实际问题—收集数据—处理数据—分析数据—数据解释—实际问题。 4、描述统计:研究数据收集、整理和描述的统计学分支。内容:收集数据;整理数据;展示数据;描述性分析。目的:描述数据特征;找出数据的基本规律。 5、推断统计:研究如何利用样本数据来推断总体特征的统计学分支。内容:参数估计;假设检验。目的:对总体特征做出推断。 6、描述统计与推断统计的关系: 7、统计数据的类型 (1)按计量层次:分类数据、顺序数据、数值型数据(2)按收集方法:观测数据和实验数据(3)按时间状况:截面数据和时间序列数据 8、总体:所研究的全部个体(数据) 的集合,其中的每一个个体也称为元素。分为有限总体和无限总体。 样本:从总体中抽取的一部分元素的集合。构成样本的元素的数目称为样本容量或样本量。 9、参数:描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值。所关心的参数主要有总体均值(μ )、标准差(σ)、总体比例(π)等。总体参数通常用希腊字母表示。 10、统计量:用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数。所关心的样本统计量有样本均值(x )、样本标准差(s)、样本比例(p)等。样本统计量通常用小写英文字母来表示。 变量:说明现象某种特征的概念,如商品销售额、受教育程度、产品的质量等级等。变量的具体表现称为变量值,即数据变量可以分为:(1)分类变量(说明事物类别的名称)、顺序变量(说明事物有序类别的名称)和数值型变量(说明事物数字特征的名称)。其中数值型变量又分离散变量(取有限个值)和连续变量(可以取无穷多个值)。(2)经验变量(所描述的是我们周围可以观察到的事物)和理论变量(由统计学家用数学方法所构造出来的一些变量,比如,z 统计量、t 统计量、χ2统计量、F 统计量等)。(3)随机变量和非随机变量。 11、随机现象的一个特点是:不确定性。随机现象也存在其固有的量的规律性,人们把这一规律性称为随机现象的统计规律性。 对随机现象的观察称为随机试验,并简称试验,用以研究随机现象的统计规律性。随机试验的特点:可重复性、可观察性和随机性。统计中的抽样过程其实就是一次随机试验。因而可以利用概率论的技巧来分析推断统计方法。而样本其实就是随机变量。 12、常见分布:二项分布、几何分布、指数分布、正态分布。 13、统计学中泛称统计量(或枢轴量)的分布为抽样分布。讨论抽样分布的途经有两种:1)精确地求出抽样分布,并称相应地统计推断为小样本统计推断;2) 让样本容量趋于无穷,并求出抽样分布的极限分布。以极限分布作为抽样分 统计方法 描述统计 推断统计 参数估计 假设检验 点估计 区间估计

卫生统计学知识点总结

卫生统计学知识点总结-CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN

卫生统计学 统计工作基本步骤:统计设计(调查设计和实验设计)、资料分析{收集资料、整理资料、分析资料【统计描述和统计推断(参数估计和假设检验)】。 ★统计推断:是利用样本所提供的信息来推断总体特征,包括:参数估计和假设检验。a参数估计是指利用样本信息来估计总体参数,主要有点估计(把样本统计量直接作为总体参数估计值)和区间估计【按预先设定的可信度(1-α),来确定总体均数的所在范围】。b假设检验:是以小概率反证法的逻辑推理来判断总体参数间是否有质的区别。 变量资料可分为定性变量、定量变量。不同类型的变量可以进行转化,通常是由高级向低级转化。 资料按性质可分为计量资料、计数资料和等级资料。 定量资料的统计描述 1频率分布表和频率分布图是描述计量资料分布类型及分布特征的方法。离散型定量变量的频率分布图可用直条图表达。 2频率分布表(图)的用途:①描述资料的分布类型;②描述分布的集中趋势和离散趋势;③便于发现一些特大和特小的可疑值;④便于进一步的统计分析和处理;⑤当样本含量足够大时,以频率作为概率的估计值。 ★3集中趋势和离散趋势是定量资料中总体分布的两个重要指标。 (1)描述集中趋势的统计指标:平均数(算术均数、几何均数和中位数)、百分位数(是一种位置参数,用于确定医学参考值范围,P50就是中位数)、众数。算术均数:适用于对称分布资料,特别是正态分布资料或近似正态分布资料;几何均数:对数正态分布资料(频率图一般呈正偏峰分布)、等比数列;中位数:适用于各种分布的资料,特别是偏峰分布资料,也可用于分布末端无确定值得资料。 (2)描述离散趋势的指标:极差、四分位数间距、方差、标准差和变异系数。四分位数间距:适用于各种分布的资料,特别是偏峰分布资料,常把中位数和四分位数间距结合起来描述资料的集中趋势和离散趋势。方差和标准差:都适用于对称分布资料,特别对正态分布资料或近似正态分布资料,常把均数和标准差结合起来描述资料的集中趋势和离散趋势;变异系数:主要用于量纲不同时,或均数相差较大时变量间变异程度的比较。 标准差的应用:①表示变量分布的离散程度;②结合均数计算变异系数、描述对称分布资料;③结合样本含量计算标准误。 定性资料的统计描述 1定性资料的基础数据是绝对数。描述一组定性资料的数据特征,通常需要计算相对数。定性变量可以通过频率分布表描述其分布特征。 2 指标频率型指标强度型指标相对比型指标 概念近似反映某一时间出现概率单位时间内某现象的发生 率 两个有关联的指标A和B之比 计算 公式 A/B 有无 量纲 无有可有、可无 取值 范围 【0,1】可大于1无限制 本质大样本时作为概率近似值分子式分母的一部分频率强度,即概率强度的 似 值 表示相对于B的一个单位,A有多少 位 A和B可以是绝对数、相对数和平均

统计学原理读书笔记

统计学原理读书笔记 1、统计工作是指对社会经济现象数量方面进行搜集、整理和分析工作的总称,它是一种社会调查研究活动。统计资料也即统计信息,是统计部门或单位进行工作所搜集、整理、编制的各种统计数据资料的总称,它是进行国民经济宏观调控的决策依据,是社会公众了解国情、国力和社会经济发展状况的信息主题。统计学是关于统计过程的理论和方法的科学。 2、统计学在研究社会经济现象时,首先从定性研究开始,即在搜集原始统计资料(统计调查)之前,就要根据所要研究对象的性质和研究任务、目的,确定调查对象的范围,规定分析这个对象的统计指标、指标体系和分组方法。——定性工作,为定量分析做准备。在定量分析基础上再达到认识社会经济现象的本质、特征或规律。 3、质——量——质 4、统计学特点: ①数量性(用大量数字资料说明事物的规模、水平、结构、比例关系、差别程度、普遍程度、发展速度、平均规模和水平、平均发展速度等) ②总体性(针对总体,研究过程是从个体到总体,即必须对足够大量的个体进行登记、整理和综合,是它过度到总体的数量方面,从而把握社会经济现象的总规模、总水平及其变化与发展的总趋势。 ③具体性(一定的质规定一定的量,一定的量表现一定的质。) ④社会性 5、统计工作的基本任务 ①全面、准确、及时地提供有关社会经济发展情况的资料为决策管理服务。 会议记录 买单率X 客单价 ‖‖ 商圈人流X20%=进店客流X(买单人数/进店客流数)X(营收/买单人数)=营收 进店客流少——行销品牌问题 买单率低——产品组合问题 客单价高——商圈和选址问题 选址在远离市区,开大商场,要求开车来,这样买单率和客单价会高,件单价会低,一买一车。选址在市内,开便利店,要求件单价高,客单价低,客流大。 人口变项——目的是做市调 人口结构——消费结构。 人口 品 项

卫生统计学-重点整理资料东大

卫生统计学 第一章绪论 1、卫生统计学的概念(P1) 卫生统计学是应用概率论和数理统计学的基本原理和方法,研究居民卫生状况以及卫生服务领域中数据的收集、整理和分析的一门科学,是卫生及其相关领域研究中不可缺少的分析问题。 2、卫生统计学的4个基本步骤(P3): 设计、收集资料、整理资料、分析资料 3、卫生统计学的几个基本概念(P4): ⑴同质:在统计学中,若某些观察对象具有相同的特征或属性,我们就称 之为同质,或具有同质性。 ⑵变异:同质个体的某项特征或属性的观察值或测量值之间的差 异。 ⑶总体:同质的所有观察单位某种特征或属性的观察值或测量值 的集合。 ⑷样本:从总体中随机抽取的具有代表性的部分观察单位的集 合。样本中 包含的观察单位个数成为样本含量。 ⑸参数:反映总体特征的指标,一般是未知的,常用希腊字母表 示,如总 体均数μ、总体率π等。 ⑹统计量:根据样本观察值计算出来的指标,常用拉丁字母表 示,如样本 均数x 、样本率等。

⑺变量与资料:对每个观察单位进行观察或测量的某项特征或属 性称为变 量;变量值的集合成为资料。 ⑻定量资料:亦称计量资料,其变量值是定量的,表现为数值大 小,一般 有度、量、衡单位。 ⑼定性资料:亦称分类资料,其观察值是定性的,表现为互不相 容的类别 或属性,一般无度、量、衡单位。可细分为:①计数资料; ②等级资料 第二章调查研究设计 ★1、调查研究的特点(P7): ①不能人为施加干预措施;②不能随机分组; ③很难控制干扰因素;④一般不能下因果结论 2、常用抽样方法(名称、原理): ⑴单纯随机抽样:先将调查总体的全部观察单位统一编号,然后 采用随机数字表、统计软件或抽签方法之一随机抽取n(样本大小)个编号,由这n个编号所对应的n个观察单位构成研究样本。 ⑵系统抽样:又称机械抽样或等距抽样。事先将总体内全部观察 单位按某一顺序号等距分成n(样本大小)个部分,每一部分内含m个观察单位;然后从第一部分开始,从中随机抽出第i 号观察单位,依此用相等间隔m机械地在第2部分、第3部分直至第n部分内各抽出一个观察单位组成样本。 ⑶分层抽样:先按对观察指标影响较大的某项或某几项特征,将 总体分成若干层,该特征的测定值在层内变异较小,层间变异

黄良文《统计学》(第2版)笔记和课后习题(含考研真题)详解 第1章 导 论【圣才出品】

第1章导论 1.1复习笔记 一、统计学的对象和方法 1.统计和统计学 (1)统计工作的产生和发展 统计工作就是通过社会调查或科学实验,搜集客观现象的现实数据,用来描述和分析自然、社会、经济、政治、文化现象的变化情况。其产生和发展过程包括: ①适应市场经济的发展以及国家对外扩张的需要,大大拓展了统计的活动范围。 ②设立统计专业机构,促成统计活动专业化、独立化。 ③统计方法的完善,大大提高了统计的认识能力。 ④电子计算技术为统计活动的现代化进程提供了手段。 (2)统计学的产生和发展 最初的统计学是作为国家重大事项的记述。这一学派称为国势学派或记述学派,其创始人是17、18世纪德国的海尔曼·康令(H.Conring,1606—1681)和高特弗洛里特·阿亨瓦尔(G.Achenwall,1719—1772)。 经历18世纪到19世纪中叶,把概率论引入统计学,使统计方法发生了重大的飞跃。其代表人物有法国的拉普拉斯(https://www.docsj.com/doc/f84748671.html,place,1749—1827)和比利时统计学家阿道夫·凯特勒(A.Quetelet,1796—1874)。政治算术派是以总体数量比较的方法对社会经济问题进行分析,代表人物有威廉·配第(W.Petty,1623—1687)和约翰·格朗特(J.Graunt,1620—1674)。 此后,应用概率论研究随机现象数量规律的数理统计方法及其在各个领域的应用迅速得

到发展。描述统计学以卡尔·皮尔逊(K.Pearson,1857—1936)为代表,到了20世纪20年代的推断统计学以费歇尔(R.A.Fisher,1880一1962)为创始人。 2.统计学的研究对象 统计学的研究对象是指统计研究所要认识的事物客体。统计对象的特点包括数量性、总体性、单位的变异性的特点。而社会经济统计学的研究对象除了具有上述的数量性、总体性、变异性外还具有社会性。 3.统计学的研究方法 (1)统计的组织系统 ①统计的社会系统 统计活动系统包括统计主体、统计客体和统计宿体三个组成部分。其统计流程图,如图1-1所示。 图1-1统计流程图 ②统计工作系统 统计主体的认识活动,有一个严密的工作系统。这个系统具有明显的层次性和阶段性。 统计工作过程一般分为统计设计、统计资料搜集、统计资料整理、统计资料分析、统计资料提供和管理等阶段。 2.统计研究的方法 (1)大量观察法 大量观察法:统计研究客观现象和过程的规律,是从现象总体上加以考察,就总体中的

卫生统计学知识点(笔记)

第一章绪论 1.统计学(statistics)是一门处理数据中变异性的科学与艺术,内容包括收集、分析、解释和表达数据,目的是求得可靠的结果。 2.▲总体(population)用来表示大同小异的对象全体,例如一个国家的所有成年人;某地的所有小学生。可分为目标总体和研究总体。若试图对某个总体下结论,这个总体便称为目标总体(target population);资料常来源于目标总体中的一个部分,它称为研究总体(study population)。需要谨慎的是,就研究总体所下的结论未必适用于目标总体。 3.▲样本(sample)是指从研究总体中抽取的一部分有代表性的个体。获取样本的过程称为抽样(sampling)。抽样研究的目的是用样本数据推断总体的特征。需要注意的是,统计学的结论从来就不是完全肯定或完全否定的,能不能成功地达到从样本推断总体的目的,关键是抽样的方法、样本的代表性和推断的技术。 4.▲同质(homogeneity)是指同一总体中个体的主要性质相同。 5.▲变异(variation)是指同质的个体之间存在的差异。 6.▲变量的类型 二分类变量 分类变量或名义变量 定性变量多分类变量 变量有序变量或等级变量 定量变量离散型变量 连续型变量 变量的转化:只能由“高级”向“低级”转化,即由信息量多的向信息量少的类型转化,如:定量有序分类二值 7.▲参数(parameter)是反映总体特征的指标,参数的大小是客观存在的,是一个常数,不会发生变化,然而往往是未知的,需要通过样本资料来估计,如总

体均数μ,总体标准差σ。 8.▲统计量(statistic)又称样本统计量,是反映样本特征的指标,是由观察资料计算出来的,如样本均数 X,样本标准差S。 统计学的任务就是依据样本统计量来推断总体参数。 9.▲概率与频率的区别:概率是参数,频率是统计量;频率总是围绕概率上下波动。当某事件发生的概率≤0.05时,即P≤0.05,统计学习惯上称该事件为小概率事件。 10.▲误差:表示统计量与参数之间的差别或测量值与真值之间的差别。可分为系统误差和随机误差,其中系统误差呈现倾向性偏大或偏小现象,是可以避免的;而随机误差,是非人为偶然因素所致,不可避免,但可通过增大样本量等措施使其减小。 11.因果与联系:存在联系未必有因果关系,需排除虚假关联、间接关联。大多数观察性研究,单靠统计学分析只能考察变量之间的联系,难以证明因果关系。

卫生统计学复习笔记

卫生统计学复习笔记 一、概述 1、卫生统计学的概念(熟练掌握) 统计学是研究数据的收集、整理和分析的一门科学,帮助人们分析所占有的信息,达到去伪存真、去粗取精、正确认识世界的一种重要手段。 卫生统计学是应用数统计学的原理与方法研究居民健康状况以及卫生服务领域中数据的收集、整理和分析的一门科学。 由此看出:统计学是处理资料中变异性的科学和艺术,是在收集、归类、分析和解释大量数据的过程中获取可靠结果的一门学科。这里强调了“过程”,但在实际工作中,许多人往往是忽略了设计、收集和归类(整理),到了分析数据时才想到统计学,此时难免发生“悔之晚矣”的憾事。作为统计学的应用者应充分认识到这一点。 卫生统计学的内容(了解): 1)健康统计:医学人口统计、疾病统计和生长发育统计等; 2)卫生服务统计:包括卫生资源利用、医疗卫生服务的需求、医疗保健体制改革等方面的统计学问题。 2、卫生统计学的工作步骤(熟练掌握) 统计学对统计工作的全过程起指导作用,任何统计工作和统计研究的全过程都可分为以下四个步骤: 1)、设计:在进行统计工作和研究工作之前必须有一个周密的设计。设计是在广泛查阅文献、全面了解现状、充分征询意见的基础上,对将要进行的研究工作所做的全面设想。其内容包括:明确研究目的和研究假说,确定观察对象、观察单位、样本含量和抽样方法,拟定研究方案、预期分析指标、误差控制措施、进度与费用等。设计是整个研究工作中最关键的一环,也是指导以后工作的依据 2)、收集资料:遵循统计学原理采取必要措施得到准确可靠的原始资料。及时、准确、完整是收集统计资料的基本原则。卫生工作中的统计资料主要来自以下三个方面:①统计报表:是由国家统一设计,有关医疗卫生机构定期逐级上报,提供居民健康状况和医疗卫生机构工作的主要数据,是制定卫生工作计划与措施、检查与总结工作的依据。如法定传染病报表,职业病报表,医院工作报表等。②经常性工作记录:如卫生监测记录、健康检查记录等。③专题调查或实验。 3)、整理资料:收集来的资料在整理之前称为原始资料,原始资料通常是一堆杂乱无章的数据。整理资料的目的就是通过科学的分组和归纳,使原始资料系统化、条理化,便于进一步计算统计指标和分析。其过程是:首先对原始资料进行准确性审查(逻辑审查与技术审查)和完整性审查;再拟定整理表,按照“同质者合并,非同质者分开”的原则对资料进行质量分组,并在同质基础上根据数值大小进行数量分组;最后汇总归纳。 4)、分析资料:其目的是计算有关指标,反映数据的综合特征,阐明事物的内在联系和规律。统计分析包括统计描述和统计推断。前者是用统计指标与统计图(表)等方法对样本资料的数量特征及其分布规律进行

卫生统计学重点整理-预防医学

1.卫生统计学:是应用概率论和数理统计学的基本原理和方法,研究居民卫生状况以及卫生 服务领域中数据的收集、整理和分析的一门科学。 2.同质(homogeneity):在统计学中,若某些观察对象具有相同的特征或属性称为同质的。 否则称为异质(heterogeneity)的或者间杂的。 3.变异(variation):同质事物之间的差别称为变异。[没有个体变异,就没有统计学!] 4.总体(population):根据研究目的所确定的同质观察单位的全体。 5.样本(sample):是从总体中随机抽取的具有代表性的部分观察单位的集合。 6.样本含量(sample size):样本中包含的观察单位个数。 7.参数(parameter):反映总体特征的指标。特点:未知、唯一,希腊字母表示,如总体均 数、总体率等。 8.统计量(statistic):根据样本观察值计算出来的指标。特点:已知、不唯一,拉丁字母 表示,如样本均数、样本率等。 9.变量(variable):研究者需要对每个观察单位的某项特征或属性进行观察或测量,这种特 征或属性称为变量。 10.变量值(value of variable):变量的观察值或测量值称为变量值或观察值(observed value)。 11.资料(data):变量值的集合称之为资料。 12.定量资料(quantitative data):变量值是定量的,表现为数值大小。特点:一般有度、 量、衡单位,一般属连续性资料。 13.定性资料(qualitative data):观察值是定性的,表现为互不相容的类别或属性。特点: 一般无度、量、衡单位,一般属于离散型资料。可进一步分为计数资料和等级资料。 14.计数资料(count data):将观察单位按某种类别或属性进行分组,清点各组观察单位数所 得的资料。可进一步分为二项分类资料和无序多项分类资料。 15.等级资料(ordinal data):将观察单位按照某种特质或属性的程度或等级顺序分组,清点 各组观察单位所得的资料。各属性之间互不相容且有程度的差别。 16.抽样研究(sampling research):从总体中随机抽取样本,通过样本信息推断总体特征的 研究方法。 17.抽样误差(sampling error):由随机抽样造成的样本统计量与总体参数之间、样本统计量 之间的差异。 18.概率(probability):概率是随机事件发生可能性大小的数值度量。通常用P表示。大小 介于0与1之间,即0≤P ≤1。 19.小概率事件:医学研究中,将概率小于等于0.05或0.01的事件称为小概率事件。 20.小概率原理:并不表示不可能发生,但在某一次试验中,是不会发生的。

卫生统计学重点笔记之欧阳家百创编

医师资格考试蓝宝书预防医学 欧阳家百(2021.03.07) 医学统计学方法 第一节基本概念和基本步骤(非常重要) 一、统计工作的基本步骤 设计(最关键、决定成败)、搜集资料、整理资料、分析资料。 总体:根据研究目的决定的同质研究对象的全体,确切地说,是性质相同的所有观察单位某一变量值的集合。总体的指标为参数。 实际工作中,经常是从总体中随机抽取一定数量的个体,作为样本,用样本信息来推断总体特征。样本的指标为统计量。 由于总体中存在个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体,这种由抽样引起的差异称为抽样误差。抽样误差愈小,用样本推断总体的精确度愈高;反之,其精确度愈低。 某事件发生的可能性大小称为概率,用P表示,在0~1之间,0和1为肯定不发生和肯定发生,介于之间为偶然事件, <0.05或0.01为小概率事件。 二、变量的分类

变量:观察单位的特征,分数值变量和分类变量。 第二节数值变量数据的统计描述(重要考点) 一、描述计量资料的集中趋势的指标有 1.均数均数是算术均数的简称,适用于正态或近似正态分布。 2.几何均数适用于等比资料,尤其是对数正态分布的计量资料。对数正态分布即原始数据呈偏态分布,经对数变换后(用原始数据的对数值lgX代替X)服从正态分布,观察值不能为0,同时有正和负。 3.中位数一组按大小顺序排列的观察值中位次居中的数值。可用于描述任何分布,特别是偏态分布资料的集中位置,以及分布不明或分布末端无确定数据资料的中心位置。不能求均数和几何均数,但可求中位数。百分位数是个界值,将全部观察值分为两部分,有X%比小,剩下的比大,可用于计算正常值范围。 二、描述计量资料的离散趋势的指标 1.全距和四分位数间距。 2.方差和标准差最为常用,适于正态分布,既考虑了离均差(观察值和总体均数之差),又考虑了观察值个数,方差使原来的单位变成了平方,所以开方为标准差。均为数值越小,观察值 的变异度越小。 3.变异系数多组间单位不同或均数相差较大的情况。变异系数计算公式为:CV=s/×100%,公式中s为样本标准差,为样本均数。 三、标准差的应用

统计学整理笔记

第二节统计表与统计图 一、统计表 统计表的作用:代替冗长的文字叙述,便于计算、分析和对比。 (一)列表原则 1、重点突出,简单明了:一张表一般只包括一个中心内容 2、主谓分明,层次分明:研究对象作横坐标,研究指标作纵坐标。 (二)统计表的基本结构及要求 1.标题 2.标目:横标目(主语)纵标目(谓语) 3.线条 4.数字(宾语) 5.备注 主语和谓语连贯起来能读成一句完整而通顺的话。 二、统计表的基本结构与要求 1、标题:概括地说明表的内容,必要时注明资料的时间和地点,写在表上方。 常见的错误:过于简略,甚至不写标题;或过于繁琐;或标题不确切。 2、标目:有横标目和纵标目,分别说明表格每行和每列数据的含义。横标目在表头的左侧,代表研究的对象;纵标目位于表头的右侧,表达研究对象的指标。文字简明扼要,有单位的标目要注明单位。 常见的错误:标目过多,层次不清 3、线条:不宜过多,一般采用3条线:顶线,底线,纵标目下的横线。其余线条一般均省去。不能有竖线和斜线。 4、数字: (1)数字一律用阿拉伯数字表示。 (2)同一指标的小数位数应一致,位次对齐。 (3)表内不宜留空格; 暂缺或未记录,用“…”表示; 无数字,用“—”表示;数字为0,填写0 (4)绝对数太小而无法计算指标,则用“…”代替。 5、备注:一般不列入表内,必要时可用“*”号标出,写在表的下面。 三、统计图及其应用 (一)统计图作用 通过点、线、面等形式表达统计资料,直观地反映事物之间的数量关系。但需注意,由于统计图对数量的表达较粗糙,不便于作深入细致的分析,一般需附相应的统计表。 (二)统计图的种类 条图,百分条图,圆图,线图,半对数线图,直方图,散点图,统计地图 (三)制图的基本要求 1.按资料的性质和分析目的,选用适合的图形 2.要有标题,扼要说明资料的内容,必要时注明时间、地点,一般写在图的下面。 3.横轴尺度从左到右,纵轴尺度从下而上,数量一律由小到大。横轴与纵轴坐标长度比例一般为5:7 4.比较不同事物,用不同线条或颜色表示,并附上图例说明。 (四)常见统计图适用范围及其绘制要点 1、条图(bar graph): (1)适用范围:相互独立的资料(病种、职业、民族等),常用形式:单式和复式 (2)绘制要点: A.用等宽的直条的长短反映各指标的数量大小。 B.纵轴的尺度必须从0开始。 C.各直条之间的间隙应相等,一般将比较的指标按大小顺序排列。

相关文档
相关文档 最新文档