极差:一组数据的最大值与最小值之差称为极差,也称全距,用R表示。其计算公式为:R=max(xi)-min(xi)
离散系数:也称为变异系数,它是一组数据的标准差与其相应的平均数之比。其计算公式为:V=S/X。离散系数是测量数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。
三大统计分布:卡方分布、T分布、F分布
卡方分布(χ2)
定理:设n个相互独立并且都服从正态N(0,1)分布的随机变量X1、X2,……Xn,记
则随机变量χ2服从自由度为n的χ2分布。
统计变量服从卡方分布,其含义是:在给定概率α的条件下,满足
或者说表达式的概率为α。
T分布
定理:设随机变量x,y相互独立,X~N(0,1),Y~χ2(n)记。则随
机变量T服从自由度为n的t分布。
设T~t(n),0<α<1,对于满足下列等式
的数t a(n),称为t(n)分布的上侧分位数。对于较大的n(>45)可以同标准正态分布的上侧分位数u a作为t(n)分布的上侧分位数
F分布
定理:设随机变量x,y相互独立,X~χ2(n1),Y~χ2(n2)记,则随机变量F服从第一自由度为n1,第二自由度为n2的F分布,记作:F~F(n1,n2)
若F~F(n1,n2),易知:,若
则
统计量:描述样本特征的概括性数字度量。完全由样本决定的量,叫做统计量;或者说不含有其他未知量的样本的函数称为统计量。统计量可以看做是对样本的一种加工,它吧样本中所包含的关于总体的其一方面的信息集中起来。最常用的统计量是样本均值和样本
方差S 2。
自由度:随机变量所包含的独立变量的个数。
参数估计:就是用样本统计量去估计总体的参数。在参数估计中,用来估计总体参数的统计
量的名称称为估计量,用符号θ表示。样本均值、样本比例、样本方差等都可以是一个
估计量。而根据一个具体的样本计算出来的估计量的数值称为估计值。参数估计的方法
有点估计和区间估计两种。
点估计:就是用样本统计量θ的某个取值直接作为总体参数θ的估计值。
区间估计:是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统
计量加减估计误差得到。与点估计不同,进行区间估计时,根据样本统计量的抽样分布
可以对样本统计量与总体参数的接近程度给出一个概率度量。
样本量:从总体中抽取的一部分元素的集合为样本,构成样本的元素的数目为样本量。样本
量的大小是选择检验统计量得一个要素。
置信区间:在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间。
置信水平:将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比
例称为置信水平。表示为(1-α)%,α为是总体参数未在区间内的比例。也称置信度
或置信系数。
假设检验:利用样本信息,对提出的命题进行检验的一套程序和方法。事先对总体参数或分
布形式作出某种假设,然后利用样本信息来判断假设是否成立;有参数假设检验和非参
数假设检验。采用逻辑上的反证法,依据统计上的小概率原理。
单侧检验:拒绝域在右侧或者在左侧的假设检验,左单侧检验 右单侧检验
双侧检验:拒绝域在两侧的假设检验
原假设:提出一个或两个参数是否等于或大于、小于某个特殊值的命题。H0:有待检验的
假设,又称0假设,收集证据予以反对的假设(总是有等号)
备择假设:H1:又称研究假设,收集证据予以支持的假设。与原假设相对立的假设(总是
有不等号)
方差分析:缩写为ANOV A ,就是通过检验各总体的均值是否相等来判断分类型对数值型变
量是否有显著影响的统计方法。
因子和处理:在方差分析中,所要检验的对象称为因素或因子,是所研究的分类型变量的另
一个名称。因素的不同表现称为处理或水平。
总平方和:记为SST 。它是全部观测值xij 与总均值x 的误差平方和。
组间平方和:记为SSA ,它是各组均值xi 与总均值x 的误差平方和,反应各样本之间的差
异程度,因此又称为因素平方和。
组内平方和:记为SSE ,它是每个水平或组的各样本数据与其组均值的误差平方和,反应了
每个样本观测值的离散情况,因此称为组内平方和。该平方和反应了随机误差的大小。
SST 、SSA 、SSE 之间的关系:
组间方差:SSA 的均方,也称为组间均方,记为MSA ,其计算公式为:
MSA=组间平方和/自由度=SSA/k -1
组内方差:SSE 的均方,也称为组内均方,记为MSE ,其计算公式为:
MSE=组内平方和/自由度=SSE/n -k
将上述MSA 与MSE 进行对比,即得到所需要的检验统计量F 。当H 0为真时,二者的
比值服从分子自由度为k -1、分母自由度为n -k 的F 分布。
单因素方差分析:研究一个分类型自变量同数值型因变量之间关系的一种统计方法。 =====-+k i n j ij k i i i k i n j ij i i x x 11
212112()()()∑∑∑∑∑=====-+-=-k i n j ij k i i i k i n j ij i i x x x x n x x
11212112
双因素方差分析:研究两个分类型自变量同数值型因变量之间关系的一种统计方法。当方差
分析中涉及两个分类型自变量时,称为双因素方差分析。无重复双因素分析 有重复双
因素分析
相关关系:变量之间存在的不确定的数量关系,称为相关关系,一个变量的取值不能由另一
个变量唯一确定。
相关系数:是根据样本数据计算的度量两个变量之间线性关系强度的统计量。若相关系数是
根据总体全部数据计算的,称为总体相关系数,记为ρ;若使根据眼根数据计算的,则
称为样本相关系数,记为r 。样本相关系数的计算公式为:
LSD :最小显著差异法。存在一定的缺陷。在都与对照相比时可以使用该法。是对检验两个总计均值是否相等的t 检验方法的总体方差估计加以修正(用MSE 来代替)而得到的。
式中,t α/2为t 分布的临界值,通过
查t 分布表得到,其自由度为(n -k ),
这里的k 是因素中水平的个数;MSE
为组内方差;ni 和nj 分别是第i 个
样本和第j 个样本的样本量。
简述评价估计量好坏的标准。
1. 无偏性:估计量抽样分布的数学期望等于被估计的总体参数。设总体参数为θ,所选择
的估计量为θ,如果E (θ)=θ,则称θ为θ的无偏估计量。
2. 有效性:对同一总体参数的两个无偏点估计量有更小标准差的估计量更有效。在无偏估
计的条件下,估计量的方差越小,估计也就越有效。
3. 一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数。换而言之,
一个大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数。
怎样理解置信区间?
在区间估计中,又样本统计量所构造的总体参数的估计区间称为置信区间,其中区间的
最小值称为置信下线,最大值称为置信上线。由于统计学家在某种程度是上确信这个区间会
包含真正的样本的总体参数,所以给它取名为置信区间。
什么是假设检验中的两类错误?两类错误之间存在什么样的数量关系?
一类错误是原假设H 0为真却被我们拒绝了,犯这种错误的概率用α表示,所以也称α
错误或弃真错误;另一类错误是原假设为伪我们却没有拒绝,犯这种错误的概率用β表示,
所以也称β错误或者取伪错误。
α和β在数量上是此消彼长的关系。
2
222y ()()2222∑∑∑∑∑∑∑-?--=
y y n x x n y
x xy n r
简述假设检验的基本步骤。
1.提出假设
2.确定适当的检验统计量
3.规定显著性水平
4.计算检验统计量的值
5.作出统计决策
方差分析包括哪些类型?它们有何区别?
1.单因素方差分析:研究一个分类型自变量最一个数值型因变量的影响。
2.双因素方差分析:究两个分类型自变量同数值型因变量之间关系的一种统计方法。当方
差分析中涉及两个分类型自变量时,称为双因素方差分析。无重复双因素分析:两个影响因素相互独立;可重复双因素分析:两个因素有交互作用,结合后产生新的影响。
简述方差分析的基本思想。
方差分析的基本假定:1.每个总体都应服从正态分布2.各个总体的方差必须相同(同质性)3.观察值是独立的
方差分析的基本思想和原理:1.判断均值之间是否有差异时需要借助于方差。2,。通过对数据误差来源的分析判断不同总体的均值是否相等。 3.即:判断均值之间是否有差异需要进行方差分析。
解释R2的含义和作用。
R2称为多重判定系数,在无重复双因素方差分析中用于关系强度的测量。行因素所产生的误差平方和记为SSR,列因素所产出的误差平方和记为SSC,这两个平方和加在一起则度量了两个自变量对因变量的联合效应,联合效应与总平方和的比值定义为R2,其平方根R 则反映了这两个自变量合起来与因变量之间的关系强度。即:R2=联合效应/总效应=SSR+SSC/SST
简述相关系数的性质。
1.r的取值范围为-1到1,r=1时,完全正线性相关
R=-1时,完全负线性相关
R=0时,不存在线性相关关系
0>r>=-1,负线性相关
0 R越趋近于+—1,线性相关关系越密切 R越趋近于0,线性相关关系越不密切 2.r具有对称性。x与y之间的相关系数和y与x之间的相关系数相等。 3.r数值大小与x和y的原点及尺度无关。 4.r仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。 5.r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系。 简述相关系数显著性检验的步骤。 1.提出假设:H0:p=0;H1:P不等于0 2.使用t检验的方法,根据公式计算检验的统计量得出t~t(n-2) 3.根据置信度a,查表,确定接受区域和拒绝区域 4.检验t在哪个区域:若t在拒绝域,则拒绝H0;若t在接受域,则不拒绝H0 5.如果求出两变量之间的线性相关系数,并且证明了两者有显著相关性,则考虑用一 简述参数最小二乘估计的基本原理。 未知量的最可能值是使各项实际观测值和计算值之间差的平方乘以其精确度的数值以后的和为最小。 在回归分析中,F检验和t检验各有什么作用? F检验(线性关系检验)是检验自变量x和因变量y之间的线性关系是否显著,或者说,它们之间能否用一个线性模型y=β1+β2x+ε来表示。 t检验(回归系数检验)是要检验自变量对因变量的影响是否显著。 参数估计: 1,样本均值根据1-a%这样的概率水平构造了一个置信区间,而总体均值在这个区间里的概率为1-a%,即置信水平为1-a%,显著性水平为a%。 1,一个总体参数的估计的评估:首先看其是否是无偏性,即估计量的抽样分布的数学期望与被估计的总体参数一样;其次,对同一总体参数的两个无偏点,以其方差小的更有效; 一致性,即随着样本容量逐渐增大,估计量应该越来越接近被估计的总体参数。 2,关键掌握几个公式(1),总体均值的估计区间 (2),总体方差的估计区间 方差分析: 1,就是比较组间方差和组内方差,如果相等,则说明组间没有显著性差异,也就是说不同品种不造成影响。因为组间方差既包含系统误差也包含随机误差,组内方差只包含随机方差。 2,误差来源也就是说是组间的还是组内的,方差分析就是对误差来源的分析,判断均值是否相同。前提是三个假定:正态分布,每组的组内方差相同,相互独立 个线性关系式表达两者之间的线性关系 单因素方差分析: (1),提出假设:H0,H1 (2),计算出每组的平均值X1,计算出总体的平均值X0,计算出总平方和SST,即所有数值的分散情况 (3),计算出组间平方和SSA,即各组均值的分散情况 (4),计算出组内平方和SSE,即各个观察值与该组的均值的平方和之和(所有组) SST(总误差)=SSA(系统误差和随机误差)+SSE(随机误差) 所以,如果没有显著性差异,则应该是不存在系统误差,那么就是说SSA/自由度=SSE/自由度 SST自由度为n-1 SSA自由度为k-1 SSE自由度为n-k 所以现在需要计算的是SSA/(k-1)与SSE/(n-k)的值,即MSA/MSE,得到的值遵循F分布,其实也就是得到一个F值,然后在给定的显著性水平下,根据k-i和n-k的值在表中查到一个对应的Fa值,比较两者的大小,如果Fa>F,则不接受H0 双因素方差分析: (1),同单因素一样,首先进行假设,H0,H1;H0,H1(因为是两个因素,所以要分别的假设,最后的结果也是分开的,分别的检验) (2),求出总误差平方和SST,自由度为kr-1 行误差平方和SSR,自由度为k-1 列误差平法和SSC,自由度为r-1 随机误差项平方和SSE,自由度为(k-1)(r-1) SST=SSR+SSC+SSE (3),根据各误差平方和和自由度,求出各均方,MST,MSE,MSR,MSC 下面的步骤和单因素类似,根据行误差均方和随机误差均方的比值MSR/MSE=Fr 根据列误差均方和随机误差均方的比之MSC/MSE=Fc 分别就两种因素中的一种检验,根据自由度,给定的置信度,查出Fa。分别查找行行和列的,分别比较 回归分析与相关分析的区别 1.相关分析中,变量x变量y 处于平等的地位; 2.回归分析中,变量y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化. 3.相关分析主要是描述两个变量之间线性关系的密切程度; 4.回归分析不仅可以揭示变量x 对变量y 的影响大小,还可以由回归方程进行预测和控制。 回归分析与相关分析的联系 相关分析反映的是一元回归分析所揭示的两个变量之间线性关系的密切程度; 弃法法则: 1.四舍五入法 2.四舍六入五单双法 ?(1)四舍六入 ?(2)若舍入的该位数是5,则分情况: a.若该位数前为奇数,或该位数后还有不为零的数字,则入; b.若该位数后数字全为0,且其前为偶数,则舍去。 计算法则: (1)进行加减法运算结果的有效位数,自左起不超过参加运算中的数值第一个出现的可疑数字位数,如:1.48+1.23+21.40=24.11=24.1 (2)进行乘除运算,其积商保留的有效数字可比参加运算的有效数字数最少数多一位。如: 0.032×6.0346=0.032×6.03=0.193088(0.1931072)=0.193=0.19 (3)求平方、立方、开方运算中,其结果的有效数字与原数值的有效数字位数相同。 如1.22=1.44=1.4 (4)在对数和反对数运算中,所确定的对数的小数点后的位数应与真数有效数字位数相同。(5)统计计算中,平均值的精度通常较个别观测值高。 多于4个观测值的平均数有效数字比个别观测值多保留一位。 在表示测定精度时,标准差取二位有效数,每当观测参数很大(>50)时,才多取一位。