当前位置：文档视界 › 统计学复习资料(名词解释、简答)

统计学复习资料(名词解释、简答)

t h

b e

统计学复习资料（名词解释、简答）

计算题：以老师圈的重点，以及之前布置的作业为主，重点复习11/12章一、名词解释：

时间序列数据：是在不同时间收集到的数据，这些数据是按时间顺序收集到的，用于所描述现象随时间变化的情况。

总体：是包含所研究的全部个体（数据）的集合

样本：是从总体中抽取的一部分元素的集合样本量：构成样本的元素的数目统计量：用来描述样本特征的概括性数字度量参数：用来描述总体特征的概括性数字度量

概率抽样:即随机抽样，遵循随机原则进行的抽样，总体中每个单位都有一定的机会被选入样本

非概率抽样：抽取样本时不是依据随机原则，而是根据研究目的对数据的要求，采用某种方式从总体中抽出部分单位对其实施调查

简单随机抽样：指从总体N 个单位中任意抽取n 个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。

分层抽样：将抽样单位按某种特征或某种规则划分为不同的层，然后从不同的层中独立、随机地抽取样本

整群抽样：是将总体中各单位归并成若干个互不交叉、互不重复的集合，称之为群；然后以群为抽样单位抽取样本的一种抽样方式。

系统抽样：根据样本容量要求确定抽选间隔，然后随机确定起点，每隔一定的间隔抽取一个单位的一种抽样方式

抽样误差：由抽样的随机性引起的样本结果与总体真值之间的误差

分组数据：根据统计研究的需要，将原始数据按照某种标准化分成不同的组别，分组后的数据称为分组数据。方法有单变量值分组和组距分组两种。

众数：是一组数据中出现次数最多的变量值

中位数：是一组数据排序后处于中间位置上的变量值

平均数：也称均值，是一组数据相加后除以数据的个数得到的结果算术平均数：是指在一组数据中所有数据之和再除以数据的个数.几何平均数：是n 个变量乘积的n 次方根

方差：各变量值与其平均数离差平方的平均数经验法则：

当一组数据对称分布时，经验法则表明：

约有68%的数据在平均数1个标准差的范围之内。±约有95%的数据在平均数2个标准差的范围之内。±约有99%的数据在平均数3个标准差的范围之内。 ±离散系数：是一组数据的标准差与其相应的平均数之比偏态：它是对数据对称性的测度。（不要求计算，但求了解偏什么） SK<0,左偏

SK=0，分布对称； SK>0,右偏

参数估计：用样本统计量去估计总体的参数估计量：用来估计总体参数的统计量

区间估计：在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本

e a

o 统计量加减估计误差得到.

置信水平：将构造置信区间的步骤重复多次，置信区间中包含总体参数真值的次数所占的比例

相关系数：是根据样本数据计算的度量两个变量之间线性关系强度的统计量。判定系数：回归平方和占总平方和的比例。

估计标准误差：度量各实际观测点在直线周围的散布状况的一个统计量。残差：是因变量的观测值与根据估计的回归方程求出的预测值之差

多重判定系数：多元回归中回归平方和占总平方和的比例，度量多元回归方程拟合程度的一个统计量，反映了在因变量的变差中被估计的回归方程所解释的比例。

多重共线性：是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。

时间序列：是同一现象在不同时间上的相继观察值排列而成的序列。平稳序列：基本上不存在趋势的序列。

季节性：时间序列在一年内重复出现的周期性波动。

周期性：是时间序列中呈现出来的围绕长期趋势的一种波浪形或震荡式变动。线性趋势：指现象随着时间的推移而呈现出稳定增长或下降的线性变化规律。（不掌握计算）

二、简答：

一、概率抽样与非概率抽样比较

答：非概率抽样不是依据随机原则抽选样本，样本统计量的分布是不确切的，无法使用样本的结果对总体相应的参数进行推断。特点是操作简便、时效快、成本低

概率抽样是依据随机原则抽选样本，统计量的理论分布是存在的。可根据调查的结果对总体的有关参数进行估计。特点是技术含量高，成本较高

频数：指变量值中代表某种特征的数（标志值）出现的次数。频率：每个对象出现的次数与总次数的比值二、众数中位数平均数的比较

1.答：（1）众数是一组数据分布的峰值，是一种位置代表值。其优点是不受极端值影响。其缺点是具有不唯一性。（1分）

（2）中位数是一组数据中间位置上的代表值，也是位置代表值，其特点是不受数据极端值的影响。（1分）

（3）均值是就全部数据计算的，它具有优良的数学性质，是实际中应用最广泛的集中趋势测度值。其主要缺点是易受数据极端值的影响。（1分）

应用场合：当数据呈对称分布或接近对称分布时，三个代表值相等或接近相等，这时应选择均值作为集中趋势的代表值；当数据为偏态分布，特别是当偏斜的程度较大时，应选择众数或中位数等位置代表值，这时它们的代表性要比均值好。此外，均值只适用于定距或定比尺度的数据，而对于定类和定比尺度的数据则无法计算均值，但却可以计算众数和中位数。

三、为什么要使用变异系数

答：标准差是反映数据分散程度的绝对值，其数值的大小一方面取决于原变量值本身水平高低的影响，也就是与变量的均值大小有关。（2分）。

因此，对于平均水平不同或计量单位不同的不同组别的变量值，是不能直接用上述离散程度的测度值直接进行比较的。为了消除变量值水平高低和计量单位不同对离散程度测度值的影响，而需要计算标准差系数

四、什么是假设检验的P值？如何根据P值作出假设检验的结论？

答：拒绝原假设的最小的显著性水平，被称为观察到的显著性水平（2分）。1、离中趋势的指标有哪些（至少列出三个），它们之间有何区别？

五、影响抽样误差的因素有哪些？

答：总体各单位的差异程度（即标准差的大小），总体各单位的差异程度越大，抽样误差越大；样本单位数的多少，样本单位数越大，抽样误差越小；抽样方法：不重复抽样的抽样误差比重复抽样的抽样误差小；抽样组织方式：简单随机抽样的误差最大。

六、相关分析和回归分析的联系与区别？

答：相关分析，就是用一个指标来表明现象相互依存关系的密切程度。回归分析，就是根据相关关系的具体形态，选择一个合适的数学模型，来近似地表达变量间的平均变化关系

联系：（1）相关分析是回归分析的基础和前提（2）回归分析是相关分析的继续和深入。区别：（1）相关分析中两个变量是对等关系，回归分析中则必须确定哪个是自变量，哪个是因变量；（2）相关分析主要用来测试变量之间关系的密切程度，回归分析主要用来研究自变量与因变量之间的一般关系值；（3）两个现象之间的相关系数是唯一的，而回归系数则可能有两个。

七、假设检验一般有哪些步骤？

答： 1.提出原假设和备择假设（2分）

2.确定适当的检验统计量（2分）

3.规定显著性水平α，确定临界值（2分）

4.计算检验统计量的值（2分）

5.作出统计决策（2分）

八、评价估计量的标准

（1）无偏性，估计量抽样分布的数学期望等于被估计的总体参数

（2）有效性，对同一总体参数的两个无偏估计量，有更小标准差的估计量更有效

（3）一致性，随着样本量的增大，估计量的值越来越接近被估总体的参数

九、影响样本容量的决定的因素

（1）总体各单位标志变异程度；

（2）允许误差的大小；

（3）概率度的大小；

（4）抽样方法不同；

（5）抽样方式不同。

十、假设检验的步骤：

1.提出原假设与备择假设

2.确定适当的检验统计量，并计算其数值

3.根据统计量比较数值大小，作出统计推断

十一、相关关系的主要内容：

0＜r≤1，存在正相关关系

－1≤r＜0，存在负相关关系

r＝1，完全正相关关系

r＝－1，完全负相关关系

r＝0，不存在线性相关关系

十二、多重共线性的表现

1.变量之间高度相关可能会是回归的结果混乱，甚至会把分析引入歧途

2.可能对参数估计的正负号产生影响

十三、时间序列预测的步骤

1.确定时间序列所包含的成分，也就是确定时间序列的类型

2.找出适合此类时间序列的预测方法

3.对可能的预测方法进行评估，已确定最佳预测方案

4.利用最佳预测方案进行预测