文档视界 最新最全的文档下载
当前位置:文档视界 › 数据分析方法与技术-描述性方法统计实验报告讲解

数据分析方法与技术-描述性方法统计实验报告讲解

数据分析方法与技术-描述性方法统计实验报告讲解
数据分析方法与技术-描述性方法统计实验报告讲解

电子科技大学政治与公共管理学院本科教学实验报告

(实验)课程名称:数据分析技术系列实验

电子科技大学教务处制表

电 子 科 技 大 学

实 验 报 告

学生姓名: 学 号:

指导教师:

一、实验室名称: 电子政务可视化实验室 二、实验项目名称:描述性统计方法 三、实验原理

通过调查或观察,采集到样本以后,常用一些统计量描述这些数据的分布状态,并通过这种认识,对数据的总体特征进行总结和归纳。数据的分布状态常通过数据的进行描写。

本实验主要对数据统计分析的最基础分析——描述性统计分析进行实验,主要包括集中趋势和离中趋势分析,其主要算法原理如下:

1. 描述集中趋势的统计

(1) 算术平均值(Mean):样本数据的总和除以样本数据的个数即是算术平均值。

∑∑==?=

n i i

n

i i

i

f

f X

X 1

1

(2) 中位数(Median ,Me)

首先将样本数据(假设有n 个数)按升序或降序排列,如果 n 为奇数,则数列中间的数值为中位数;如果n 为偶数,则中位数为其中两数值的均值。

(3) 众数(Mode ,Mo)

样本数据中出现频数(次数)最多的那个数称为众数。众数不易确定,与中位数一样,它不受极值影响。但有时会出现两个甚至多个众数,有时又没有众数。所以,众数的使用受到严格限制。

(4) 几何平均数(Geometric Mean)

假定银行每年本利(本金加利率)为 X 1 有 f 1 年,年本利为 X 2 有f 2 年,银行年本利为X 3 有 f 3 年,? ,年本利为X n 有 f n 年,则n 年银行平均本利为G ,银行平均年利率G -1。

∑=

????=∏=+++n

i

i

i

n n f n

i f i

f f f f n

f f f X

X X X X G 1

)

(3

2

1

21321

(5) 四分位数(Quartiles)

最低数与中位数之间的中位数是25分位数,原中位数与最高数之间的中位数是75分位数。类似集中趋势的度量还有十分位数和百分位数。

2. 描述离中趋势的统计量 (1) 极差(Range)

是样本数据中最大值与最小值的差值。极值舍弃了最大值与最小值之间的其他数据信息,仅仅依靠端点值来确定,因而稳定性差。

(2) 平均差(Average Difference)

指各样本数据与均值间差异绝对值的均值,也称为平均绝对差。 (3) n 个数据的方差(Variance)

2σ 定义如下式,其中X 为这 n 个数的均值。

∑∑==-=

n

i i

n

i i

i f

f X X

1

1

22)(σ

(4) 标准差 (Standard Deviation, Std Dev)

是方差的算术平方根 σ 。标准差是变量与算术平均数的平均离差,也是最常用的反映数据离中趋势的统计量。但是,在抽样调查中总体标准差往往未知,需要用样本标准差代替总体标准差,总体方差的无偏估计量应该为原方差乘以修正因子 (n / n -1),并由此得到无偏标准差的估计量。

四、实验目的

掌握常用的描述性统计方法的原理及操作,包括:算术平均值、中位数、众数、几何平均数、调和平均数、极差、平均差、方差、标准差等。

五、实验内容及步骤

使用“Analyze ” 莱单中的“Descriptive Statistics ”功能进行描述性统计分析。

1.频数分析

“Frequencies ” 过程通过单个数据的频数分析(Frequencies )来达到整理数据的目的,

利用该过程,得到一系列描述数据分布状况的统计量。

单击“Frequencies ”命令则可打开相应对话框(如图示),对对话框中各选项进行设置。

图 2

(1)对话框左侧的源变量名列表框中,给出了当前数据文件中所有变量的变量名。

(2)“Variable(s)”列表框,在变量名列表框中单击变量名以后,单击对话框中间的右箭头按钮,将变量名移到该列表框中。选定变量名以后,将对选定变量的数据进行频数分析。

(3)选择“Display frequency tables”选项,将在浏览器中显示频数分布表,否则只显示直方图,不显示频数表。

(4)若单击“Statistics”按钮,则打开统计量选择对话框,如图示,该对话框中各选项的意义如下。

图 3

①“Percentile Values”选项区,可计算并显示如下内容: 四分位数(“Quartiles”)、等间隔n 分位数(“Cut points for”后文本框中输入数值为n ) 和不等间隔“Percentile(s)”分位数p%、q% 。“Percentile(s)”选项后面的文本框中依次先后输人数值p、q,单击

“Add”按钮,显示在文本框中,利用“Change”和“Remove”按钮,可以对文本框中列表进行修改。

②“Central Tendency”将显示样本的集中趋势,如计算并显示样本数据的均值“Mean”,数据的中位值“Median”,数据的众数“Mode”,数据的累加和“sum”。

③“Values are group midpoints”选项,表示假设数据已经分组,数据取值为组中值,选择此项,可计算百分位数统计和数据的中位数。

④“Dispersion”选项区将计算并显示数据的离中趋势,如计算并显示标准差“std. Deviation”,方差“Variance”,极差“Range”,最小值“Minimum”,最大值“Maximum”,和标准误(平均值的标准误差)“S.E. mean”。

⑤“Distribution”选项区设置描述数据样本分布的统计量。如显示样本数据的偏度“Skewness”和偏度的标准误差,样本数据的峰度“Kurtosis”和峰度的标淮误差。

(5)“Charts”按钮是图形选择对话框,如图所示,各选项的意义如下。

图 4

①“Chart Type”确定输出图形的类型。不生成和显示图形选择“None”单选项(默认选项);生成和显示条形图(横坐标非等距坐标)选择“Bar charts”;生成和显示饼图选择“Pie charts”;生成和显示直方图(横坐标为等距坐标)则选择“Histograms”。若选择“Histograms”后,“Show normaI curve”选项为可用,选择此项后,在生成和输出直方图时添加正态分布曲线。

②若选择“Bar charts ”或“Pie charts”单选项,对话框底部“Chart Values”选项区内的选项为可用,该选顼要求确定生成图形时所用的数据变量。若用不同取值的样本数作为分类变量的度量,选“Frequencies”(默认项);若用不同取值对应样本数占总样本的百分数作为分类变量度量,选用“Percentages”选项。

(6)“Format”是频数分析表的输出格式选择对话框,如图所示,各选项的意义如下。

图 5

①“Order by”选项区设置表中数据的排列、输出顺序。若按照变量值的大小做升序排列(默认选项),选“Ascending values”单选项;若按照变量值的大小做降序排列,选“Descnding values”单选项;按照变量值出现的频数做升序排列、输出,选“Λ∞cIldlng cllun‘”单选项;按照变量值出现的频数做降序排列、输出,选“D岱ccnding counts”单选项。

②“Multiple Variables”选项区是多变量的表格显示格式。若选择“Compare Variables”(默认选项),将对应于各变量的统计量显示在一张单独的表中。若选择“Organize output by Variables”单选项,将对应于各变量的统计量分别列表显示。

③“Suppress tables with many categories”选项是限定频数表输出的范围,若选择此项,在后面的文本框中输入数值n ,即输出数据的组数不得大于窗口中输入的数值。默认时该数值为10 。

2. 描述性统计分析

在“Analyze”子菜单中单击“Descriptives Statistics”命令(如图示),打开“Descriptives ”对话框(如图55所示),可见如下选择项。

图 6

图7

①从左边的源变量中选择合适变量,用箭头按钮将其移到“Variables”选项框。对选项框中所有被选中变量数据的分布特征进行描述。

②“Save standardized values as variables”选项,是将被选中变量的数据进行标准化

处理(

σX

X ZX i

i -

=),变量名为原变量名前添加字母Z。新生成的变量和数据保存到当前数据文件内,并显示在数据编辑器最后一列。

③若单击“Options”按钮打开对话框,如右图所示,

各选项意义如下。

“Mean”选项、“Sum”选项、“Dispersion”选项区

内的选项和“Distribution”选项区内选项意义与前面频数分

析中“Statistics”对话框的内容相同。“Display Order”选项

区,用来设置描述表格中数据的显示顺序。“Variable list”单

选项为默认选项,是按照数据文件中变量排列的先后顺序显

示表格中的描述统计量;“Alphabetic”单选项,按照变量名

的字母顺序显示描述统计量;“Ascending meansⅡ单选项,

是按照数据均值的升序显示描述统计量;“DescendiⅡg

means”单选项,则按照数据均值的降序显示描述统计量。

六、实验器材(设备、元器件):

计算机、打印机、硒鼓、碳粉、纸张

八、实验数据及结果分析

1. 频数分析结果

在数据编辑器中打开数据文件“Employee.sav”,在“Frequencies”对话框中的

相关文档