统计软件应用数据分析报告
课程名称:统计软件应用
专业: 2011级注会
学号: 09
姓名:牛牧童
SPSS聚类分析实验报告
一、实验目的:
1、理解聚类分析的相关理论与应用
2、熟悉运用聚类分析对经济、社会问题进行分析
3、熟练SPSS软件相关操作
二、实验要求:
1、生成新变量总消费支出=各变量之和
2、对变量食品支出和居住支出进行配对样本T检验,并说明检验结果
3、对各省的总消费支出做出条形图
4、利用K-Mean法把31省分成3类
5、对聚类分析结果进行解释说明
6、完成实验报告
三、实验方法与步骤
准备工作:把实验所用数据从Word文档复制到Excel,并进一步导入到SPSS数据文件中。分析:由于本实验中要对31个个案进行分类,数量比较大,用系统聚类法当然也可以得出结果,但是相比之下在数据量较大时,K均值聚类法更快速高效,而且准确性更高。
四、实验结果与数据处理:
1.用系统聚类法对所有个案进行聚类:
生成新变量总消费支出=各变量之和如图所示:
2. 对变量食品支出和居住支出进行配对样本T检验,如图所示:
得出结论:
3. 对各省的总消费支出做出条形图,如图所示:
4.对聚类分析结果进行解释说明:
K均值分析将这样的城市分为三类:
第一类北京、上海、广东
第二类除第一类第三类以外的
第三类天津、福建、内蒙古、辽宁、山东
第一类经济发展水平高,各项支出占总支出比重高,人民生活水平高。第二类城市位于中西部地区,经济落后,人民消费水平低。第三类城市位于中东部地区,经济发展较好。
迭代历史记录a
迭代 聚类中心内的更改
1
2
3
1 2 3 4 .123
5 6 7 .724 8 .034 9 .002
10
.148
a. 迭代已停止,因为完成了最大次数的迭代。迭代无法收敛。任何中心的最大绝对坐标更改为 。当前迭代为 10。初始中心间的最小距离为 。
聚类成员
案例号 地区 聚类
距离
1 北京 1
2 浙江 1
3 天津 3
4 福建 3
5 广东 1
6 河北 2
7 山西 2
8 吉林 2 9
黑龙江
2
初始聚类中心
聚类
1
2
3
食品支出 衣着支出 居住支出
家庭设备及服务支出 医疗保健支出 交通和通信支出 文化与娱乐服务支出 其它商品和服务支出 总消费支出
10河南2
11甘肃2
12青海2
13宁夏2
14新疆2
15内蒙古3
16辽宁3
17山东3
18西藏2
19广西2
20海南2
21四川2
22云南2
23安徽2
24江西2
25湖北2
26湖南2
27重庆3
28贵州2
29陕西2
30上海1
31江苏3
最终聚类中心
聚类
123食品支出
衣着支出
居住支出
家庭设备及服务支出
医疗保健支出
交通和通信支出
文化与娱乐服务支出
其它商品和服务支出
总消费支出
最终聚类中心间的距离
聚类123
1
2
3
ANOVA
每个聚类中的案例数
聚类1
2
3
有效
缺失.000
实验结果分析:
第一类城市经济发展最好,第二类城市经济最落后。国家应加大对于第二类城市经济发展的扶持力度,努力缩小经济发展差距,实现地区的公平。