当前位置：文档视界 › 聚类分析及判别分析实验报告范例

聚类分析及判别分析实验报告范例

上海电力学院

《应用多兀统计分析》—判别分析与聚类分析

学院：__________

姓名：__________

学号：__________

2016年4月

我国部分城市经济发展水平的聚类分析

和判别分析

摘要：本文基于《中国统计年鉴》（2012年版）统计数据，寻找评价城市经济发展水平的指标，包括第二三产业发展水平、固定投资额、社会消费零售总额和进出口贸易交流五个指标，利用统计软件SPSS综合考虑各指标，对所选城市进行K-Means聚类分析，利用Fisher线性判别待判城市类型，进一步验证所建模型的有效性。

关键字：聚类分析，判别分析，SPSS城市经济发展水平

1，引言

经过改革开放后三十多年的长足进展，中国城市化已步入中期阶段，步伐加快，质量显著提高。同时，中国城市化又处于期转折点上，上一期行将结束，下一期将要开始。2011年中国城市化率首次突破50 %，意味着中国城镇人口首次超过农村人口，中国城市化进入关键发展阶段，这必将引起深刻的社会变革。

根据2011年4月公布的第六次人口普查数据，2010年中国居住城镇的人口接近6.6亿人，城镇化率达到49.68%，全国已有近一半的人口居住在城镇，这意味着中国将进入城镇时代。在过去30多年中，中国的城市化发展取得了很大成绩。然而，总体上中国的城市化道路是城市化滞后于工业化的非均衡道路；

是

土地城市化快于人口城市化的非规整道路；是以抑制农村、农业、农民的经济利

益来支持城市发展，导致不能兼顾效率和公平的非协调道路；是片面追求城市发

展的数量和规模，而以生态环境损失为代价的非持续道路；是以生产要素的高投入，而不是投入少、产值高、依靠科技拉动经济增长的非集约道路。传统的城市化存在着诸多弊端，中国未来的城市化必须走出一条具有自身特色的新型城市化

道路。

具体而言，中国城市经济发展水平受限于地理、环境、资源以及政策等因素

的影响，我国不同区域的城市化进程尚存在很大差异。2012年中国城市发展报告中指出，从区域角度看，目前沿海一带城市发展起步早，与国际贸易交流往来

频率咼，经济发展水平较咼，西部地区受到政策的大力扶持,

r " 1- f, 、r —1-|—* 、、—1-|—*■ r r、、、/■ —/ 、、■ 八、)—r [ —,~?- k―, ? 、

表现出了强劲的增

—、r 、宀 r r?r \~-

的水平已经落到了最后。显然，通过研究不同城市的经济发展状况和经济类型,

指出其发展差异所在，可以为政府在出台相关政策来平衡区域经济发展，缩小不同地区人民生活水平的差异提供一定的指导意见，也为我们深刻理解相关政策提供了扎实的基础。

2，相关统计基础理论

2.1,聚类分析

聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类。从统计学的观点看，聚类分析是通过数据建模简化数据的一种法。传统的统计聚类分析法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到多著名的统计分析软件包中，如SPSS SAS等。

本文使用统计软件SPSS对所收集的数据进行快速聚类，其特点是：在确定类别数量基础上，先给定一个粗糙的初始分类，然后按照某种原则进行反复修改, 直至分类较为合理。在选定类中心作为凝聚点的基础上进行分类和修正的法有很多，本文使用的是K-Means算法。

K-Means算法接受输入量k ；然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。

K-Means算法的工作过程说明如下：首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这

一过程直到标准测度函数开始收敛为止。一般都采用均差作为标准测度函数。一般而言，k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

2.2，判别分析

判别分析是市场研究的重要分析技术，也是多变量分析技术。它可以就一定数量的个体的一个分类变量和相应的其它多元变量的已知信息，确定分类变量与

其它多元变量之间的数量关系，建立判别函数，并利用判别函数构建Biplot二

元判别图（概念图）。同时，利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判别分组。判别分析属于监督类分析法，例如：市场细分研究中，常涉及判别个体所属类型的问题，也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念，判别分析可以很好地对这种差异进行鉴别。并在低维度空间表现这种差异。

判别分析主要有距离判别、贝叶斯（Bayes）判别、费舍尔（Fisher）判别等几种常用法。

距离判别的基本原理是：首先对样本到总体G之间的距离进行合理规定,

然后依照“就近”原则判定样本的归属，常用马氏距离(Mahalanobis )规定为: d2(x, G) (x u)' 1(x u)式中为p元总体G的协差阵，x是取自G的样品，则该式即为样品x到总体G的马氏距离。

贝叶斯判别既考虑了先验分布产生的影响，也考虑到误判损失产生的影响，是衡量一个判别优劣的比较合理的准则。

费舍尔判别的基本思想与主成分分析十分相似，当总体是高维向量时，先把

其综合成一个一维变量，然后在对一维变量进行距离判别，费舍尔判别实际上是一种降维处理，降维压缩后，样品y到各个总体G j*的距离可以用欧式距离度量，即：

2 * * 2 2

d (y,G j ) ||y U j II (a i'x a,U j)

i 1

由此导出Fisher判别规则为：

d (y,G j ) min k d (y,G j )，则x G I

1 j k

本文及使用Fisher判别建立线性判别函数进行距离判别。

3，模型建立

3.1设置变量

本文综合考虑了评价城市发展指数衡量因素，选取衡量一个城市经济发展水平的主要因素，城市化进程总是伴随着工业化发展，发达的服务业水平是衡量现代新兴城市的主要指标，此外，综合考虑了固定资产投资总额与社会消费品零售总额以及货物进出口总额作为类别分析的主要经济指标：X1：城市第二产业产值(亿元)

X2 :城市第三产业产值（亿元）

X3 :城市固定资产投资总额（亿元）

X4 :城市社会消费品零售总额（亿元）

X5 :货物进出口总额（亿元）

从区域发展角度从上面5个经济指标将城市经济发展水平划分为三大类：

G1 :发达城市

G2:中度发达城市

G3 :欠发达城市

3.2数据收集和整理

本文所有数据来源于《中国统计年鉴（2012）?，选取2011年度36个城市主要经济发展水平做模型建立及分析。其中前32个城市相关经济指标水平作为初始样本用于划分类别，建立类别总体G;最后四个城市（、、、）及其相关经济发展水平用作待判样品，利用判别函数进行判别分析。所有相关数据经过量纲统一规则化处理见表1所示。