文档视界 最新最全的文档下载
当前位置:文档视界 › 聚类分析实验报告记录

聚类分析实验报告记录

聚类分析实验报告记录
聚类分析实验报告记录

聚类分析实验报告记录

————————————————————————————————作者:————————————————————————————————日期:

《应用多元统计分析》

课程实验报告

实验名称:用聚类分析的方法研究山东省17个市的产业类型

的差异化

学生班级:统计0901

学生姓名:贾绪顺杜春霖陈维民张鹏

指导老师:____________张艳丽_____________________

完成日期:2011.12.12

一,实验内容

根据聚类分析的原理,使用系统聚类分析的COMplete linkage (最长距离法)和WARD(离差平方和法),运用SPSS软件对2009年山东省17个城市生产总值的数据进行Q型聚类,将17个城市分为5类,发现不同城市产业类型的差异化,并解释造成这种差异的原因

二,实验目的

希望通过实验研究山东省17个市的生产总值的差异化,并分析造成这种差异化的原因,可以更深刻的掌握聚类分析的原理;进一步熟悉聚类分析问题的提出、解决问题的思路、方法和技能;达到能综合运用所学基本理论和专业知识;锻炼收集、整理、运用资料的能力的目的;希望能会调用SPSS软件聚类分析有关过程命令,并且可以对数据处理结果进行正确判断分析,作出综合评价。

三,实验方法背景与原理

3.1方法背景

聚类分析又称群分析,是多元统计分析中研究样本或指标的一种主要的分类方法,在古老的分类学中,人们主要靠经验和专业知识,很少利用数学方法。随着生产技术和科学的发展,分类越来越细,以致有时仅凭经验和专业知识还不能进行确切分类,于是数学这个有用的工具逐渐被引进到分类学中,形成了数值分类学。近些年来,数理统计的多元分析方法有了迅速的发展,多元分析的技术自然被引用到分类学中,于是从数值分类学中逐渐的分离出聚类分析这个新的分支。结合了更为强大的数学工具的聚类分析方法已经越来越多应用到经济分析和社会工作分析中。在经济领域中,主要是根据影响国家、地区及至单个企业的经济效益、发展水平的各项指标进行聚类分析,然后很据分析结果进行综合评价,以便得出科学的结论。

聚类分析源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。聚类分析的主要应用,在商业方面,最常见的就是客户群的细分问题,可以从客户人口特征、消费行为和喜好方面的数据,对客户进行特征分析,充分利用数据进行客户的客观分组,使诸多特征有相似性的客户能被分在同一组内,而不相似的客户能被区分到另一些组中。在生物方面,聚类分析可以用来对动植物进行分类,对基因进行分类等,从而获取对动植物种群固有结构的认识,对物种进行很好的分类。在电子商务方面,聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过对客户的浏览行为、浏览网站、客户的年龄等,对客户进行分析,找出不同客户的共同特征,通过共同特征对客户进行分类,可以帮助电子商户更好的了解他们的客户,并向客户提供更合适的服务。在保险行业上,根据产、寿险进行分类,不同类别的公司进行分类,对保险投资比例进行分类管理,从而提高保险投资的效率。

3.2实验的方法与原理

聚类分析是研究“物以类聚”的一种科学有效的方法。做聚类分析时,出于不同的目的和要求,可以选择不同的统计量和聚类方法。

聚类分析方法中最常用的一种是系统聚类法,其基本思想是:先将待聚类的n个样品(或者变量)各自看成一类,共有n类;然后按照选定的方法计算每两类之间的聚类统计量,即某种距离(或者相似系数),将关系最为密切的两类合为一类,其余不变,即得到n-1类;再按照前面的计算方法计算新类与其他类之间的距离(或相似系数),再将关系最为密切的

两类并为一类,其余不变,即得到n-2类;如此下去,每次重复都减少一类,直到最后所有的样品(或者变量)都归为一类为止。系统聚类分析有两种类型:Q 型样本聚类和R 型变量聚类。这里我们运用的是Q 型聚类。

Q 型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来。

本实验中,分别采用最长距离法和离差平方和法对样本进行分类。 方法一:用最长距离对样本进行分类

个体与小类间的最长距离是该个体与小类每个个体距离的最大值 在聚类分析前,首先把数据进行标准化变换()n j n i R x x x j

j

ij ij ,,2,1,,,2,1ΛΛ==-=

*

变换后的数据,每个变量样本均值为0,标准差为1,而且标准化变换后的数据{}

*

ij x 与变量

的量纲无关。采用系统聚类的方法,用最长距离法计算欧氏距离

()n j i x x d m

i jt

it ij ,,2,1,1

2

Λ=-=

∑=,

其中it x 表示第i 个样品的第t 个指标的观测值,jt x 表示第j 个样品的第t 个指标的观测值,ij d 为第i 个样品与第j 个样品之间的欧式距离。若ij d 越小,那么第i 与j 两个样品之间的性质就越接近。最长距离法求类与类之间的距离,设类p G 和q G 合并r G 后,按照最长距离计算新类r G 与k G 其他类的类间距离,其递推公式为

{}()

{

}

{}(),,,max ,=max

max ,max =max ,,r k

p k

q k

rk ij r p q ij ij pk qk i G j G i G j G i G j G D d G G G d d D D k p q ∈∈∈∈∈∈==≠

方法二:用离差平方和法(WARD )对样品进行分类

离差平方和法是Ward (1936)提出的,也称为Ward 法。它基于方差分析思想,如果类分得正确,则同类样品之间的离差平方和应当较小,不同类样品之间的离差平方和应当较大。

假定已将n 个样品分为k 类,记为1G ,2G ,…,k G ,t n 表示t G 类的样品个数,(t)

X

示t G 的重心,(t )

i X ()表示t G 中第i 个样品(i=1,…,t n )

,则t G 中样品的离差平方和为 ()()t

n (t)(t)(t)(t)

t i i 1=i W X X X X

='--∑()(), 其中(t )i X (),(t)

X

为m 维向量,t W 为一数值(t=1,2,…,k )。

k 个类的总离差平方和为

()()t

n k

k

(t)(t)(t)(t)t i i t=1

t=11

==i W W X X X X ='--∑∑∑()()

.

当k 固定时,要选择使W 达到极小的分类。

Ward 法的基本思想是,先将n 个样品各自成一类,此时W =0;然后每次将其中某两类合并为一类,因每缩小一类离差平方和就要增加,每次选择使W 增加最小的两类进行合并,直至所有样品合并为一类为止。

Ward 法把某两类合并后增加的离差平方和看成为类间的平方距离,即令

()2pq r p q =D W W W -+

表示类p G 和q G 的平方距离,其中{}

,r p q G G G =,r W ,p W ,q W 分别为r G ,p G ,q G 类中样品的离差平方和。利用r W 的定义,可得

()()r

n (r)(r)(r)(r)

r t t t 1=W X X X X

='--∑()()

()()()()p

q

n n (p)

(r)

(p)(r)(q)(r)(q)(r)

i i i i i 1

i 1

=X

X

X X X X X X

==''--+--∑∑()

()()(), 其中1r p q p q r

X

n X n X n ()

()()

??=

+??.经整理可得 ()()2

p q p q p q pq r

n n D X

X X X n ()

()()()'=

--.

当样品间距离采用欧氏距离时,上式可表为

2

2

p q pq

pq

r

n n D d n =

, 其中2

pq d 表示,p q G G 的重心p X

()

与q X

()

的平方距离:

()2

2,p q pq d d X X ()()=.

这表明此时Word 法定义的类间距离与重心法只相差一个常数倍。

当p G 和q G 合并为r G 后,r G 与其他类k G 的距离有如下递推公式

2

2

2

2

k p k q k rk pk qk pq

r k

r k

r k

n n n n n D D D D n n n n n n ++=

+

-

+++ 上述两种方法都是将性质接近的样品划为一类。聚类分析依据的基本原则是直接比较样本中各事物之间的性质,将性质相近的归为一类,而将性质相差比较大的分在不同类。也就是说,同类事物之间性质差异小,类与类之间的性质相差比较大。

系统聚类分析是聚类分析中应用的最广泛的一种方法。首先将n 个样品每个自成一类,然后每次将具有最小距离的两类合并成一类,合并后重新计算类与类之间的距离,这个过程

一直持续到所有样品归为一类为止。分类结果可以画成一张直观的聚类谱系图。应用系统聚类法进行聚类分析的步骤如下:

①确定待分类的样品的指标

②收集数据

③对数据进行变换处理

④使各个样品自成一类,即n个样品一共有n类

⑤计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并成一类

⑥并类后,如果类的个数大于1,那么重新计算各类之间的距离,继续并类,直至所有样品归为一类为止

⑦最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果。

四、实验数据与实验结果

我们根据2010年山东统计年鉴的数据,运用SPSS软件进行分析,得到如下实验数据与结果:

1,原始数据

表1-1 山东省17城市生产总值原始数据

地区X1 X2 X3 X4 X5 X6 X7 X8

济南市20686756 20704772 3918747 20639608 3784306 8943039 214.9 18024610

青岛市27503964 70619047 31956998 55733587 4831806 8137064 274.8 19611331

淄博市14061888 58081899 9491580 30244829 1884145 5053392 105.7 10056751

枣庄市5064995 22437375 1753203 6651504 2207428 1592207 66.0 4228513

东营市15345343 41199590 4554293 15809465 1696382 2383391 67.4 3887417

烟台市16417465 66453587 38086756 49475292 5975883 5008978 175.8 14126854

潍坊市10497502 60488560 11709800 26141577 6548044 4473999 183.2 12148004

济宁市13006720 22645751 5242998 16033364 6219252 2895386 130.3 10042495

泰安市9325693 25301440 1632878 13970449 3382994 4859536 77.3 6978426

威海市1821752 35641945 14747879 20280903 3008526 1668404 81.8 7092776

日照市1731442 18934672 5202300 4998376 1762907 1478668 50.9 3195391

莱芜市5668429 5868280 363118 3045801 725138 451164 21.3 1888211

临沂市3547197 39162992 7750708 15125262 4778789 2876138 161.9 11587531

德州市4265744 33622261 2620289 10973162 4432973 1295397 82.8 6586211

聊城市7202729 31048684 1005847 11917024 4032858 1027917 87.9 5585951

滨州市3256739 33182983 2627798 8352382 3004112 1480444 72.2 4507461

菏泽市3674339 21236454 1950326 6628429 3945037 1340737 108.8 6655095

(来源:2010年山东统计年鉴)

X1-规模以上国有控股工业总产值(单位:万元) X2-规模以上非公有工业总产值(单位:万元) X3-规模以上外商和港澳台投资工业总产值(单位:万元) X4-规模以上高新技术产业总产值(单位:万元) X5-农林牧渔业总产值(单位:万元) X6-建筑业总产值(单位:万元) X7-邮电业务总量(单位:亿元) X8-社会消费品零售总额 (单位:万元)

2,SPSS软件处理结果

我们首先对原始数据进行标准化,然后采用系统聚类分析法的Furthest Neighbor(最长距离法)和Ward’s Method(离差平方和)分别对标准化的数据进行处理,下面对软件输出结果进行详细介绍。

【1】,用层次聚类分析中最长距离法的SPSS结果

(1),表1-2 山东省17个城市生产总值层次聚类分析中的凝聚状态表

Agglomeration Schedule

Stage

Cluster Combined

Coefficients

Stage Cluster First Appears

Next Stage Cluster 1 Cluster 2 Cluster 1 Cluster 2

1 14 15 .318 0 0 3

2 4 11 .521 0 0 5

3 1

4 17 .814 1 0 4

4 14 16 1.23

5 3 0 6

5 4 12 2.533 2 0 12

6 9 14 3.222 0 4 8

7 8 13 3.570 0 0 10

8 9 10 4.715 6 0 12

9 3 5 4.977 0 0 14

10 7 8 6.421 0 7 13

11 2 6 8.250 0 0 15

12 4 9 9.948 5 8 14

13 1 7 15.216 0 10 15

14 3 4 21.504 9 12 16

15 1 2 37.386 13 11 16

16 1 3 84.514 15 14 0

(2),表1-3山东省17个城市生产总值层次聚类分析中分为五类的类成员

Cluster Membership

Case 5 Clusters

1:济南市 1

2:青岛市 2

3:淄博市 3

4:枣庄市 4

5:东营市 3

6:烟台市 2

7:潍坊市 5

8:济宁市 5

9:泰安市 4

10:威海市 4

11:日照市 4

12:莱芜市 4

13:临沂市 5

14:德州市 4

15:聊城市 4

16:滨州市 4

17:菏泽市 4

分为五类时,1号样本济南市为一类,2号样本青岛市、6号样本烟台市为一类,3号样本淄博市、5号样本东营市为一类,7号样本潍坊市、8号样本济宁市、13号样本临沂市为一类,其他4号样本枣庄市、9号样本泰安市、10号样本威海市、11号样本日照市、12号样本莱芜市、14号样本德州市、15号样本聊城市、16号样本滨州市、17号样本菏泽市13个城市为一类。

(3),表1-4 山东省17个城市生产总值层次聚类分析树形图

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

德州市 14 ─┐

聊城市 15 ─┤

菏泽市 17 ─┤

滨州市 16 ─┼─┐

泰安市 9 ─┘├─┐

威海市 10 ───┘├───────┐

枣庄市 4 ─┐││

日照市 11 ─┼───┘├───────────────────────────────────┐

莱芜市 12 ─┘││

淄博市 3 ───┬─────────┘│

东营市 5 ───┘│

青岛市 2 ─────┬─────────────────┐│

烟台市 6 ─────┘││

济宁市 8 ─┬─┐├─────────────────────────┘

临沂市 13 ─┘├─────┐│

潍坊市 7 ───┘├─────────────┘

济南市 1 ─────────┘

表1-4:树形图以躺倒树的形式展示了聚类分析中的每一次合并的情况。SPSS自动将各类间的距离映射到0~25之间,并将凝聚过程近似的表示在图上。树形图仅是粗劣的展现聚类分析的过程,鉴于样本量较大且小类间的距离相差较小,在图上较难分辨凝聚的每步过程。

【2】,用层次聚类分析中离差平方和法的SPSS结果

(1),表2-1 山东省17个城市生产总值层次聚类分析中的凝聚状态表

Agglomeration Schedule

Stage

Cluster Combined

Coefficients

Stage Cluster First Appears

Next Stage Cluster 1 Cluster 2 Cluster 1 Cluster 2

1 14 15 .281 0 0 3

2 4 11 .642 0 0 4

3 1

4 17 1.14

5 1 0 9

4 4 16 1.697 2 0 7

5 8 13 2.640 0 0 10

6 9 10 3.668 0 0 9

7 4 12 4.752 4 0 12

8 3 5 5.867 0 0 14

9 9 14 6.983 6 3 12

10 7 8 8.224 0 5 13

11 2 6 9.659 0 0 15

12 4 9 11.532 7 9 14

13 1 7 13.827 0 10 15

14 3 4 16.341 8 12 16

15 1 2 20.330 13 11 16

16 1 3 28.232 15 14 0

(2),表2-2山东省17个城市生产总值层次聚类分析中分为五类的类成员

Cluster Membership

Case 5 Clusters

1:济南市 1

2:青岛市 2

3:淄博市 3

4:枣庄市 4

5:东营市 3

6:烟台市 2

7:潍坊市 5

8:济宁市 5

9:泰安市 3

10:威海市 4

11:日照市 4

12:莱芜市 4

13:临沂市 5

14:德州市 4

15:聊城市 4

16:滨州市 4

17:菏泽市 4

分为五类时,1号样本济南市为一类,2号样本青岛市、6号样本烟台市为一类,3号样本淄博市、5号样本东营市、9号样本泰安市为一类,7号样本潍坊市、8号样本济宁市、13号样本临沂市为一类,其他4号样本枣庄市、10号样本威海市、11号样本日照市、12号样本莱芜市、14号样本德州市、15号样本聊城市、16号样本滨州市、17号样本菏泽市13个城市为一类。

(3),表2-3 山东省17个城市生产总值层次聚类分析树形图

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

德州市 11 ─┐

聊城市 12 ─┼───┐

菏泽市 14 ─┘├─────┐

威海市 8 ─────┘│

枣庄市 7 ─┐├───┐

日照市 9 ─┼───┐││

滨州市 13 ─┘├─────┘├─────────────────────────────────┐

莱芜市 10 ─────┘││

东营市 5 ─────┬─┐││

泰安市 6 ─────┘├───────┘│

淄博市 4 ───────┘│

青岛市 2 ───────┬─────────────────┐│

烟台市 3 ───────┘││

济宁市 16 ─────┬─┐├───────────────────────┘

临沂市 17 ─────┘├─────┐│

潍坊市 15 ───────┘├───────────┘

济南市 1 ─────────────┘

表2-3:树形图以躺倒树的形式展示了聚类分析中的每一次合并的情况。SPSS自动将各类间的距离映射到0~25之间,并将凝聚过程近似的表示在图上。树形图仅是粗劣的展现聚类分析的过程,鉴于样本量较大且小类间的距离相差较小,在图上较难分辨凝聚的每步过程。注:在两种分类依据下,结果大部分一致,只是在泰安市的归类上出现了分歧,考虑到Ward方法的普遍应用性,我们采用后者。

3,通过以上的分类表可以清楚的看到,层次聚类分析结果,将17个城市样本分为5类。(1)1号样本济南市,是山东省的省会,是山东政治、文化、经济、金融、教育中心,是“全国城市综合实力50强”。济南是一个具有悠久历史的城市,所以济南的国有企业林立众多,像中国石化集团济南炼油厂、中国石油集团济柴动力总厂、中国重型汽车集团、中国轻骑集团、山东鲁能(集团)有限公司、山水集团(山东水泥厂)、济南钢铁集团总公司、济南铁路集团,这使得济南的国有企业(大部分是重工企业)产值成为全省第一。伴随着省会的特殊地位,济南邮电业和建筑业也是十分发达的,而这些都带动了商品零售业的发展。但是由于深处内陆而且国有企业较多使得非公有企业和外资发展的空间变小,以至于这些产业类型发展不够好,这就形成了济南产业类型特色:公有建筑型。

(2)2号样本青岛市和3号样本烟台市都是山东著名的海滨城市,两个城市都是"环渤海"经济圈对外的重要出口,两个城市也都是山海结合的城市。因为其港口城市的缘故,再加上山东离日韩距离非常近,使得外资企业看到了良好的生长土壤,纷纷投资建立公司,并且带来了高新技术,这使得其外资和高新技术产业领先于山东17地市。这样的环境也就理所当然的造就了大批非公有企业,他们与外资以及高新技术企业互利共赢,发展也是十分喜人。这些特点,另外加上港口所带来的邮电运输业繁荣,就形成了:港口外资型。

(3)7号样本潍坊市、8号样本济宁市和13号样本临沂市,他们地处山东半岛的平原之上,日光充足、土壤肥沃,又有母亲河——黄河的灌溉,再加上山东半岛地处温带大陆性气候,四季分明,使得这三个市农业非常发达,成为山东的农业领头羊。再加上政府的大力发展,形成了其支柱产业。以潍坊为例:建成了寿光蔬菜、诸城肉鸡、安丘蜜桃、青州食用菌、昌乐西瓜和草莓等一大批名优特稀农产品生产基地。所以他们都属于:农业支柱型。

(4)3号样本淄博市、5号样本东营市和9号样本泰安市。这三个市也是这次分类最为独特的一类。前面也提到了泰安最后定为这一类是因为Ward方法应用最为广泛、更为精确。从数据上看,这三个市的经济处于省内中游,已经逐渐有了形成各自特点的趋势。但并不突出,比如淄博的非公有企业,东营的国有企业和泰安的农业及旅游业。所以我们认为这三个特殊的城市属于:中间过渡型。

(5)其他8个城市,这些城市有些历史悠久,有些是新中国成立后的新兴城市,有些是沿海城市有些是内陆城市,但其都位于黄海三角洲冲积平原上,气候温和,适宜农作物生长,有较好的农业、手工业和工业基础,而且这几个地市交通运输业也十分发达,铁路、公路纵横成网,航运正在起步,不仅如此靠近内陆的几个地区如济宁,菏泽,枣庄等环靠京杭大运

河,像滨州日照等市依傍着大海,无论是陆上,水上还是航空交通都非常便利。这几地市的人文景观和自然景观也是独一无二的,如孔孟之乡的济宁曲阜,优美宜人的枣庄红河湿地等,在便利的交通的促进下,旅游业也逐渐成为了重点产业。但是他们比前面四个类型的城市少了一些特殊性,所以发展比较平均。没有很突出的产业成为龙头产业,所以发展也有些缓慢,但我们相信他们一定会放大自身的优点,形成自身特点,成为具有综合竞争力的城市。他们目前属于:相对滞后型。

五,心得体会

经过一周的课程设计,过程曲折可谓一语难尽。在此期间我们也失落过,也曾一度热情高涨。从开始时满富激情到最后汗水背后的复杂心情,点点滴滴无不令我们回味无长。

生活就是这样,汗水预示着结果也见证着收获。劳动是人类生存生活永恒不变的话题。通过课程设计,我们才真正领略到“艰苦奋斗”这一词的真正含义,才意识到老一辈统计工作者为我们社会付出许多辛劳和汗水。我们想说,统计确实有些辛苦,但苦中也有乐。

在做聚类分析的实验之前,我们以为不会难做,就像以前做的统计实验一样,找到合适数据后,将数据输入多元统计分析软件,经过一些操作输出结果,然后分析一下,再将实验报告做好就可以了。没想到开始就出现了问题,数据的选定就浪费了很多时间,合适的数据很难找,最后四个人经过一天的时间才敲定了一组合适的数据。直到做完聚类分析实验时,我们才知道其实并不容易做,但学到的知识与难度成正比,使我们受益匪浅。

而且课程设计也是一个团队的任务,一起的工作可以让我们相互帮助,配合默契,最重要的一点就是团队合作精神,队员之间要相互信任,有了这个基础才可以把实验进行下去,团队是不同的个体组成的,每个人的思想、行为方式不同,合作时肯定会有冲突,其实有一些良性的冲突是会促进合作的,有冲突说明队员认真工作了,这样会提高工作效率,我们虽然是四个人的小团队,但也不乏会有一些小冲突,但当我们冷静下来,理智的讨论过后发现问题被更好的解决了。问题解决后就要队员坚定不移的行动了,队员对团队的基本责任就是无怨无悔,彼此负责。团队的队员都是平等的,互相要友善,在这点上我们组可以说是做的不错的,遇到问题时要善于交流,有矛盾要及时化解,能够接受批评,要谦虚谨慎才好,团队良好合作时创造能力会大大提高。

做实验时,老师还会根据自己的亲身体会,将一些课本上没有的知识教给我们,拓宽我们的眼界,是我们认识到这门课程在生活中的应用是那么广泛。

多元统计聚类分析在现代化管理和社会生活中的地位日益重要。随着社会、经济科学技术的发展,多元统计聚类分析在现代化国家管理和企业管理中的地位,在社会生活中的地位,越来越重要了,多元统计聚类分析广泛吸收和融合相关学科的新方法,不断开发应用新技术,深化和丰富了多元统计聚类分析传统领域的理论与方法,并拓展了新领域。今天的多元统计聚类分析以展现出强有力的生命力。人们的日常生活和一切社会生活都与多元统计聚类分析息息相关。可以说多元统计聚类分析已经融入了我们的生活中,因此,学好多元统计聚类分析以及能熟练应用SPSS进行实际聚类分析操作对我们来说变得至关重要。

对我们而言,知识上的收获重要,精神上的丰收更加可贵。挫折是一份财富,经历是一份拥有。这次实验必将成为我们人生旅途上一个非常美好的回忆!

参考文献

【1】高惠璇.应用多元统计分析【M】.北京:北京大学出版社,2005

【2】薛薇.统计分析与SPSS的应用【M】.北京:中国人民大学出版社,2011

【3】山东省统计局.2010山东统计年鉴【M】.中国统计出版社,2011

六,教师评语

指导教师批阅意见:

实验报告内容完整性(20分)实验准确性(这

里指作品

质量)(30

分)

实验结果与数

据分析

(20分)

实验报告(格式

规范、按时完

成)

(20分)

实验态度(实

验课考勤、实

验表现)(10

分)

成绩评定:

指导教师签字:

年月日

完整word版,SPSS聚类分析实验报告.docx

SPSS 聚类分析实验报告 一.实验目的: 1、理解聚类分析的相关理论与应用 2、熟悉运用聚类分析对经济、社会问题进行分析、 3、熟练 SPSS软件相关操作 4、熟悉实验报告的书写 二.实验要求: 1、生成新变量总消费支出=各变量之和 2、对变量食品支出和居住支出进行配对样本T 检验,并说明检验结果 3、对各省的总消费支出做出条形图(用EXCEL做图也行) 4、利用 K-Mean法把 31 省分成 3 类 5、对聚类分析结果进行解释说明 6、完成实验报告 三.实验方法与步骤 准备工作:把实验所用数据从 Word文档复制到 Excel ,并进一步导入到 SPSS数据文件中。 分析:由于本实验中要对 31 个个案进行分类,数量比较大,用系统聚类法当然也 可以得出结果,但是相比之下在数据量较大时, K 均值聚类法更快速高效,而且准确性更高。 四、实验结果与数据处理: 1.用系统聚类法对所有个案进行聚类:

生成新变量总消费支出 =各变量之和如图所示: 2.对变量食品支出和居住支出进行配对样本 T 检验,如图所示:

得出结论: 3.对各省的总消费支出做出条形图,如图所示: 4.对聚类分析结果进行解释说明: K均值分析将这样的城市分为三类: 第一类北京、上海、广东 第二类除第一类第三类以外的 第三类天津、福建、内蒙古、辽宁、山东 第一类经济发展水平高,各项支出占总支出比重高,人民生活水平高。第二类城市位于中西部地区,经济落后,人民消费水平低。第三类城市位于中东部地区,经济发展较好。

初始聚类中心 聚类 123 食品支出7776.983052.575790.72衣着支出1794.061205.891281.25居住支出2166.221245.001606.27家庭设备及服务支出1800.19612.59972.24医疗保健支出1005.54774.89617.36交通和通信支出4076.461340.902196.88文化与娱乐服务支出3363.251229.681786.00其它商品和服务支出1217.70331.14499.30总消费支出23200.409792.6614750.02 迭代历史记录a 聚类中心内的更改 迭代123 11250.5921698.8651216.114 2416.86470.786173.731 3138.955 2.94924.819 446.318.123 3.546 5849.114319.1791362.411 6805.00415.199606.915 7161.001.72475.864 832.200.0349.483 9 6.440.002 1.185 10 1.2887.815E-5.148

对数据进行聚类分析实验报告

对数据进行聚类分析实验报告 1.方法背景 聚类分析又称群分析,是多元统计分析中研究样本或指标的一种主要的分类方法,在古老的分类学中,人们主要靠经验和专业知识,很少利用数学方法。随着生产技术和科学的发展,分类越来越细,以致有时仅凭经验和专业知识还不能进行确切分类,于是数学这个有用的工具逐渐被引进到分类学中,形成了数值分类学。近些年来,数理统计的多元分析方法有了迅速的发展,多元分析的技术自然被引用到分类学中,于是从数值分类学中逐渐的分离出聚类分析这个新的分支。结合了更为强大的数学工具的聚类分析方法已经越来越多应用到经济分析和社会工作分析中。在经济领域中,主要是根据影响国家、地区及至单个企业的经济效益、发展水平的各项指标进行聚类分析,然后很据分析结果进行综合评价,以便得出科学的结论。 2.基本要求 用FAMALE.TXT、MALE.TXT和/或test2.txt的数据作为本次实验使用的样本集,利用C均值和分级聚类方法对样本集进行聚类分析,对结果进行分析,从而加深对所学内容的理解和感性认识。 3.实验要求 (1)把FAMALE.TXT和MALE.TXT两个文件合并成一个,同时采用身高和体重数据作为特征,设类别数为2,利用C均值聚类方法对数据进行聚类,并将聚类结果表示在二维平面上。尝试不同初始值对此数据集是否会造成不同的结果。 (2)对1中的数据利用C均值聚类方法分别进行两类、三类、四类、五类聚类,画出聚类指标与类别数之间的关系曲线,探讨是否可以确定出合理的类别数目。 (3)对1中的数据利用分级聚类方法进行聚类,分析聚类结果,体会分级聚类方法。。(4)利用test2.txt数据或者把test2.txt的数据与上述1中的数据合并在一起,重复上述实验,考察结果是否有变化,对观察到的现象进行分析,写出体会 4.实验步骤及流程图 根据以上实验要求,本次试验我们将分为两组:一、首先对FEMALE 与MALE中数据组成的样本按照上面要求用C均值法进行聚类分析,然后对FEMALE、MALE、test2中数据组成的样本集用C均值法进行聚类分析,比较二者结果。二、将上述两个样本用分即聚类方法进行聚类,观察聚类结果。并将两种聚类结果进行比较。 (1)、C均值算法思想

电力系统分析实验报告

本科生实验报告 实验课程电力系统分析 学院名称核技术与自动化工程学院 专业名称电气工程及其自动化 学生姓名 学生学号 指导教师顾民 实验地点6C901 实验成绩

二〇一五年十月——二〇一五年十二月 实验一MATPOWER软件在电力系统潮流计算中的应用实例 一、简介 Matlab在电力系统建模和仿真的应用主要由电力系统仿真模块(Power System Blockset 简称PSB)来完成。Power System Block是由TEQSIM公司和魁北克水电站开发的。PSB是在Simulink环境下使用的模块,采用变步长积分法,可以对非线性、刚性和非连续系统进行精确的仿真,并精确地检测出断点和开关发生时刻。PSB程序库涵盖了电路、电力电子、电气传动和电力系统等电工学科中常用的基本元件和系统仿真模型。通过PSB可以迅速建立模型,并立即仿真。PSB程序块程序库中的测量程序和控制源起到电信号与Simulink程序之间连接作用。PSB程序库含有代表电力网络中一般部件和设备的Simulink程序块,通过PSB 可以迅速建立模型,并立即仿真。 1)字段baseMVA是一个标量,用来设置基准容量,如100MVA。 2)字段bus是一个矩阵,用来设置电网中各母线参数。 ①bus_i用来设置母线编号(正整数)。 ②type用来设置母线类型, 1为PQ节点母线, 2为PV节点母线, 3为平衡(参考)节点母线,4为孤立节点母线。 ③Pd和Qd用来设置母线注入负荷的有功功率和无功功率。 ④Gs、Bs用来设置与母线并联电导和电纳。 ⑤baseKV用来设置该母线基准电压。 ⑥Vm和Va用来设置母线电压的幅值、相位初值。 ⑦Vmax和Vmin用来设置工作时母线最高、最低电压幅值。 ⑧area和zone用来设置电网断面号和分区号,一般都设置为1,前者可设置范围为1~100,后者可设置范围为1~999。 3)字段gen为一个矩阵,用来设置接入电网中的发电机(电源)参数。 ①bus用来设置接入发电机(电源)的母线编号。 ②Pg和Qg用来设置接入发电机(电源)的有功功率和无功功率。 ③Pmax和Pmin用来设置接入发电机(电源)的有功功率最大、最小允许值。 ④Qmax和Qmin用来设置接入发电机(电源)的无功功率最大、最小允许值。 ⑤Vg用来设置接入发电机(电源)的工作电压。 1.发电机模型 2.变压器模型 3.线路模型 4.负荷模型 5.母线模型 二、电力系统模型 电力系统中输送和分配电能的部分称为电力网,它包括升降压变压器和各种电压等级的输电线路、动力系统、电力系统和电力网简单示意如图

SPSS的聚类分析实验报告

实验报告 姓名学号专业班级 课程名 统计分析SPSS软件实验室 称 成绩指导教师 实验名称SPSS的聚类分析 1、实验目的: 掌握层次聚类分析和K-Means聚类分析的基本思想和具体,并能够对分析结果进行解释。 二、实验题目: 1.、现要对一个班同学的语文水平进行聚类,拟聚为三类,聚类依据是 两次语文考试的成绩。数据如下表所示。试用系统聚类法和K-均值法进 行聚类分析。 人名第一次语文成绩第二次语文成绩 张三9998 王五8889 赵四7980 小杨8978 蓝天7578 小白6065 李之7987 马武7576 郭炎6056 刘小100100

3、实验步骤(最好有截图): 1.先打开常用软件里的SPSS 11.5 for Windows.exe,在Variable View 中根据题目输入相关数据,如下图所示 2.在Data View中先输入数据,结果如下图所示 3. 首先试用系统聚类法对相关数据进行聚类 4. 选择菜单:【Analyze】→【Classify】→【Hierarchical Cluster】,然后选择参与层次聚类分析的变量两次语文考试的成绩到【Variable(s)】框中,再选择一个字符型变量“人名”作为标记变量到【Label Cases by】框中。

5.按“Plots”后进行选择 6.按“Statistics”后进行选择

7.按“Method”后进行选择

8.对第一个表格进行保存,并且命名为“语文水平.sav”,同时保存输出结果 4、实验结果及分析(最好有截图): 第一题: 1. 首先试用系统聚类法对相关数据进行聚类

3-系统分析实验报告

管理信息系统实验报告 实验3 系统分析 课程名称:管理信息系统 指导教师:王玮 班级:信管1401 学号: 姓名:唐赛赛 时间: 2016.04.06 地点: 3 号机房

一、实验目的 1.了解开发Visio解决方案的基本概念和关于Visio工具的一些基本的操作和应用; 2.掌握系统分析阶段数据流程图的画法; 二、实验步骤和实验结果: 使用Visio中提供的“组织结构图”模具,绘制下面例题的组织结构图,附在图后。 2、使用Visio绘制“业务流程图模具”和“数据流程图模具”(1)创建“业务流程图模具” 先在“框图”-〉“基本形状”中找到圆角矩形,右击选择“添加到我的形状”-〉“添加到新模具”。之后出现“另存为”对话框,把新模具命名为“业务流程图”,把圆角矩形形添加到了新模具“业务程图”中。用同样的思路,先在“框图”-〉“基本形状”中找到圆形,右击选择“添加到我的形状”-〉“添加到模具“业务程图”中;在“框图”-〉“基本形状”找到矩形,在“流程图”中的“IDEFO图表形状”找到动态连接线,在“流程图”中的“SDL图表形状”中找到文档,多文档,添加到模具“业务程图”中。可以通过设置“动态连接线”属性来改变其形状。如下图:

添加完成后,我们就可以在画业务流程图时打开该模具,业务流程图所有的元素都会在一个模具中显示出来。(2)创建“数据流程图模具”先在“框图”-〉“基本形状”中找到圆形(或是“流程图”中的“混合流程图形状”中找到外部实体2 ),右击选择“添加到我的形状”-〉“添加到新模具”(注,使用外部实体2来表示外部实体的时候,请将之旋转180度使用)。之后出现“另存为”对话框,把新模具命名为“数据流程图”,这样我们就把圆形形添加

聚类分析实验报告记录

聚类分析实验报告记录

————————————————————————————————作者:————————————————————————————————日期:

《应用多元统计分析》 课程实验报告 实验名称:用聚类分析的方法研究山东省17个市的产业类型 的差异化 学生班级:统计0901 学生姓名:贾绪顺杜春霖陈维民张鹏 指导老师:____________张艳丽_____________________ 完成日期:2011.12.12

一,实验内容 根据聚类分析的原理,使用系统聚类分析的COMplete linkage (最长距离法)和WARD(离差平方和法),运用SPSS软件对2009年山东省17个城市生产总值的数据进行Q型聚类,将17个城市分为5类,发现不同城市产业类型的差异化,并解释造成这种差异的原因 二,实验目的 希望通过实验研究山东省17个市的生产总值的差异化,并分析造成这种差异化的原因,可以更深刻的掌握聚类分析的原理;进一步熟悉聚类分析问题的提出、解决问题的思路、方法和技能;达到能综合运用所学基本理论和专业知识;锻炼收集、整理、运用资料的能力的目的;希望能会调用SPSS软件聚类分析有关过程命令,并且可以对数据处理结果进行正确判断分析,作出综合评价。 三,实验方法背景与原理 3.1方法背景 聚类分析又称群分析,是多元统计分析中研究样本或指标的一种主要的分类方法,在古老的分类学中,人们主要靠经验和专业知识,很少利用数学方法。随着生产技术和科学的发展,分类越来越细,以致有时仅凭经验和专业知识还不能进行确切分类,于是数学这个有用的工具逐渐被引进到分类学中,形成了数值分类学。近些年来,数理统计的多元分析方法有了迅速的发展,多元分析的技术自然被引用到分类学中,于是从数值分类学中逐渐的分离出聚类分析这个新的分支。结合了更为强大的数学工具的聚类分析方法已经越来越多应用到经济分析和社会工作分析中。在经济领域中,主要是根据影响国家、地区及至单个企业的经济效益、发展水平的各项指标进行聚类分析,然后很据分析结果进行综合评价,以便得出科学的结论。 聚类分析源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。聚类分析的主要应用,在商业方面,最常见的就是客户群的细分问题,可以从客户人口特征、消费行为和喜好方面的数据,对客户进行特征分析,充分利用数据进行客户的客观分组,使诸多特征有相似性的客户能被分在同一组内,而不相似的客户能被区分到另一些组中。在生物方面,聚类分析可以用来对动植物进行分类,对基因进行分类等,从而获取对动植物种群固有结构的认识,对物种进行很好的分类。在电子商务方面,聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过对客户的浏览行为、浏览网站、客户的年龄等,对客户进行分析,找出不同客户的共同特征,通过共同特征对客户进行分类,可以帮助电子商户更好的了解他们的客户,并向客户提供更合适的服务。在保险行业上,根据产、寿险进行分类,不同类别的公司进行分类,对保险投资比例进行分类管理,从而提高保险投资的效率。 3.2实验的方法与原理 聚类分析是研究“物以类聚”的一种科学有效的方法。做聚类分析时,出于不同的目的和要求,可以选择不同的统计量和聚类方法。 聚类分析方法中最常用的一种是系统聚类法,其基本思想是:先将待聚类的n个样品(或者变量)各自看成一类,共有n类;然后按照选定的方法计算每两类之间的聚类统计量,即某种距离(或者相似系数),将关系最为密切的两类合为一类,其余不变,即得到n-1类;再按照前面的计算方法计算新类与其他类之间的距离(或相似系数),再将关系最为密切的

系统分析实验报告

天津职业技术师范大学课程设计大学学籍管理系统的设计与开发 专业:软件工程 班级学号:软件1002-17 学生姓名:靳利强 指导教师:龚良波老师 二〇一三年七月

一.需求分析 1.课程名称:大学教务信息系统的设计与开发 2.设计目的: 为方便学校做好学生学籍管理工作,设计一个学生学籍管理系统,在设计过程中作了系统分析和总体设计,软件设计采取模块化的设计思路。 3.需求概述 该学生学籍管理系统主要对学生学籍信息、成绩信息进行管理,提供一个平台,供学籍管理人员增删改查学生信息、学生成绩信息。系统分为学生信息管理、学生成绩管理、信息查询等几个模块。学籍管理人员登录成功后可以对学生信息管理、学生成绩管理、信息查询等模块进行操作,如学生信息添加、修改、删除和查询;学生成绩登记、修改、删除和查询;查询信息等。 4功能需求: 1)功能齐全:界面操作灵活方便,设计包括以下基本功能: 2)学生信息管理、教师信息管理、财务信息管理、班级信息管理、课 程信息管理、成绩信息管理、打印信息管理、教室信息管理、综合信息查询、系统管理等,至少实现其中的三个功能,且每个功能至少包括两个子功能。 3)按照软件工程的要求进行分析、设计和开发。 4)界面友好:界面友好、输入有提示、尽量展示人性化。 5)可读性强:源程序代码清晰、有层次、主要程序段有注释。

6)健壮性好:用户输入非法数据时,系统应及时给出警告信息。 二.概要设计 1.功能模块: 2数据流图: (1)学生端

(2)管理员端

学生端功能: A 登录,学生登录后,验证成功,进入其信息展示页。 管理员端功能: B 登录,管理员登录后,验证成功,进入学生信息列表,可以对学生信息进行修改,删除,按班级查询,按学号查询,按名字查询。上传图片,更新图片等操作。 三.详细设计及实现 数据库设计: 学生表: 教师表:

数据挖掘实验报告三

实验三 一、实验原理 K-Means算法是一种 cluster analysis 的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。 在数据挖掘中,K-Means算法是一种cluster analysis的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。 算法原理: (1) 随机选取k个中心点; (2) 在第j次迭代中,对于每个样本点,选取最近的中心点,归为该类; (3) 更新中心点为每类的均值; (4) j<-j+1 ,重复(2)(3)迭代更新,直至误差小到某个值或者到达一定的迭代步 数,误差不变. 空间复杂度o(N) 时间复杂度o(I*K*N) 其中N为样本点个数,K为中心点个数,I为迭代次数 二、实验目的: 1、利用R实现数据标准化。 2、利用R实现K-Meams聚类过程。 3、了解K-Means聚类算法在客户价值分析实例中的应用。 三、实验内容 依据航空公司客户价值分析的LRFMC模型提取客户信息的LRFMC指标。对其进行标准差标准化并保存后,采用k-means算法完成客户的聚类,分析每类的客户特征,从而获得每类客户的价值。编写R程序,完成客户的k-means聚类,获得聚类中心与类标号,并统计每个类别的客户数

四、实验步骤 1、依据航空公司客户价值分析的LRFMC模型提取客户信息的LRFMC指标。

2、确定要探索分析的变量 3、利用R实现数据标准化。 4、采用k-means算法完成客户的聚类,分析每类的客户特征,从而获得每类客户的价值。

五、实验结果 客户的k-means聚类,获得聚类中心与类标号,并统计每个类别的客户数 六、思考与分析 使用不同的预处理对数据进行变化,在使用k-means算法进行聚类,对比聚类的结果。 kmenas算法首先选择K个初始质心,其中K是用户指定的参数,即所期望的簇的个数。 这样做的前提是我们已经知道数据集中包含多少个簇. 1.与层次聚类结合 经常会产生较好的聚类结果的一个有趣策略是,首先采用层次凝聚算法决定结果

系统分析实验报告2016

本科实验报告 课程名称:系统分析与设计 实验项目:《》实验实验地点: 专业班级:学号: 学生姓名: 指导教师: 2016年11月日

一、实验目的 通过《系统分析与设计》实验,使学生在实际的案例中完成系统分析与系统设计中的主要步骤,并熟悉信息系统开发的有关应用软件,加深对信息系统分析与设计课程基础理论、基本知识的理解,提高分析和解决实际问题的能力,使学生在实践中熟悉信息系统分析与设计的规范,为后继的学习打下良好的基础。 二、实验要求 学生以个人为单位完成,自选题目,班内题目不重复,使用UML进行系统分析与设计,并完成实验报告。实验报告(A4纸+电子版)在最后一次上课时提交(10周)。 三、实验主要设备:台式或笔记本计算机 四、实验内容 1 选题及项目背景 学生填写自选题目 2 定义 学生填写(对自选项目系统进行描述200-400字) 3 参考资料 学生填写 4 系统分析与设计 4.1需求分析 4.1.1识别参与者 学生填写 4.1.2 对需求进行捕获与描述 学生填写时删除以下括号内容 (内容要求1:对每个用例进行概要说明,参考以下格式: 用例名称:删除借阅者信息执行者:管理员 目的:完成一次删除借阅者信息的完整过程。) (内容要求2:选择其中一个用例(如下订单)给出其用例描述。格式参考下表

) 4.1.3 用例图 通过已掌握的需求,初步了解系统所要完成的功能。下面给出用例图。 4.1.4 分析与讨论 1)建模用例图的步骤、方法? 2)如何识别系统的参与者?应该如何划分用例,应注意哪些问题? 3)心得 4.2 建立对象模型 4.2.1 候选类的数据字典 学生填写 4.2.2定义类 (内容以“书籍信息”类为例列出该类的属性和操作如下: “书籍信息”类 ?属性 国际标准书号(ISBN):文本(String) 书名(name):文本

聚类分析实验报告

聚类分析实验报告 姓名: 学号: 班级: 一:实验目的 1.了解聚类分析的基本原理及在spss中的实现过程。 2.通过对指标进行聚类,体会降维的处理过程。 3.通过不同性质指标对样本进行聚类,体会归类的思想。 二:实验原理 聚类分析就是根据事物本身的特性来定量研究分类问题的一种多元统计分析方法。其基本思想就是同一类中的个体有较大的相似性,不同类中的个体差异较大,于就是根据一批根据一批样品的多个观察指标,找出能够度量样品(或变量)之间相似度的统计量,并以此为依据,采用某种聚类法,将所有的样品(或变量)分别聚合到不同的类中。 三:实验过程 本实验就是通过对上市公司分析所得。由基本经济知识知道评价一个上市公司的业绩主要从以下四个方面:盈利能力,偿债能力,成长能力,经营能力。所以我分别从这四个方面共选取了19个指标来对上市公司的业绩进行评价。具体数据请见EXCEL。 由上面的分析我们知道评定一个上市公司业绩的指标有四类,但我们瞧EXCEL可知,每一类下面有4-5个指标,每类指标有较强相关性,存在多重共线性与维数过高而不易分析得影响。所以首先采用系统聚类法对每类指标进行聚类,再采用比较复相关系数得出每类最具代表的指标,达到降维的目的。(注:以下对指标分析均采用主间连接法,度量标准为person相关性) 以下就是实验截图: (1):对盈利能力指标

从上表分析我们可将盈利能力的4个指标分为两类,即“毛利率”为一类,“销售净利率”、“成本费用利润率”与“资产净利润”为一类。所以“毛利率”为一类,另外再对“销售净利润”、“成本费用利润率”与“资产净利润”分别作对另3个指标的复相关系数,结果如下: ①、以“销售净利润”为因变量,其余为自变量得: 模型汇总 模型R R 方调整 R 方标准估计的误 差 1 、980a、960 、957 、20721755 a、预测变量: (常量), Zscore: 资产净利率(%), Zscore: 毛利率(%), Zscore: 成本费用利润率(%)。 ②、以“成本费用利润率”为因变量,其余为自变量得: 模型汇总 模型R R 方调整 R 方标准估计的误 差 1 、978a、957 、953 、21603919 a、预测变量: (常量), Zscore: 销售净利率(%), Zscore: 毛利率(%), Zscore: 资产净利率(%)。 ③、以“资产净利润”为因变量,其余为自变量得: 模型汇总 模型R R 方调整 R 方标准估计的误 差

需求分析实验报告

需求分析实验报告 沙漠绿洲书店是福州大学附近最大的民营书店。长期以来,城市沙漠书店为福大学子乃至整个城市读者提供了不少的便利。在2005年,该书店扩大了书店的面积,大大提高了库存量,使得读者可以购买到更多的书籍。但是,原来的图书销售已经渐渐无法适应市场的发展,因为图书销售的顾客群慢慢固定。为了进一步扩大市场,书店决定开发一套新的销售系统,以自动化的方式进行图书的销售以及管理。书店决定开通网上书店,面向全国进行网上售书,进一步扩大消费人群,同时,保留以往的电话售书的方式,为不在该市的消费者提供便利。

在图书管理方面,由于图书的数量年年增长,出现了许多新的消费热点,读者对图书的选择性有了一些变化。原来的系统已经无法体现这些变化,也无法满足企业制定销售战略。 在书店内部,由于面积的扩大,使得原来的导购小姐无法满足书店的需要,同时,书店也有意尝试通过在书店的不同位置放置可供读者自己查询的电脑来满足读者的需要。 在书店的规划方面,原来的系统只能够描述销售及库存的情况,对于整个书店的财务,会计等方面并没有涉及,这对于书店进一步扩大规模是不利的。宁因此,书店决定开发一套新的图书销售系统。 书店的新战略规划:书店的战略规划是要建立更多的客户群以扩大书店的发展规模,进而扩大市场。 一个战略是为外地用户扩大电话定购能力,另一个战略是要通过Internet 增加直接客户市场销路。新系统是一个能为企业的快速增长进行计划并准备加强支持客户交互作用的系统。 战略系统计划项目产生了技术结构计划,应用程序结构计划和实施的时间帧。 1,技术结构计划: 1,把商业应用软件转移到客户-服务器结构来,为数据库和电信功能保留了主机,以允许其容量增加及快速发展。 2,向在Internet 上经营商业转移,首先要有一个Web 站点,然后要有链 接到内部系统和数据库的一些客户和供应商的事务处理支持。 3,预期最后向内联网解决方案发展 2,应用程序结构计划; 1,财务/会计:带客户-服务器的软件包解决方案 2 ,人力资源:一个软件包解决方案,最大限度地使员工访问人力资源表,过程和利益信息。 3,客户支持系统:设计一个订单处理和执行系统,综合三方面的订单 处理需求:通过WEB 邮购,电话定购和直接客户市场销售。 4,库存管理系统:设计一个商品销售和库存系统,可以部分提供给客户以便查询 5,零售店系统:把商店管理系统与库存管理系统集成起来 3,实施应用结构计划的时间帧 1,首先,实施客户支持系统。 2,在客户支持系统启动后立即开始实施库存管理系统。 3,把零售店系统与库存管理系统集成起来 4,更新人力资源系统和财务/会计系统 1,系统分析 根据书店的要求,可以确定系统相关者:

对数据进行聚类分析实验报告

对数据进行聚类分析实验报告 徐远东 任争刚 权荣 一、 基本要求 用FAMALE.TXT 、MALE.TXT 和/或test2.txt 的数据作为本次实验使用的样本集,利用C 均值和分级聚类方法对样本集进行聚类分析,对结果进行分析,从而加深对所学内容的理解和感性认识。 二、 实验要求 1、 把FAMALE.TXT 和MALE.TXT 两个文件合并成一个,同时采用身高 和体重数据作为特征,设类别数为2,利用C 均值聚类方法对数据进行聚类,并将聚类结果表示在二维平面上。尝试不同初始值对此数据集是否会造成不同的结果。 2、 对1中的数据利用C 均值聚类方法分别进行两类、三类、四类、五类聚类,画出聚类指标与类别数之间的关系曲线,探讨是否可以确定出合理的类别数目。 3、 对1中的数据利用分级聚类方法进行聚类,分析聚类结果,体会分级聚类方法。。 4、 利用test2.txt 数据或者把test2.txt 的数据与上述1中的数据合并在一起,重复上述实验,考察结果是否有变化,对观察到的现象进行分析,写出体会 三、 实验步骤及流程图 根据以上实验要求,本次试验我们将分为两组:一、首先对FEMALE 与MALE 中数据组成的样本按照上面要求用C 均值法进行聚类分析,然后对FEMALE 、MALE 、test2中数据组成的样本集用C 均值法进行聚类分析,比较二者结果。二、将上述两个样本用分即聚类方法进行聚类,观察聚类结果。并将两种聚类结果进行比较。 一、(1)、C 均值算法思想 C 均值算法首先取定C 个类别和选取C 个初始聚类中心,按最小距离原则将各模式分配到C 类中的某一类,之后不断地计算类心和调整各模式的类别,最终使各模式到其判属类别中心的距离平方之和最小 (2)、实验步骤 第一步:确定类别数C ,并选择C 个初始聚类中心。本次试验,我们分别将C 的值取为2和3。用的是凭经验选择代表点的方法。比如:在样本数为N 时,分为两类时,取第一个点和第()12/+N INT 个点作为代表点;分为三类时,取第一、

信号与系统实验报告

学生实验报告 (理工类) 课程名称:信号与系统实验专业班级:电子信息(1)班学生学号:1005101058 学生姓名:严生生 所属院部:信息技术学院指导教师:杨婧 20 11 ——20 12 学年第 1 学期 金陵科技学院教务处制

实验报告书写要求 实验报告原则上要求学生手写,要求书写工整。若因课程特点需打印的,要遵照以下字体、字号、间距等的具体要求。纸张一律采用A4的纸张。 实验报告书写说明 实验报告中一至四项内容为必填项,包括实验目的和要求;实验仪器和设备;实验内容与过程;实验结果与分析。各院部可根据学科特点和实验具体要求增加项目。 填写注意事项 (1)细致观察,及时、准确、如实记录。 (2)准确说明,层次清晰。 (3)尽量采用专用术语来说明事物。 (4)外文、符号、公式要准确,应使用统一规定的名词和符号。 (5)应独立完成实验报告的书写,严禁抄袭、复印,一经发现,以零分论处。 实验报告批改说明 实验报告的批改要及时、认真、仔细,一律用红色笔批改。实验报告的批改成绩采用百分制,具体评分标准由各院部自行制定。 实验报告装订要求 实验批改完毕后,任课老师将每门课程的每个实验项目的实验报告以自然班为单位、按学号升序排列,装订成册,并附上一份该门课程的实验大纲。

实验项目名称:常用连续信号的表示实验学时: 1 同组学生姓名:实验地点: B402 实验日期:实验成绩: 批改教师:杨婧批改时间: 一、实验目的和要求 熟悉MATLAB软件,利用MATLAB软件,绘制出常用的连续时间信号。 二、实验仪器和设备 586以上计算机,装有MATLAB7.0软件。 三、实验过程 1,绘制正弦信号f(t)=Asin(ωt+ψ),其中A=1,ω=2π, ψ=π/6; 2,绘制指数信号f(t)=Ae^at,其中A=1,a=-0.4; 3,绘制矩形脉冲信号,脉冲宽度为2; 4,绘制三角波脉冲信号,脉冲宽度为4;斜度为0.5; 5,对上题三角波脉冲信号进行尺度变换,分别得出f(2t),f(2-2t); 6,绘制抽样函数Sa(t),t取值在-3π到+3π之间; 7,绘制周期矩形脉冲信号,参数自定; 8,绘制周期三角脉冲信号,参数自定; 1,打开MATLAB界面,建立新文件。 2,根据实验要求,编写程序。

实验三K均值聚类算法实验报告

实验三 K-Means聚类算法 一、实验目的 1) 加深对非监督学习的理解和认识 2) 掌握动态聚类方法K-Means 算法的设计方法 二、实验环境 1) 具有相关编程软件的PC机 三、实验原理 1) 非监督学习的理论基础 2) 动态聚类分析的思想和理论依据 3) 聚类算法的评价指标 四、算法思想 K-均值算法的主要思想是先在需要分类的数据中寻找K组数据作为初始聚类中心,然后计算其他数据距离这三个聚类中心的距离,将数据归入与其距离最近的聚类中心,之后再对这K个聚类的数据计算均值,作为新的聚类中心,继续以上步骤,直到新的聚类中心与上一次的聚类中心值相等时结束算法。 实验代码 function km(k,A)%函数名里不要出现“-” warning off [n,p]=size(A);%输入数据有n个样本,p个属性 cid=ones(k,p+1);%聚类中心组成k行p列的矩阵,k表示第几类,p是属性 %A(:,p+1)=100; A(:,p+1)=0; for i=1:k %cid(i,:)=A(i,:); %直接取前三个元祖作为聚类中心 m=i*floor(n/k)-floor(rand(1,1)*(n/k)) cid(i,:)=A(m,:); cid; end Asum=0; Csum2=NaN; flags=1; times=1; while flags flags=0; times=times+1; %计算每个向量到聚类中心的欧氏距离 for i=1:n

for j=1:k dist(i,j)=sqrt(sum((A(i,:)-cid(j,:)).^2));%欧氏距离 end %A(i,p+1)=min(dist(i,:));%与中心的最小距离 [x,y]=find(dist(i,:)==min(dist(i,:))); [c,d]=size(find(y==A(i,p+1))); if c==0 %说明聚类中心变了 flags=flags+1; A(i,p+1)=y(1,1); else continue; end end i flags for j=1:k Asum=0; [r,c]=find(A(:,p+1)==j); cid(j,:)=mean(A(r,:),1); for m=1:length(r) Asum=Asum+sqrt(sum((A(r(m),:)-cid(j,:)).^2)); end Csum(1,j)=Asum; end sum(Csum(1,:)) %if sum(Csum(1,:))>Csum2 % break; %end Csum2=sum(Csum(1,:)); Csum; cid; %得到新的聚类中心 end times display('A矩阵,最后一列是所属类别'); A for j=1:k [a,b]=size(find(A(:,p+1)==j)); numK(j)=a; end numK times xlswrite('data.xls',A);

管理信息系统实验报告分析

实验报告 课程:管理信息系统 一、实验目的 验证有关概念和理论,加深对概念和知识的理解和认识;熟悉和掌握Visual Basic 6.0 软件的使用方法;初步具备信息管理知识和制作数据字典、系统数据流程图的能力。运用课程讲授的管理信息系统的系统分析方法、模块化系统设计方法以及系统的调试方法进行人事档案管理信息系统的分析、设计、开发、实现与调试。 二、实验方法 面向对象法 三、实验环境及开发工具 1.硬件环境 在最低配置的情况下,系统的性能往往不尽如人意,但现在的硬件性能已经相当的出色,而且价格便宜,因此通常给服务器的配置高性能的硬件。 处理器:Interl Pentium II 266 MX 或更高 内存:64M 硬盘空间:2 GB 显卡:SVGA 显示适配器 显示器:液晶17寸 2.软件环境 操作系统:Windows/98/ME/2000/XP或更高版本 数据库:Microsoft Access 2000 3.实验开发工具:Visual Bisic 6.0程序系统 四、实验内容

(一)、系统分析 1、系统数据流程图 2、数据字典 3、系统中所有实体(包括实体的属性)以及实体之间的联系类型分析 人员的个人资料经过专业的处理部门的处理形成个人档案。档案包括自然情况,工作情况,简历,政治情况等各方面信息,内容比较庞大复杂。将档案信息传送到人员信息库。同时还综合考虑档案管理工作的性质,总结归纳出所需实现

的功能。为人事档案进行服务,对人事的变动、人事资料、以及人事资料的查询,统计等功能。总体上说具有编辑,查询,用户管理,图表统计等功能。然后将最终结果提交到人力资源管理部门,由人力资源管理人员进行审查,以便于对职工的调配。 4、典型处理的表达 档案完整添加用户档案到档案库 个人信息成功添加到档案库 修改用户档案信息 失败退回用户档案 退回用户档案 (二)、系统设计 1、子系统划分(或功能划分或模块划分) 功能划分 1、用户管理 功能:设置使用人事管理系统的用户及其使用权限。整个人事管理系统由多个功能模块组成,不同的模块完成不同的功能,所以可以为不同的职工分配不同的功能,使其具有不同的权限,完成其权限所对应的功能,从而很好地管理好整个系统。 2、辅助表管理 功能:通过它的这个功能可以有效的对本单位人事部门的扩充进行及时的计算机管理。只要管理员进行简单的数据字段添加即可。辅助表管理功能是高级管理员及中级管理员拥有的权限,它的功能是对数据库进行新表的添加。 3、档案编辑 功能:档案编辑模块中有4个子模块。他们是档案卡片、个人简历、家庭成员、历史档案等功能。这些功能因管理员的权限不同所表示出的功能使用也不同,普通管理员没有数据修改及删除的权利。在这些功能里详细的记录了所有单位员工的资料。 4、档案查询 功能:对档案卡片的查询功能,在这里可以查到符合程序要求的任何信息。

聚类分析实验报告.doc

聚类分析实验报告 姓名:学号:班级: 一:实验目的 1.了解聚类分析的基本原理及在spss中的实现过程。 2.通过对指标进行聚类,体会降维的处理过程。 3.通过不同性质指标对样本进行聚类,体会归类的思想。 二:实验原理 聚类分析是根据事物本身的特性来定量研究分类问题的一种多元统计分析方法。其基本思想是同一类中的个体有较大的相似性,不同类中的个体差异较大,于是根据一批根据一批样品的多个观察指标,找出能够度量样品(或变量)之间相似度的统计量,并以此为依据,采用某种聚类法,将所有的样品(或变量)分别聚合到不同的类中。 三:实验过程 本实验是通过对上市公司分析所得。由基本经济知识知道评价一个上市公司的业绩主要从以下四个方面:盈利能力,偿债能力,成长能力,经营能力。所以我分别从这四个方面共选取了19个指标来对上市公司的业绩进行评价。具体数据请见EXCEL。 由上面的分析我们知道评定一个上市公司业绩的指标有四类,但我们看EXCEL可知,每一类下面有4-5个指标,每类指标有较强相关性,存在多重共线性和维数过高而不易分析得影响。所以首先采用系统聚类法对每类指标进行聚类,再采用比较复相关系数得出每类最具代表的指标,达到降维的目的。(注:以下对指标分析均采用主间连接法,度量标准为person相关性) 以下是实验截图: (1):对盈利能力指标

从上表分析我们可将盈利能力的4个指标分为两类,即“毛利率”为一类,“销售净利率”、“成本费用利润率”和“资产净利润”为一类。所以“毛利率”为一类,另外再对“销售净利润”、“成本费用利润率”和“资产净利润”分别作对另3个指标的复相关系数,结果如下: ①、以“销售净利润”为因变量,其余为自变量得: 模型汇总 模型R R 方调整 R 方标准估计的误 差 1 .980a.960 .957 .20721755 a. 预测变量: (常量), Zscore: 资产净利率(%), Zscore: 毛利率(%), Zscore: 成本费用利润率(%)。 ②、以“成本费用利润率”为因变量,其余为自变量得: 模型汇总 模型R R 方调整 R 方标准估计的误 差 1 .978a.957 .953 .21603919 a. 预测变量: (常量), Zscore: 销售净利率(%), Zscore: 毛利率(%), Zscore: 资产净利率(%)。 模型汇总 模型R R 方调整 R 方标准估计的误 差

系统分析与设计实验报告样本

鞋店进销存管理系统 一.项目背景 随着计算机技术的不断发展, 它已经成为人们工作和生活中不可缺少的工具。早在1954年, 银行、大公司和大企业纷纷采用计算机进行账户和账目管理、生产管理、库存管理、销售管理、统计报表等。从数据的收集、存储、整理到检索统计, 应用的范围日益扩大, 使计算机的应用很快超过科学计算, 成为最大的计算机应用领域。 鞋店管理的特点是信息处理量比较大, 所存的鞋种类多, 而且由于进货单、销售单、需求单等单据发行量特别大, 关联信息多, 查询和统计的方式各不相同等原因,因此在管理上实现起来有一定困难。在管理的过程中经常会出现信息的重复传递, 单据报表种类繁多, 各个部门管理规格不统一等问题。 在本系统的设计过程中, 为了克服这些困难, 满足计算机管理的需要,我们采取了下面的一些原则: 1、统一各种原始单据的格式, 统一账目和报表的格式。 2、删除不必要的管理冗余, 实现管理规范化、科学化。 3、程序代码标准化, 软件统一化, 确保软件的可维护性和 实用性。 4、界面尽量简单化, 做到实用, 方便, 尽量满足书店中 不同层次员工的需要。 二.定义

”鞋店进销存管理系统”为用户提供添加、修改、查询、退货操作等服务。 用户在登陆界面输入用户名, 密码后系统核对正确进入系统内部。 系统就要求用户选择事务类型( 添加、修改、查询、退货等) , 直至用户选择退出应用服务, 询问用户是否退出应用服务, 如果 用户选择结束, 系统重回登陆界面。用户进入添加界面后, 首先 能够输入的数字必须大于等于100) , 否则系统显示输入有误。用 户点击确认后, 由系统查询, 判断该取值是否超出库存量, 如果没有, 则系统会显示确认界面, 用户单点击”确认”后, 系统自动生成账单, 并在后台 进行工作, 系统进行清点并发出命令给仓库管理人员, 并将数据 更新到数据库中; 否则提示用户库存量不足, 请重新输入, 重复 上述过程。 三.参考资料 《系统分析与设计》 四.系统分析与设计 4.1需求分析 4.1.1识别参与者 用户(下订单者), 系统维护人员, 仓库管理人员 4.1.2 对需求进行捕获与描述 用例名称: 添加执行者: 用户目的: 向仓库中发出下订单命令。 用例名称: 退货执行者: 用户目的: 将未售出的货物退还到仓库 用例名称: 修改执行者: 用户目的: 修改用户登录密码。

聚类分析实验报告

聚类分析实验报告 Company Document number:WUUT-WUUY-WBBGB-BWYTT-1982GT

聚类分析实验报告 姓名:学号:班级: 一:实验目的 1.了解聚类分析的基本原理及在spss中的实现过程。 2.通过对指标进行聚类,体会降维的处理过程。 3.通过不同性质指标对样本进行聚类,体会归类的思想。 二:实验原理 聚类分析是根据事物本身的特性来定量研究分类问题的一种多元统计分析方法。其基本思想是同一类中的个体有较大的相似性,不同类中的个体差异较大,于是根据一批根据一批样品的多个观察指标,找出能够度量样品(或变量)之间相似度的统计量,并以此为依据,采用某种聚类法,将所有的样品(或变量)分别聚合到不同的类中。 三:实验过程 本实验是通过对上市公司分析所得。由基本经济知识知道评价一个上市公司的业绩主要从以下四个方面:盈利能力,偿债能力,成长能力,经营能力。所以我分别从这四个方面共选取了19个指标来对上市公司的业绩进行评价。具体数据请见EXCEL。 由上面的分析我们知道评定一个上市公司业绩的指标有四类,但我们看EXCEL可知,每一类下面有4-5个指标,每类指标有较强相关性,存在多重共线性和维数过高而不易分析得影响。所以首先采用系统聚类法对每类指标进行聚类,再采用比较复相关系数得出每类最具代表的指标,达到降维的目的。(注:以下对指标分析均采用主间连接法,度量标准为person相关性) 以下是实验截图: (1):对盈利能力指标 从上表分析我们可将盈利能力的4个指标分为两类,即“毛利率”为一类,“销售净利率”、“成本费用利润率”和“资产净利润”为一类。所以“毛利率”为一类,另外再对“销售净利润”、“成本费用利润率”和“资产净利润”分别作对另3个指标的复相关系数,结果如下: 模型汇总 模型R R 方调整 R 方标准估计的误差

相关文档
相关文档 最新文档