文档视界 最新最全的文档下载
当前位置:文档视界 › 大数据时代的空间数据挖掘综述

大数据时代的空间数据挖掘综述

大数据时代的空间数据挖掘综述
大数据时代的空间数据挖掘综述

第37卷第7期测绘与空间地理信息

GEOMATICS &SPATIAL INFORMATION TECHNOLOGY

Vol.37,No.7收稿日期:2014-01-22

作者简介:马宏斌(1982-),男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。

大数据时代的空间数据挖掘综述

马宏斌1

,王

柯1,马团学

2(1.信息工程大学地理空间信息学院,河南郑州450000;2.空降兵研究所,湖北孝感432000)

要:随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题,

介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。关键词:大数据;空间数据挖掘;云计算中图分类号:P208

文献标识码:B

文章编号:1672-5867(2014)07-0019-04

Spatial Data Mining Big Data Era Review

MA Hong -bin 1,WANG Ke 1,MA Tuan -xue 2

(1.Geospatial Information Institute ,Information Engineering University ,Zhengzhou 450000,China ;

2.Airborne Institute ,Xiaogan 432000,China )

Abstract :In the era of Big Data ,more and more researchers begin to show interest in data mining techniques again.The paper review most unresolved problems left by traditional spatial data mining at first.And ,some progress made by researches using Big Data and Cloud Computing technology is introduced.Also ,their drawbacks are mentioned.Finally ,future trend of spatial data mining is dis-cussed.

Key words :big data ;spatial data mining ;cloud computing

0引言

随着地理空间信息技术的飞速发展,获取数据的手

段和途径都得到极大丰富,传感器的精度得到提高和时空覆盖范围得以扩大,数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子

显微镜、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、

地图数字化、统计图表等空间数据获取手段,还可能是来自计算机、

网络、GPS ,RS 和GIS 等技术应用和分析空间数据。特别是近些年来,个人使用的、携带的各种传感器(重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等),具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLE GLASS 和智能手表等),使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息(Volunteer Geographic Information )的出现,使这些普通民众也加入到了提供数据者的行列。

以上各种获取手段和途径的汇集,就使每天获取的

数据增长量达到GB 级、

TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ,并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB 的观测数据。而2012年发射的资源三号(ZY3)卫星,每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫

星、

飞机等飞行平台上,未来10年,全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来,那就是大数据时代。大数据具有

“4V ”特性,即数据体量大(Volume )、数据来源和类型繁多(Variety )、数据的真实性难以保证(Veracity )、数据增加和变化的速度快(Velocity )。对地观测的系统如图1所示。

在这些数据中,与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限,

受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将

图1对地观测系统

Fig.1Earth observation system

数据“坟墓”变成

“知识金块”。这一需求使得数据挖掘在大数据时代再度受到人们的重视。同时,

大数据时代的研究方法和数据处理技术也给空间数据挖掘研究的发展

带来了新的机遇。

1传统空间数据挖掘存在的问题

1989年8月于美国底特律市召开的第一届国际联合

人工智能学术会议上,首次出现了从数据库中发现知识(Knowledge Discovery in Database ,简称KDD )。空间数据挖掘研究比一般的关系数据库或事务数据库的数据挖掘

研究晚。1994年在渥太华举行的GIS 国际会议上,李德仁院士第一次提出了从GIS 数据库中发现知识(Knowl-edge Discovery from GIS ,简称KDG )的概念,并系统分析了空间知识发现的特点和方法,认为它能够把GIS 有限的数

据变成无限的知识,精炼和更新GIS 数据,促使GIS 成为智能化的信息系统。从此,空间数据挖掘就成为数据库和信息决策领域的一个重要研究方向,虽然取得了一定的进展,但还有很多问题需要研究。空间数据挖掘的基本过程如图2所示

图2空间数据挖掘的基本过程

Fig.2The basic process of spatial data mining

1.1空间挖掘理论和算法研究

经过近年来的研究,空间数据挖掘继承和发展相关

的基础学科(如机器学习、统计学等)已有成果,并探索出独具特色的理论体系,但也存在一些问题,主要表现为以下几点:

1)多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、处理及空间数据本身的特点。空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。

2)空间数据含有随机不确定性和模糊性,但目前的空间数据挖掘方法对空间数据的不确定性处理还存在一

些问题。有的方法根本没有考虑空间数据的不确定性;有的方法考虑了随机不确定性;有的方法考虑空间数据的模糊性。还没有一种方法既能较好地考虑空间数据随机不确定性又考虑空间数据模糊性。

3)空间数据挖掘的智能化。目前空间数据挖掘已经应用了人工神经网络等智能算法,

但现有的空间数据挖掘系统的智能化程度比较低,还需要进一步提高。例如依据数据的特点自动选择合适的挖掘算法,

在此过程中不需要或者需要少量的人工干预。

4)空间数据挖掘质量评价。空间数据挖掘的知识很多,但挖掘的程度如何、挖掘的效益如何等这些问题目前还没有进行研究。空间数据挖掘结果可能会发现数以千计的模式,其中有些模式是错误的,对于给定的用户,许多模式未必是感兴趣的,因此,如何提供给用户有用的、确定的和可表示性的知识是一个需要研究的课题。5)私有性、安全性与空间数据挖掘问题。知识发现可能导致对于私有权的入侵,研究采取哪些措施防止暴露敏感信息是十分重要的。当从不同角度和不同抽象级上观察空间数据时,数据安全性将受到严重威胁。这时空间数据保护和空间数据挖掘可能会造成一些矛盾的结果。

1.2

空间数据挖掘技术研究

目前,在空间数据挖掘系统研究过程中存在以下问题:

1)空间数据集成问题。许多空间数据集中包含着复

杂的数据类型,如关系型数据、半结构化数据、非结构化数据、

复杂的空间数据对象、超文本数据和多媒体数据、时空数据、视频数据、声音数据等,局域网和广域网、国际互联网上更是连接了更多的空间数据源并形成了巨大、变化、分布式、分层、异构的空间数据仓库。具有不同数据语义,来自不同的数据源,随时都有可能改变的空间数据集,

对空间数据挖掘提出了新的挑战,目前并不存在一个强有力的空间能使数据挖掘系统有效地处理这些复杂的数据类型。

2)空间数据挖掘系统适用范围有限。国际上最著名且有代表性的通用SDM 系统有:GeoMiner ,

Descartes 和ArcViewGIS 的S_PLUS 接口。以上SDM 系统的共同优点

是可以把传统DM 与地图可视化结合起来,

提供聚类、分类等多种挖掘模式,

但它们在空间数据的操作上实现方式不尽相同。Descartes 是专门的空间数据可视化工具,它和DM 工具Kepler 两者联合在一起才能完成SDM 任务。GeoMiner 是在MapInfo 平台上进行二次开发而成,系统庞大,

造成较大的资源浪费。S_PLUS 的局限在于,它是一种解释性语言(Script ),功能的实现比用C 和C ++直接实现要慢得多,所以只能在非常小的数据库中使用。

3)没有公认的标准化空间数据挖掘查询语言。虽然GeoMiner 在Oracle Spatial SQL 语言的基础上设计了GMQL (Geo -Mining Query Language ),方便了空间数据挖掘,

但毕竟GeoMiner 只是加拿大Simon 大学开发的,原型0

2测绘与空间地理信息2014年

系统不够成熟,属于实验阶段,并未投入实际应用和后续开发。

4)空间挖掘方法和用户交互问题。由于不同的用户可能对不同类型的知识感兴趣,空间数据系统应该覆盖范围很广的数据分析和知识发现任务,在相同的空间数据上发现不同的知识,有必要提供交互式手段,开发不同的空间数据挖掘技术。而目前,空间数据挖掘知识发现系统普遍交互性不强,在知识发现过程中很难充分有效地利用领域专家知识,用户不能很好地掌控空间数据挖掘过程。

5)性能问题。许多现有的空间数据挖掘算法往往适合于常驻内存的、小数据集的空间数据挖掘,而如今大数据时代,大型空间数据库中存放了TB 级的数据,所有的空间数据无法同时导入内存,所以有效性和可伸缩性是实现空间数据挖掘系统的关键问题。

在大数据时代,以上研究都会遇到数据密集(Data in-tensity )、计算密集(Computing intensity )、并发访问密集(Concurrent intensity )和时空密集(Spatiotemporal intensi-ty )的问题。海量的、分布的、异构的空间数据给数据挖掘系统的实现带来了难题。处理这些数据的复杂度很高,系统的存储能力、计算能力、并发访问能力很难达到要求,此时传统的单机服务器所能提供的有限资源往往不能满足要求,需要借助分布式计算技术来实现大规模空间数据的存储和并行计算。

2大数据时代空间数据挖掘进展

云计算(CloudComputing )是网格计算(GridComput-ing )、分布式计算(DistributedComputing )、并行计算(Par-allelComputing )、效用计算(UtilityComputing )、网络存储(NetworkStorageTechnologies )、虚拟化(Virtualization )、负载均衡(LoadBalance )等传统计算机技术和网络技术发展融合的产物。它旨在通过网络把多个成本相对较低的计算实体整合成一个具有强大计算能力的完善系统。基于云计算的数据挖掘系统搭建于“云”之上,透明地为各种终端的用户提供界面服务;为基于该系统开发的程序提供开放接口,用户可以通过其他应用程序调用系统提供的开放接口来间接地使用系统提供的各种服务。用户不需要了解系统是怎样实现的,也不需要担心系统的计算与存储能力,只需要选择合适的算法来处理数据,最终以任务的方式部署给系统区执行,得到数据挖掘的结果。基于云计算的数据挖掘系统设计如图3所示。

2.1国内进展

1)数据挖掘系统研究。中国移动研究院研发的基于

云计算平台的并行数据挖掘工具(BC -PDM ,

Blue Carrier based Parallel Data Mining ),采用云计算技术,实现海量数据的存储、分析、处理、挖掘。厦门大学数据挖掘研究中心与台湾铭传大学资讯工程系、中华资料采矿协会合作开发的一套基于云计算的数据挖掘决策支持系统———云端数据挖掘决策系统(MCU Smart Score )。该系统是厦门

数据挖掘研究中心统计与数据挖掘云端系统的部分阶段

图3基于云计算的数据挖掘系统设计Fig.3Cloud -based data mining system design 性成果。基于Hadoop ,中科院计算所研制了并行数据挖掘工具平台PDMiner 。针对海量数据,分别从数据挖掘模式和方法等方面进行相关的研究。与此同时,中科院深圳先进技术研究院还研制了一套分布式数据挖掘系统AlphaMiner 。以上这些云端数据挖掘系统只是实现了对事务性海量数据的挖掘,并没有针对空间数据进行设计,还无法高效存储、查询和挖掘空间数据。2)数据挖掘算法研究。在一些大学和研究机构,基于MapReduce 模式的数据挖掘算法研究较多。如大连理工大学李钰研究了空间数据RkNN 算法,

但仅限于低维空间数据。河南工业大学赵广才研究了基于改进K -means 空间聚类算法,但存在模型简单化、聚类结果容易出现误差的问题。

2.2国外进展

Apache 组织近年来组织了Mahout 开源项目,设计用于

云平台的数据挖掘算法。但Mahout 项目目前还缺少数据

准备、数据展示和用户交互,还不能完全适合海量数据挖掘并行算法的性能评估。SpatialHadoop 由明尼苏达大学计算科学与工程系Ahmed Eldawy 和Mohamed F.Mokbel 两人开发,是对开源的MapReduce 一个扩展,专门用来在A-pache Hadoop 上处理海量的空间数据。SpatialHadoop 内置高级空间查询语言、支持基本空间数据类型(点、矩形、多边形)和空间索引(分为本地索引和全局索引),可以高效进行一些空间操作(范围查询、K 最近邻分类、空间合并)。但此项目还处在实验阶段,存在支持的数据类型有限、交互性不强、功能单一的问题。以上基于云计算的数据挖掘系统都是基于通用的云计算平台和大数据处理工具开发的,并未在底层设计时考虑到地理空间科学的特点,所以对于空间数据的处理,效果都不是很理想。而且大多基于Hadoop 技术开发,无法完成数据流的实时挖掘处理。

3结束语

从数据挖掘技术的发展历史看,随着互联网的蓬勃发展,数据的规模越来越大,从KB 级发展到TB 级甚至PB 级海量数据;数据挖掘的对象也变得越来越复杂,从数

1

2第7期

马宏斌等:大数据时代的空间数据挖掘综述

据库到多媒体数据和复杂社会网络;数据挖掘的需求也从分类、聚类关联到复杂的演化和预测分析;挖掘过程中的交互方式从单一的人机交互发展到现在社会网络群体的交互。通过云计算的海量数据存储和分布计算,为云计算环境下的海量数据挖掘提供了新的方法和手段,有效解决了海量数据挖掘的分布存储和高效计算问题。但是,这些云计算平台自诞生之日起,就不是为处理空间数据而设计,所以它们都在底层对空间数据不敏感。2011年由Yang Chaowei(美国乔治梅森大学制图与地理信息科学系),Michael Goodchild(加利福尼亚大学制图系)等多位学者在《空间云计算:地理空间科学如何利用和塑造云计算》一文中,定义了空间云计算(Spatial Cloud Compu-ting),是指由地理空间科学推动的,并经时空原则优化的云计算范式,它可以进行地理科学发现和在分布式环境中进行云计算。笔者认为,专门为地理科学设计的云计算才更适合空间数据的挖掘和处理,也是地理信息领域研究人员今后努力的一个方向。

参考文献:

[1]王树良,丁刚毅,钟铭.大数据下的空间数据挖掘思考[J].中国电子科学院学报,2013,8(1):10-16.[2]李国庆,邬延辉.大数据时代的对地观测科学研究[J].中国计算机协会通讯,2013,9(9):27-31.

[3]黄斌,许舒人,蒲卫.基于MapReduce的数据挖掘平台设计与实现[J].计算机工程与设计,2013,34(2):495

-501.

[4]李钰.基于MapReduce的空间数据RkNN算法研究[D].大连:大连理工大学,2013.

[5]赵广才.基于云计算的空间聚类分析研究[D].郑州:河南工业大学,2012.

[6]丁岩,杨庆平,钱煜明.基于云计算的数据挖掘平台架构及其关键技术研究[J].中兴通信技术,2013,19(1):

495-501.

[7]Ahmed Eldawy,Mohamed F.Mokbel.A Demonstration of SpatialHadoop:An Efficient MapReduce Framework for

Spatial Data[A].Proceedings of the VLDB Endowment

[C].Italy:VLDB Endowment.2013:1230-1233.[8]Chaowei Yang,Michael Goodchild等.Spatial cloud com-puting:how can the geospatial sciences use and help shape

cloud computing?[J].International Journal of Digital

Earth,2011,4(4):305-329.

[编辑:张曦]

(上接第15页)

3结束语

城市地下空间的利用与规划对于现代城市建设具有重大意义,是通过开发利用地下空间在一定程度上对地上功能开发的补充和辅助。具体而言,就是在城市功能聚集区,将部分设施建在地下,“腾出”环境良好的地面空间用于安排人们的日常活动。建立本系统就是为探索一条利用信息化手段管理广州市逐年增加的地下空间各类数据资料之路,并开发有针对性的功能来利用这些数据,为城市规划、建设服务起到以下作用:

1)是扩充城市空间容量,调整城市土地利用强度分布,使城市空间资源利用有序化的重要手段;

2)是建立现代化的城市综合交通体系以及城市防灾救灾综合空间体系的重要途径;

3)是城市基础设施现代化建设的最主要方法[4];

4)对于处在城市地价峰值的CBD区域而言,更有缓解土地稀缺、提高单位土地收益和改善空间环境的意义。

参考文献:

[1]朱合华,李晓军.数字地下空间与工程[J].岩石力学与工程学报,2007,26(11):2277-2288.

[2]张芳,朱合华,吴江斌.城市地下空间信息化研究综述[J].地下空间与工程学报,2006,2(2):306-310.[3]黄铎,梁文谦,张鹏程.地下空间信息化管理平台系统框架研究[J].地下空间与工程学报,2010,6(5):893

-899.

[4]江贻芳,王勇.城市地下空间信息化建设探讨[J].河南理工大学学报:自然科学版,2006,25(5):377-382.

[编辑:胡雪]

(上接第18页)

参考文献:

[1]秦凯,杨杰.普通高校“GIS二次开发”课程实践教学探讨[J].南阳师范学院学报,2007,6(6):84-85.

[2]蔡菲,孙英君,单宝艳.地理信息系统专业软件开发能力的培养[J].测绘通报,2008,(6):74-76.

[3]党安荣,刘钊,贾海峰.面向应用的高校GIS教学探索与实践[J].地理信息世界,2007,2(2):9-14.

[4]李恒凯,陈优良,刘德儿.GIS专业学生软件开发能力培

养的探讨[J].江西理工大学学报,2009,30(6):82-84.[5]杨斌,陈廷方.GIS二次开发课程与产业型人才培养模式的探讨[J].测绘工程,2012,21(4):89-92.

[6]张新长,赵元,张启春.我国大学GIS课程教学改革的思考与研究[J].地理信息世界,2003,1(4):23-26.[7]李海英,彭红春.遥感与GIS教学改革探讨[J].淮海工学院学报,2011,9(22):87-89.

[编辑:张曦]

22测绘与空间地理信息2014年

数据挖掘研究现状综述

数据挖掘 引言 数据挖掘是一门交叉学科,涉及到了机器学习、模式识别、归纳推理、统计学、数据库、高性能计算等多个领域。 所谓的数据挖掘(Data Mining)指的就是从大量的、模糊的、不完全的、随机的数据集合中提取人们感兴趣的知识和信息,提取的对象一般都是人们无法直观的从数据中得出但又有潜在作用的信息。从本质上来说,数据挖掘是在对数据全面了解认识的基础之上进行的一次升华,是对数据的抽象和概括。如果把数据比作矿产资源,那么数据挖掘就是从矿产中提取矿石的过程。与经过数据挖掘之后的数据信息相比,原始的数据信息可以是结构化的,数据库中的数据,也可以是半结构化的,如文本、图像数据。从原始数据中发现知识的方法可以是数学方法也可以是演绎、归纳法。被发现的知识可以用来进行信息管理、查询优化、决策支持等。而数据挖掘是对这一过程的一个综合性应用。

目录 引言 (1) 第一章绪论 (3) 1.1 数据挖掘技术的任务 (3) 1.2 数据挖掘技术的研究现状及发展方向 (3) 第二章数据挖掘理论与相关技术 (5) 2.1数据挖掘的基本流程 (5) 2.2.1 关联规则挖掘 (6) 2.2.2 .Apriori算法:使用候选项集找频繁项集 (7) 2.2.3 .FP-树频集算法 (7) 2.2.4.基于划分的算法 (7) 2.3 聚类分析 (7) 2.3.1 聚类算法的任务 (7) 2.3.3 COBWEB算法 (9) 2.3.4模糊聚类算法 (9) 2.3.5 聚类分析的应用 (10) 第三章数据分析 (11) 第四章结论与心得 (14) 4.1 结果分析 (14) 4.2 问题分析 (14) 4.2.1数据挖掘面临的问题 (14) 4.2.2 实验心得及实验过程中遇到的问题分析 (14) 参考文献 (14)

大数据时代下的数据挖掘试题和答案及解析

A. 变量代换 B. 离散化 海量数据挖掘技术及工程实践》题目 、单选题(共 80 题) 1) ( D ) 的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得 到 和原始数据相同的分析结果。 A. 数据清洗 B. 数据集成 C. 数据变换 D. 数据归约 2) 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数 据挖 掘的哪类问题 (A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3) 以下两种描述分别对应哪两种对分类算法的评价标准 (A) (a) 警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b) 描述有多少比例的小偷给警察抓了的标准。 据相分离 (B) 哪一类任务 (C) A. 根据内容检索 B. 建模描述 7) 下面哪种不属于数据预处理的方法 (D) A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4) 将原始数据进行集成、 变换、维度规约、数值规约是在以下哪个步骤的任务 (C) 5) A. 频繁模式挖掘 C. 数据预处理 B. D. 当不知道数据所带标签时, 分类和预测 数据流挖掘 可以使用哪种技术促使带同类标签的数据与带其他标签的数 6) A. 分类 C. 关联分析 建立一个模型, B. D. 聚类 隐马尔可夫链 通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 C. 预测建模 D. 寻找模式和规则

C.聚集 D. 估计遗漏值 8) 假设12 个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15 在第几个箱子内(B) A. 第一个 B. 第二个 C. 第三个 D. 第四个 9) 下面哪个不属于数据的属性类型:(D) A. 标称 B. 序数 C.区间 D. 相异 10) 只有非零值才重要的二元属性被称作:( C ) A. 计数属性 B. 离散属性 C.非对称的二元属性 D. 对称属性 11) 以下哪种方法不属于特征选择的标准方法:(D) A. 嵌入 B. 过滤 C.包装 D. 抽样 12) 下面不属于创建新属性的相关方法的是:(B) A. 特征提取 B. 特征修改 C. 映射数据到新的空间 D. 特征构造 13) 下面哪个属于映射数据到新的空间的方法(A) A. 傅立叶变换 B. 特征加权 C. 渐进抽样 D. 维归约 14) 假设属性income 的最大最小值分别是12000元和98000 元。利用最大最小规范化的方 法将属性的值映射到0 至 1 的范围内。对属性income 的73600 元将被转化为:(D) 15) 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130 人,四年 级110 人。则年级属性的众数是:(A) A. 一年级 B. 二年级 C. 三年级 D. 四年级 16) 下列哪个不是专门用于可视化时间空间数据的技术:(B) A. 等高线图 B. 饼图

总结报告-数据挖掘技术论文开题报告 精品

数据挖掘技术论文开题报告 毕业都是需要进行论文的写作,数据挖掘技术论文的开题报告怎么写?下面是数据挖 掘技术论文开题报告,欢迎阅读! 数据挖掘技术综述 数据挖掘(Data Mining)是一项较新的数据库技术,它基于由日常积累的大量数据所 构成的数据库,从中发现潜在的、有价值的信息——称为知识,用于支持决策。数据 挖掘是一项数据库应用技术,本文首先对数据挖掘进行概述,阐明什么是数据挖掘, 数据挖掘的技术是什么,然后介绍数据挖掘的常用技术,数据挖掘的主要过程, 如何 进行数据挖掘,主要应用领域以及国内外现状分析。 一. 研究背景及意义 近十几年来,随着数据库系统的广泛流行以及计算机技术的快速发展,人们利用信息 技术生产和搜集数据的能力大幅度提高。千万个数据库被用于商业管理、政府办公、 科学研究和工程开发等,特别是网络系统的流行,使得信息爆炸性增长。这一趋势将 持续发展下去。大量信息在给人们带来方便的同时也带来了一大堆的问题:第一是信 息过量,难以消化;第二是信息真假难以辨认;第三是信息安全难以保证;第四是信 息形式不一致,难以统一处理。面对这种状况,一个新的挑战被提出来:如何才能不 被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?这时出现 了新的技术——数据挖掘(Data Mining)技术便应用而生了。 面对海量的存储数据,如何从中发现有价值的信息或知识,成为一项非常艰巨的任务。数据挖掘就是为迎合这种要求而产生并迅速发展起来的。数据挖掘研究的目的主要是 发现知识、使数据可视化、纠正数据。 二. 概述 1,数据挖掘 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些 数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形, 图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可 以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行 数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领 域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据库、人 工智能、数理统计、可视化、并行计算等技术。 2,数据挖掘技术

GIS技术的研究现状及未来发展趋势.

GIS 技术的研究现状及未来发展趋势 摘要:GIS 是随着计算机技术发展而形成的一门新兴技术,其应用程度和范围也随之渗透、延伸,得到了人们的广泛关注。该文综述了地理信.息的发展现状,从多个角度分析当前 GIS 技术发展存在的不足,并在此基础上研究分析了 GIS 技术的未来发展趋势。 关键词:GIS 研究现状发展趋势 0 引言 随着计算机技术的飞速发展、空间技术的日新月异及计算机图形学理论的日渐完善, GIS(Geographic Information System技术也日趋成熟,并且逐渐被人们所认识和接受。近年来, GIS 被世界各国普遍重视,尤其是“数字地球”概念的提出,使其核心技术 GIS 更为各国政府所关注。目前,以管理空间数据见长的 GIS 已经在全球变化与监测、军事、资源管理、城市规划、土地管理、环境研究、农作物估产、灾害预测、交通管理、矿产资源评价、文物保护、湿地制图以及政府部门等许多领域发挥着越来越重要的作用。当前 GIS 正处于急剧发展和变化之中,研究和总结 GIS 技术发展,对进一步开展 GIS 研究工作具有重要的指导意义。因此,本文就目前 GIS 技术的研究现状及未来发展趋势进行总结和分析。 1 GIS 研究现状及其分析 1.1 GIS研究现状 世纪 90年代以来,由于计算机技术的不断突破以及其它相关理论和技术的完善, GIS 在全球得到了迅速的发展。在海量数据存储、处理、表达、显示及数据共享技术等方面都取得了显著的成效,其概括起来有以下几个方面 [1]:①硬件系统采用服务器 /客户机结构,初步形成了网络化、分布式、多媒体 GIS ; ②在 GIS 的设计中, 提出了采用“开放的 CIS 环境” 的概念, 最终以实现资源共享、数据共享为目标; ③高度重视数据标准化与数据质量的问题, 并已形成一些较为可行的数据标准; ④ 面向对象的数据库管理系统已经问世, 正在发展称之为“对象 --关系 DBMS (数据库

文献综述_数据挖掘

数据挖掘简介 数据挖掘的任务 数据挖掘的任务就是从实例集合中找出容易理解的规则和关系。这些规则可以用于预测未来趋势、评价顾客、评估风险或简单地描述和解释给定的数据。通常数据挖掘的任务包括以下几个部分: 数据总结目的是对数据进行浓缩,给出它的紧凑描述。传统的也是最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值,或者用直方图、饼图等图形方式表示。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。数据泛化目前主要有两种技术:多维数据分析方法和面向属性的归纳方法。 多维数据分析方法是一种数据仓库技术,也称作联机分析处理(OLAP,onLineAnalysisProeess)。数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合。决策的前提是数据分析。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作,这类操作的计算量特别大。因此一种很自然的想法是,把汇集操作结果预先计算并存储起来,以便于决策支持系统使用。存储汇集操作结果的地方称作多维数据库。多维数据分析技术已经在决策支持系统中获得了成功的应用,如著名的SAS数据分析软件包、Businessobject公司的决策支持系统Businessobjeet,以及IBM公司的决策分析工具都使用了多维数据分析技术。 采用多维数据分析方法进行数据总结,它针对的是数据仓库,数据仓库存储的是脱机的历史数据。为了处理联机数据,研究人员提出了一种面向属性的归纳方法。它的思路是,直接对用户感兴趣的数据视图(用一般的SQL查询语言即可获得)进行泛化,而不是像多维数据分析方法那样预先就存储好了泛化数据。方法的提出者对这种数据泛化技术称之为面向属性的归纳方法。原始关系经过泛化操作后得到的是一个泛化关系,它从较高的层次上总结了在低层次上的原始关系。有了泛化关系后,就可以对它进行各种深入的操作而生成满足用户需要的知识,如在泛化关系基础上生成特性规则、判别规则、分类规则,以及关联规则等。数据挖掘的分类 数据挖掘所能发现的知识有如下几种: .广义型知识,反映同类事物共同性质的知识; .特征型知识,反映事物各方面的特征知识; .差异型知识,反映不同事物之间属性差别的知识; .关联型知识,反映事物之间依赖或关联的知识; .预测型知识,根据历史的和当前的数据推测未来数据; .偏离型知识。揭示事物偏离常规的异常现象。 所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。例如,从一家超市的数据仓库中,可以发现的一条典型关联规则可能是“买面包和黄油的顾客十有八九也买牛奶”,也可能是“买食品的顾客几乎都用信用卡”,这种规则对于商家开发和实施客户化的销售计划和策略是非常有用的。 数据挖掘的方法 数据挖掘并非一个完全自动化的过程。整个过程需要考虑数据的所有因素和其预定的效用,然后应用最佳的数据挖掘方法。数据挖掘的方法很重要。在数据挖掘的领域里.有一点已经被广泛地接受,即不管你选择哪种方法,总存在着某种协定。因此对实际情况,应该具体分析,根据累积的经验和优秀的范例选择最佳的方法。数据挖掘中没有免费的午餐,也没

大数据时代的数据挖掘

大数据时代的数据挖掘 大数据是2012的时髦词汇,正受到越来越多人的关注和谈论。大数据之所以受到人们的关注和谈论,是因为隐藏在大数据后面超千亿美元的市场机会。 大数据时代,数据挖掘是最关键的工作。以下内容供个人学习用,感兴趣的朋友可以看一下。 智库百科是这样描述数据挖掘的“数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。 数据挖掘的定义 技术上的定义及含义 数据挖掘(Data Mining )就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。 与数据挖掘相近的同义词有数据融合、人工智能、商务智能、模式识别、机器学习、知识发现、数据分析和决策支持等。 ----何为知识从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。 这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。n x _s u x i a n g n i n g

模糊数学在数据挖掘领域综述

模糊数学在数据挖掘研究综述 一、模糊数学 关于数学的分类,根据所研究对象的确定性可以分为经典数学、随机数学以及模糊数学。三者的关系如图1所示。经典数学建立在集合论的基础上,一个对象对于一个集合要么属于,要么不属于,两者必居其一,且仅居其一,绝不可模棱两可,由于这个要求,大大限制了数学的应用范围,使它无法处理日常生活中大量的不明确的模糊现象与概念。随着发展,过去那些与数学毫无关系或关系不大的学科如生物学,心理学,等都迫切要求定量化和数学化。 图1依照研究对象是否确定的数学分类 在日常生活中,我们经常会遇到一些模糊不清的概念。例如,“高个子”、“矮个子”等。如果把1.80米的人算高个子,那么,身高1.76米的人算不算高个子呢?这就很难说,因为“高个子”,“矮个子”并没有二者明确的标准,因而这些概念就显得模糊不清。为了适应这些学科自身的特点,只有通过改造数学,使它应用的面更为广泛。模糊数学就是研究事物这种模糊性质的一门数学学科。 模糊数学诞生于1965年,创始人是美国自动控制专家查德,他最早提出了模糊集合的概念,引入了隶属函数。自诞生之日起,就与电子计算机息息相关。今天精确的数学计算当然是不可少的,然而,当我们要求脑功能的时候,精确这个长处反而成了短处。例如,我们在判别走过的人是谁时,总是将来人的高矮,胖瘦、走路姿势与大脑存储的样子进行比较,从而作出判断。一般说来,这不是件难事,即使是分别多年的老友,也会很快地认出他来,但是若让计算机做这件事,使用精确数学就太复杂了。得测量来人的身高、体重、手臂摆的角度以及鞋底对地面的正压力、磨擦力、速度、加速度等数据,而且非要精确到后几十位才肯罢休。如果有位熟人最近稍为瘦了或胖了一些,计算机就“翻脸不认了”。显然,这样的“精确”容易使人糊涂。由此可见,要使计算机能模拟人功能,一定程度的模糊是必要的。模糊数学就是在这样的背景下诞生的。 随机数学与模糊数学都是对不确定性量的研究,但与模糊数学不同的是,随机数学是研究随机现象统计规律性的一个数学分支,涉及四个主要部分:概率论、随机过程、数理统计、随机运筹。随机数学更强调对数据的统计规律;而模糊数学强调的是变量的定义的模糊性。 模糊数学是一门新兴学科,过去那些与数学毫不相关或关系不大的学科(如生物学、心理学、语言学、社会科学等)都有可能用定量化和数学化加以描述和处理,从而使数学的应用范围大大扩展。它已初步应用于模糊控制、模糊识别、模糊聚类分析、模糊决策、模糊评判、系统理论、信息检索、医学、生物学等各个方面,并且在气象、结构力学、控制、心理学等方面已有具体的研究成果。模糊数学最重要的应用领域是计算机职能,它与新一代计算机的研制有密切的联系。 二、模糊计算

大数据时代的空间数据挖掘综述

第37卷第7期测绘与空间地理信息 GEOMATICS &SPATIAL INFORMATION TECHNOLOGY Vol.37,No.7收稿日期:2014-01-22 作者简介:马宏斌(1982-),男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。 大数据时代的空间数据挖掘综述 马宏斌1 ,王 柯1,马团学 2(1.信息工程大学地理空间信息学院,河南郑州450000;2.空降兵研究所,湖北孝感432000) 摘 要:随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题, 介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。关键词:大数据;空间数据挖掘;云计算中图分类号:P208 文献标识码:B 文章编号:1672-5867(2014)07-0019-04 Spatial Data Mining Big Data Era Review MA Hong -bin 1,WANG Ke 1,MA Tuan -xue 2 (1.Geospatial Information Institute ,Information Engineering University ,Zhengzhou 450000,China ; 2.Airborne Institute ,Xiaogan 432000,China ) Abstract :In the era of Big Data ,more and more researchers begin to show interest in data mining techniques again.The paper review most unresolved problems left by traditional spatial data mining at first.And ,some progress made by researches using Big Data and Cloud Computing technology is introduced.Also ,their drawbacks are mentioned.Finally ,future trend of spatial data mining is dis-cussed. Key words :big data ;spatial data mining ;cloud computing 0引言 随着地理空间信息技术的飞速发展,获取数据的手 段和途径都得到极大丰富,传感器的精度得到提高和时空覆盖范围得以扩大,数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子 显微镜、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、 地图数字化、统计图表等空间数据获取手段,还可能是来自计算机、 网络、GPS ,RS 和GIS 等技术应用和分析空间数据。特别是近些年来,个人使用的、携带的各种传感器(重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等),具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLE GLASS 和智能手表等),使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息(Volunteer Geographic Information )的出现,使这些普通民众也加入到了提供数据者的行列。 以上各种获取手段和途径的汇集,就使每天获取的 数据增长量达到GB 级、 TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ,并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB 的观测数据。而2012年发射的资源三号(ZY3)卫星,每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫 星、 飞机等飞行平台上,未来10年,全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来,那就是大数据时代。大数据具有 “4V ”特性,即数据体量大(Volume )、数据来源和类型繁多(Variety )、数据的真实性难以保证(Veracity )、数据增加和变化的速度快(Velocity )。对地观测的系统如图1所示。 在这些数据中,与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限, 受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将

空间聚类的研究现状及其应用_戴晓燕

空间聚类的研究现状及其应用* 戴晓燕1 过仲阳1 李勤奋2 吴健平1 (1华东师范大学教育部地球信息科学实验室 上海 200062) (2上海市地质调查研究院 上海 200072) 摘 要 作为空间数据挖掘的一种重要手段,空间聚类目前已在许多领域得到了应用。文章在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 关键词 空间聚类 K-均值法 散度 1 前言 随着GPS、GI S和遥感技术的应用和发展,大量的与空间有关的数据正在快速增长。然而,尽管数据库技术可以实现对空间数据的输入、编辑、统计分析以及查询处理,但是无法发现隐藏在这些大型数据库中有价值的模式和模型。而空间数据挖掘可以提取空间数据库中隐含的知识、空间关系或其他有意义的模式等[1]。这些模式的挖掘主要包括特征规则、差异规则、关联规则、分类规则及聚类规则等,特别是聚类规则,在空间数据的特征提取中起到了极其重要的作用。 空间聚类是指将数据对象集分组成为由类似的对象组成的簇,这样在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大,即相异度较大。作为一种非监督学习方法,空间聚类不依赖于预先定义的类和带类标号的训练实例。由于空间数据库中包含了大量与空间有关的数据,这些数据来自不同的应用领域。例如,土地利用、居住类型的空间分布、商业区位分布等。因此,根据数据库中的数据,运用空间聚类来提取不同领域的分布特征,是空间数据挖掘的一个重要部分。 空间聚类方法通常可以分为四大类:划分法、层次法、基于密度的方法和基于网格的方法。算法的选择取决于应用目的,例如商业区位分析要求距离总和最小,通常用K-均值法或K-中心点法;而对于栅格数据分析和图像识别,基于密度的算法更合适。此外,算法的速度、聚类质量以及数据的特征,包括数据的维数、噪声的数量等因素都影响到算法的选择[2]。 本文在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 2 划分法 设在d维空间中,给定n个数据对象的集合D 和参数K,运用划分法进行聚类时,首先将数据对象分成K个簇,使得每个对象对于簇中心或簇分布的偏离总和最小[2]。聚类过程中,通常用相似度函数来计算某个点的偏离。常用的划分方法有K-均值(K-means)法和K-中心(K-medoids)法,但它们仅适合中、小型数据库的情形。为了获取大型数据库中数据的聚类体,人们对上述方法进行了改进,提出了K-原型法(K-prototypes method)、期望最大法EM(Expectation Maximization)、基于随机搜索的方法(ClAR ANS)等。 K-均值法[3]根据簇中数据对象的平均值来计算 ——————————————— *基金项目:国家自然科学基金资助。(资助号: 40371080) 收稿日期:2003-7-11 第一作者简介:戴晓燕,女,1979年生,华东师范大学 地理系硕士研究生,主要从事空间数 据挖掘的研究。 · 41 · 2003年第4期 上海地质 Shanghai Geology

数据挖掘课程论文综述

海南大学 数据挖掘论文 题目:股票交易日线数据挖掘 学号:20100602310002 姓名: 专业:10信管 指导老师: 分数:

目录 目录 (2) 1. 数据挖掘目的 (3) 2.相关基础知识 (3) 2.1 股票基础知识 (3) 2.2 数据挖掘基础知识 (4) 2.2.2数据挖掘的任务 (5) 3.数据挖掘方案 (6) 3.1. 数据挖掘软件简介 (6) 3.2. 股票数据选择 (7) 3.3. 待验证的股票规律 (7) 4. 数据挖掘流 (8) 4.1数据挖掘流图 (8) 4.2规律验证 (9) 4.2.2规律2验证 (10) 4.2.3规律三验证 (12) 4.3主要节点说明 (14) 5.小结 (15)

1.数据挖掘目的 数据挖掘的目的就是得出隐藏在数据中的有价值的信息,发现数据之间的内在联系与规律。对于本次数据挖掘来说,其目的就是学会用clementine对股票的历史数据进行挖掘,通过数据的分析,找出存在股票历史数据中的规律,或者验证已存在的股票规律。同时也加深自己对股票知识的了解和对clementine软件的应用能力。为人们决策提供指导性信息,为公司找出其中的客户为公司带来利润的规律,如二八原则、啤酒与尿布的现象等。 2.相关基础知识 2.1 股票基础知识 2.1.1 股票 是一种有价证券,是股份公司在筹集资本时向出资人公开或私下发行的、用以证明出资人的股本身份和权利,并根据持有人所持有的股份数享有权益和承担义务的凭证。股票代表着其持有人(股东)对股份公司的所有权,每一股同类型股票所代表的公司所有权是相等的,即“同股同权”。股票可以公开上市,也可以不上市。在股票市场上,股票也是投资和投机的对象。对股票的某些投机炒作行为,例如无货沽空,可以造成金融市场的动荡。 2.1.2 开盘价 开盘价又称开市价,是指某种证券在证券交易所每个交易日开市后的第一笔买卖成交价格。世界上大多数证券交易所都采用成交额最大原则来确定开盘价。 2.1.3 收盘价 收盘价是指某种证券在证券交易所一天交易活动结束前最后一笔交易的成交价格。如当日没有成交,则采用最近一次的成交价格作为收盘价,因为收盘价是当日行情的标准,又是下一个交易日开盘价的依据,可据以预测未来证券市场行情;所以投资者对行情分析时,一般采用收盘价作为计算依据。

《大数据时代下的数据挖掘》试题及答案..【精选】精心总结

《海量数据挖掘技术及工程实践》题目 一、单选题(共80题) 1)( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到 和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖 掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3)以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数 据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7)下面哪种不属于数据预处理的方法? (D) A.变量代换 B.离散化

C.聚集 D.估计遗漏值 8)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? (B) A.第一个 B.第二个 C.第三个 D.第四个 9)下面哪个不属于数据的属性类型:(D) A.标称 B.序数 C.区间 D.相异 10)只有非零值才重要的二元属性被称作:( C ) A.计数属性 B.离散属性 C.非对称的二元属性 D.对称属性 11)以下哪种方法不属于特征选择的标准方法: (D) A.嵌入 B.过滤 C.包装 D.抽样 12)下面不属于创建新属性的相关方法的是: (B) A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造 13)下面哪个属于映射数据到新的空间的方法? (A) A.傅立叶变换 B.特征加权 C.渐进抽样 D.维归约 14)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方 法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D) A.0.821 B.1.224 C.1.458 D.0.716 15)一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年 级110人。则年级属性的众数是: (A) A.一年级 B.二年级 C.三年级 D.四年级

数据挖掘文献综述

湘潭大学 本科生专业文献综述 题目: 数据挖掘文献综述 姓名: 林勇 学院: 信心工程学院学院 专业: 自动化 班级: 一班 学号: 2010550113 指导教师: 张莹

0前言 随着计算机技术的迅猛发展,人类正在步入信息社会。面对今天浩如烟海的信息,如何帮助人们有效地收集和选择所感兴趣的信息,更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它们之间的关系,使之能够真正地做到信息处理的自动化,这已成为信息技术领域的热点问题。数据挖掘就是为满足这种要求而产生并迅速发展起来的,可用于开发信息资源的一种新的数据处理技术。 1什么是数据挖掘 数据挖掘(Data Mining),也叫数据开采,数据采掘等,是按照既定的业务目标从海量数据中提取出潜在、有效并能被人理解的模式的高级处理过程。在较浅的层次上,它利用现有数据库管理系统的查询、检索及报表功能,与多维分析、统计分析方法相结合,进行联机分析处理,从而得出可供决策参考的统计分析数据。在深层次上,则从数据库中发现前所未有的、隐含的知识。OLAF'的出现早于数据挖掘,它们都是从数据库中抽取有用信息的方法,就决策支持的需要而言两者是相辅相成的。OLAP可以看作一种广义的数据挖掘方法,它旨在简化和支持联机分析,而数据挖掘的目的是便这一过程尽可能自动化。数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库(Data Warehouse)等。而挖掘后获得的知识包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。 1.1 数据挖掘的任务 数据挖掘的两个高层目标是预测和描述。前者指用一些变量或数据库的若干已知字段预测其它感兴趣的变量或字段的未知的或未来的值;后者指找到描述数据的可理解模式。根据发现知识的不同,我们可以将数据挖掘任务归纳为以下几类: (1)特征规则。从与学习任务相关的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征.例如可以从某种疾病的症状中提取

大数据时代的数据挖掘

大数据是2012的时髦词汇,正受到越来越多人的关注和谈论。大数据之所以受到人们的关注和谈论,是因为隐藏在大数据后面超千亿美元的市场机会。 大数据时代,数据挖掘是最关键的工作。以下内容供个人学习用,感兴趣的朋友可以看一下。智库百科是这样描述数据挖掘的“数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知 的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做 出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确 的决策。 数据挖掘的定义 技术上的定义及含义 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数 据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个 定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特 定的发现问题。 与数据挖掘相近的同义词有数据融合、人工智能、商务智能、模式识别、机器学习、知识发现、数据分析和决策支持等。 ----何为知识从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金 一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、 图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可 以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在 这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。 这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科 学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是 有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语 言表达所发现的结果。 商业角度的定义 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行 抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。 简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力的限制,对 大数据量进行分析的复杂数据分析方法受到很大限制。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯机 会的(Opportunistic)商业运作而产生。分析这些数据也不再是单纯为了研究的需要,更主 要是为商业决策提供真正有价值的信息,进而获得利润。但所有企业面临的一个共同问题是:

可视化空间数据挖掘研究综述

可视化空间数据挖掘研究综述 贾泽露1,2 刘耀林2 (1. 河南理工大学测绘与国土信息工程学院,焦作,454000;2. 武汉大学资源与环境科学学院,武汉,430079)摘要:空间数据挖掘针对的是更具有可视化要求的地理空间数据的知识发现过程,可视化能提供同用户对空间目标心理认知过程相适应的信息表现和分析环境,可视化与空间数据挖掘的结合是该领域研究发展的必然,并已成为一个研究热点。论文综述了空间数据挖掘和可视化的研究现状,重点阐述了空间数据挖掘中的可视化化技术及其应用,并对可视化空间数据挖掘的发展趋势进行了阐述。 关键词:数据挖掘;空间数据挖掘;数据可视化;信息可视化;GIS; 空间信息获取技术的飞速发展和各种应用的广泛深入,多分辨率、多时态空间信息大量涌现,以及与之紧密相关的非空间数据的日益丰富,对海量空间信息的综合应用和处理技术提出了新的挑战,要求越来越高。空间数据挖掘技术作为一种高效处理海量地学空间数据、提高地学分析自动化和智能化水平、解决地学领域“数据爆炸、知识贫乏”问题的有效手段,已发展成为空间信息处理的关键技术。然而,传统数据挖掘“黑箱”作业过程使得用户只能被动地接受挖掘结果。可视化技术能为数据挖掘提供直观的数据输入、输出和挖掘过程的交互探索分析手段,提供在人的感知力、洞察力、判断力参与下的数据挖掘手段,从而大大地弥补了传统数据挖掘过程“黑箱”作业的缺点,同时也大大弥补了GIS重“显示数据对象”轻“刻画信息结构”的弱点,有力地提高空间数据挖掘进程的效率和结果的可信度[1]。空间数据挖掘中可视化技术已由数据的空间展现逐步发展成为表现数据内在复杂结构、关系和规律的技术,由静态空间关系的可视化发展到表示系统演变过程的可视化。可视化方法不仅用于数据的理解,而且用于空间知识的呈现。可视化与空间数据挖掘的结合己成为必然,并已形成了当前空间数据挖掘1与知识发现的一个新的研究热点——可视化空间数据挖掘(Visual Spatial Data Mining,VSDM)。VSDM技术将打破传统数据挖掘算法的“封闭性”,充分利用各式各样的数据可视化技术,以一种完全开放、互动的方式支持用户结合自身专业背景参与到数据挖掘的全过程中,从而提高数据挖掘的有效性和可靠性。本文将对空间数据挖掘、可视化的研究概况,以及可视化在空间数据挖掘中的应用进行概括性回顾总结,并对未来发展趋势进行探讨。 一、空间数据挖掘研究概述 1.1 空间数据挖掘的诞生及发展 1989年8月,在美国底特律市召开的第一届国际联合人工智能学术会议上,从事数据库、人工智能、数理统计和可视化等技术的学者们,首次出现了从数据库中发现知识(knowledge discovery in database,KDD)的概念,标志着数据挖掘技术的诞生[1]。此时的数据挖掘针对的 作者1简介:贾泽露(1977,6-),男,土家族,湖北巴东人,讲师,博士,主要从事空间数据挖掘、可视化、土地信息系统智能化及GIS理论、方法与应用的研究和教学工作。 作者2简介:刘耀林(1960,9- ),男,汉族,湖北黄冈人,教授,博士,博士生导师,武汉大学资源与环境科学学院院长,现从事地理信息系统的理论、方法和应用研究和教学工作。

数据挖掘综述

数据挖掘综述 1、产生背景 随着计算机的产生和大量数字化的存储方法的出现,我们借助计算机来收集和分类各种数据资料,但是不同存储结构存放的大量数据集合很快被淹没,便导致了结构化数据库以及DBMS的产生。 但是随着信息时代的到来,信息量远远超过了我们所能处理的范围,从商业交易数据、科学资料到卫星图片、文本报告和军事情报,以及生活中各种信息,这也就是“数据爆炸但知识贫乏”的网络时代,面对巨大的数据资料,出现了新的需求,希望能够更好的利用这些数据,进行更高层次的分析,从这些巨大的数据中提取出对我们有意义的数据,这就是知识发现(KDD,Knowledge Discovery in Databases),数据挖掘应运而生。 2、数据库系统技术的演变 1)20世纪60年代和更早 这个时期是数据收集和数据库创建的过程,原始文件的处理2)20世纪70年代---80年代初期 有层次性数据库、网状数据库、关系数据库系统 3)20世纪80年代中期—现在 高级数据库系统,可以应用在空间、时间的、多媒体的、主动的、流的和传感器的、科学的和工程的。 4)20世纪80年代后期—现在

高级数据分析:数据仓库和数据挖掘 5)20世纪90年代—现在 基于web的数据库,与信息检索和数据信息的集成6)现在---将来 新一代的集成数据域信息系统 3、数据挖掘概念 数据挖掘(Data Mining),就是从大量数据中获取有效的、新颖的、潜在的有用的,最终可以理解的模式的非平凡过程。数据挖掘,又称为数据库中知识发现(KDD,Knowledge Discovery in Databases),也有人把数据挖掘作为数据库中知识发现过程的一个基本步骤。 数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库等。 4、数据挖掘特点和任务 4.1数据挖掘具有以下几个特点: 1)处理的数据规模十分庞大,达到GB,TB数量级,甚至更大2)查询一般是决策制定者(用户)提出的即时随机查询,往往不能形成精确的查询要求,需要靠系统本身寻找其可能感兴 趣的东西。 3)在一些应用(如商业投资等)中,由于数据变化迅速,因此

相关文档