文档视界 最新最全的文档下载
当前位置:文档视界 › 数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势
数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势摘要:从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展趋势。

关键词:数据挖掘;挖掘算法;神经网络;决策树;粗糙集;模糊集;研究现状;发展趋势

Abstract:From the definition of data mining,the paper introduced concepts and advantages and disadvantages of neural network algorithm,decision tree algorithm,genetic algorithm,rough set method,fuzzy set method and association rule method of data mining,summarized domestic and international research situation and focus of data mining in details,and pointed out the development trend of data mining.

Key words:data mining,algorithm of data mining,neural network,decision tree,rough set,fuzzy set,research situation,development tendency

1引言

随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,迫切需要能自动地、智能地将待处理的数据转化为有价值的信息,从而达到为决策服务的目的。在这种情况下,一个新的技术———数据挖掘(Data Mining,DM)技术应运而生[2]。

数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。

江西理工大学

2数据挖掘算法

数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的实际应用数据中提取有效的、新颖的、潜在有用的知识的非平凡过程[3]。数据挖掘过程如图1所示。这些数据的类型可以是结构化的、半结构化的、甚至是异构型的。发现知识的方法可以是数学的、非数学的、也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等[4]。

图1数据挖掘过程

目前,数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。

2.1 神经网络法

神经网络法是模拟生物神经系统的结构和功能,是一种通过训练来学习的非线性预测模型,可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络的学习方法主要表现在权值的修改上。其优点是具有抗干扰、非线性学习、联想记忆功能,对复杂情况能得到精确的预测结果;缺点是不适合处理高维变量,不能观察中间的学习过程,具有“黑箱”性,输出结果也难以解释;其次是需较长的学习时间。神经网络法主要应用于数据挖据的聚类技术中。

2.2 决策树法

决策树是通过一系列规则对数据进行分类的过程,其表现形式是类似于树形结构的流程图。最典型的算法是J.R.QUINLAN于1986年提出的ID3算法[5],之后在ID3算法的基础上又提出了极其流行的C4.5算法[6]。采用决策树法的优点是决策制定的过程是可见的,不需要长时间构造过程、描述简单,易于理解,分类速度快;缺点是很难基于多个变量组合发现规则。决策树法擅长处理非数值型数据,而且特别适合大规模的数据处

理。

2.3 遗传算法

遗传算法是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。它的基本观点是“适者生存”原理,具有隐含并行性、易于和其它模型结合等性质主要的优点是可以处理许多数据类型,同时可以并行处理各种数据,对问题的种类有很强的鲁棒性;缺点是需要的参数太多,编码困难,一般计算量比较大。遗传算法常用于优化神经元网络,解决其它技术难以解决的问题。

2.4 粗糙集法

粗糙集法也称粗糙集理论,是一种新的处理含糊、不精确、不完备问题的数学工具,可以处理数据约简、数据相关性发现、数据意义的评估等问题。其优点是算法简单,不需要关于数据的任何预备的或额外的信息;缺点是难以直接处理连续的属性,须先进行属性的离散化。因此,连续属性的离散化问题是制约粗糙集理论实用化的难点[7]。粗糙集理论主要应用于近似推理、数字逻辑分析和化简、建立预测模型等问题。

2.5 模糊集法

模糊集法利用模糊集合理论对问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊集合理论是用隶属度来描述模糊事物的属性[7]。系统的复杂性越高,模糊性就越强。

2.6 关联规则法

关联规则反应了事物之间的相互依赖性或关联性。其最著名的算法是R.AGRAWAL 等人提出的Apriori算法。最小支持度和最小可信度是为了发现有意义的关联规则给定的2个阈值。在这个意义上,数据挖掘的目的就是从源数据库中挖掘出满足最小支持度和最小可信度的关联规则。

3 数据挖掘研究现状

3.1 国外研究现状

知识发现[8] (Knowledge Discovery inDatabases,KDD)与DM是数据库领域中最重要的课题之一。KDD一词是在1989年8月于美国底特律市召开的第十一届国际人工智能会议上正式形成的。1995年在加拿大蒙特利尔召开的首届KDD&Data Mining国际学术会议上,把数据挖掘技术分为科研领域的知识发现与工程领域的数据挖掘[9]。之后每年召开一次这样的会议,经过十几年的努力,数据挖掘技术的研究已经取得了丰硕的成果。目前,对KDD的研究主要围绕理论、技术和应用这三个方面展开。多种理论与方法的合理整合是大多数研究者采用的有效技术。

目前,国外数据挖掘的最新发展主要有对发现知识的方法的进一步研究,如近年来注重对Bayes(贝叶斯)方法以及Boosting方法的研究和改进提高;KDD与数据库的紧密结合;传统的统计学回归方法在KDD中的应用。在应用方面主要体现在KDD商业软件工具从解决问题的孤立过程转向建立解决问题的整体系统,主要用户有保险公司、大型银行和销售业等。许多计算机公司和研究机构都非常重视数据挖掘的开发应用,IBM 和微软都相继成立了相应的研究中心[10]。美国是全球数据挖掘研究最繁荣的地区,并占据着研究的核心地位。

由于数据挖掘软件市场需求量的增大,包括国际知名公司在内的很多软件公司都纷纷加入到了数据挖掘工具研发的行列中来,到目前已开发了一系列技术成熟、应用价值较高的数据挖掘软件。以下为目前最主要的数据挖掘软件:

(1)Knowledge Studio:由Angoss软件公司开发的能够灵活地导入外部模型和产生规则的数据挖掘工具。最大的优点:响应速度快,且模型、文档易于理解,SDK中容易加入新的算法。

(2)IBM Intelligent Miner:该软件能自动实现数据选择、转换、发掘和结果呈现一整套数据挖掘操作;支持分类、预测、关联规则、聚类等算法,并且具有强大的API函数库,可以创建定制的模型。

(3)SPSS Clementine:SPSS是世界上最早的统计分析软件之一。Clementine是SPSS 的数据挖掘应用工具,它可以把直观的用户图形界面与多种分析技术如神经网络、关联规则和规则归纳技术结合在一起。该软件首次引入了数据挖掘流概念,用户可以在同一

个工作流环境中清理数据、转换数据和构建模型。

(4)Cognos Scenario:该软件是基于树的高度视图化的数据挖掘工具,可以用最短的响应时间得出最精确的结果。此外,还有由美国Insightful公司开发的I-Miner、SGI公司和美国Standford大学联合开发的Minset、Unica公司开发的Affinium Model、加拿大Simon Fraser大学开发的DBMiner、HNC公司开发的用于信用卡诈骗分析的Database MiningWorkstation、Neo Vista开发的Decision Series等。

3.2 国内研究现状

与国外相比,国内对数据挖掘的研究起步稍晚且不成熟,目前正处于发展阶段。最新发展:分类技术研究中,试图建立其集合理论体系,实现海量数据处理;将粗糙集和模糊集理论二者融合用于知识发现;构造模糊系统辨识方法与模糊系统知识模型;构造智能专家系统;研究中文文本挖掘的理论模型与实现技术;利用概念进行文本挖掘。我国也有不少新兴的数据挖掘软件:

(1)MSMiner:由中科院计算技术研究所智能信息处理重点实验室开发的多策略通用数据挖掘平台[11]。该平台对数据和挖掘策略的组织有很好的灵活性。

(2)DMiner:由上海复旦德门软件公司开发的具有自主知识产权的数据挖掘系统。该系统提供了丰富的数据可视化控件来展示分析结果,实现了数据查询结果可视化、数据层次结构可视化、多维数据结构可视化、复杂数据可视化。

(3)Scope Miner:由东北大学开发的面向先进制造业的综合数据挖掘系统。

(4)iDMiner:由海尔青大公司研发的具有自主知识产权的数据挖掘平台。该平台大胆采用了国际通用业界标准,对该软件今后的发展有很大的促进作用,同时也为国内同类软件的开发提供了一条新的思路[12]。除此之外,还有复旦德门公司开发的CIAS和AR Miner、东北大学软件中心开发的基于SAS的Open Miner以及南京大学开发的一个原型系统Knight等。

目前,国内数据挖掘软件产业还不成熟,从事此方面研究的人员主要集中在高校,只有少部分分布在研究所或公司,且大多数研究项目都是由政府资助,主要的研究方向集中在数据挖掘的学习算法、理论方面以及实际应用。研究的产品尚未得到国际市场的认可,在国际上的使用更是为数甚少。

4 数据挖掘的研究热点及发展趋势

就目前来看,数据挖掘的几个研究热点主要包括网站的数据挖掘(Web Site Data Mining)、生物信息或基因(Bioinformatics/Genomics)的数据挖掘及其文本的数据挖掘(Textual Mining)[13]。网站的数据挖掘就是从网站的各类数据中得到有价值的信息,与一般的数据挖掘差别不大,但是其数据格式很大一部分来自于点击率,与传统的数据库格式有区别。

生物信息或基因的数据挖掘对人类生存发展有着非常重要的意义,基因的组合千变万化,能否找出病人的基因和正常人的基因的不同之处,进而对其加以改变,这就需要数据挖掘技术的支持。但其数据形式、挖掘算法模型比较复杂。

文本的数据挖掘和一般的数据挖掘相差很大,是指从文本数据中抽取有价值的信息和知识的技术,在分析方法方面比较困难,目前还没有真正的具备分析功能的文本挖掘软件。

随着越来越多的业务需求被不断开拓,数据挖掘已成功应用于社会生活的方方面面,目前在很多领域如商业、医学、科学研究等均有不少成功的应用案例。为了提高系统的决策支持能力,像ERP、SCM、HR等一些应用系统也逐渐与数据挖掘集成起来。多种理论与方法的合理整合是大多数研究者数据挖掘采用的有效技术[14]。以下是未来比较重要的数据挖掘发展趋势:

(1)数据挖掘语言的标准化描述:标准的数据挖掘语言将有助于数据挖掘的系统化开发。改进多个数据挖掘系统和功能间的互操作,促进其在企业和社会中的使用。

(2)寻求数据挖掘过程中的可视化方法:可视化要求已经成为数据挖掘系统中必不可少的技术。可以在发现知识的过程中进行很好的人机交互[15]。数据的可视化起到了推动人们主动进行知识发现的作用。

(3)与特定数据存储类型的适应问题:根据不同的数据存储类型的特点,进行针对性的研究是目前流行以及将来一段时间必须面对的问题。

(4)网络与分布式环境下的KDD问题:随着Internet的不断发展,网络资源日渐丰富,这就需要分散的技术人员各自独立地处理分离数据库的工作方式应是可协作的[16]。因此,考虑适应分布式与网络环境的工具、技术及系统将是数据挖掘中一个最为重要和繁荣的子领域。

(5)应用的探索:随着数据挖掘的日益普遍,其应用范围也日益扩大,如生物医学、

电信业、零售业等领域。由于数据挖掘在处理特定应用问题时存在局限性,因此,目前的研究趋势是开发针对于特定应用的数据挖掘系统。

(6)数据挖掘与数据库系统和Web数据库系统的集成:数据库系统和Web数据库已经成为信息处理系统的主流。数据挖掘系统的理想体系结构是与数据库和数据仓库系统的紧耦合[17]。

5 结语

针对数据挖掘的主要算法,分析了各自的优缺点及其所适用的领域,并根据目前国内外数据挖掘的研究现状和研究热点指出了未来几年数据挖掘的发展趋势。目前数据挖掘逐渐从高端的研究转向常用的数据分析,在国外像金融业、零售业等这样一些对数据分析需求比较大的领域已经成功地采用了数据挖掘技术来辅助决策。尽管如此,数据挖掘技术仍然面临着许多问题和挑战,如超大规模数据集中的数据挖掘效率有待提高,开发适应于多数据类型、容噪的挖掘方法,网络与分布式环境下的数据挖掘,动态数据和知识的数据挖掘等。

总之,数据挖掘只是一个强大的工具,它不会在缺乏指导的情况下自动地发现模型,而且得到的模型必须在现实生活中验证,数据分析者必须知道你所选用的挖掘算法的原理是什么以及是如何工作的,并且要深刻了解期望解决问题的领域,理解数据,了解其过程,只有这样才能解释最终所得到的结果,从而促使挖掘模型的不断完善和提高,使得数据挖掘真正地满足信息时代人们的要求,服务于社会。

参考文献

[1]胡侃,夏绍玮.基于大型数据仓库的数据采掘:研究综述[J].软件学报,1998,9(1):53-63.

[2]陈娜.数据挖掘技术的研究现状及发展方向[J].电脑与信息技术,2006,2(1):46-49.

[3]HAN Jiawei,KAMBER M.数据挖掘:概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2001.

[4]陕粉丽.数据挖掘技术的研究现状及应用[J].现代企业教育,2008(6):101-102.

[5]QUINLAN J R. Induction of Decision Trees[J].Machine Learning,1986,1(1):8.

[6]QULINLAN J R. C4. 5: Programs for MachineLearning[M].San Mateo,Calif:Morgan Kaufmann,1993.

[7]李华,刘帅,李茂,等.数据挖掘理论及应用研究[J].断块油气田,2010,23(1):88-89.

[8]FAYYAD U,PIATESKY-SHAPIRO G,SMYTH P.The KDD Process for Extracting Useful KnowledgeFrom Volumes of Data[J].Communication of theACM,1996,39(11):27-34.

[9]陈文臣.Web日志挖掘技术的研究与应用[D].北京:中国科学院研究生院,2005.

[10]夏艳军,周建军,向昌盛.现代数据挖掘技术研究进展[J].江西农业学报,2009,21(4):82-84.

[11]游湘涛,叶施仁,史忠植.多策略通用数据采掘工具MSMiner[J].计算机研究与发展,2001,38(5):581-586.

[12]王立伟.数据挖掘研究现状综述[J].图书与情报,2008(5):42-46.

[13]施伯乐,朱扬勇.数据库与智能数据分析技术:技术、实践与应用[M].上海:复旦大学出版社,2003.

[14]郭萌,王珏.数据挖掘与数据库知识发现:综述[J].模式识别与人工智能,1998,11(3):292-299.

[15]FAYYAD U M,DJORGOVSKI S G,WEIR N. FromDigitized Images to Online Catalogs Data Mining a Sky Survey[J]. AI Magazine,1996,17(2):51-66.

[16]UTHURUSAMY R. From Data Mining toKnowledge Discovery:Current Challenges and FutureDirections[C]//FAYGAD U.Advances in KnowledgeDiscovery and Data Mining. The MIT Press,1996:561-569.

[17]陶翠霞.浅谈数据挖掘及其发展状况[J].科技信息,2008(4):72.

数据挖掘研究现状综述

数据挖掘 引言 数据挖掘是一门交叉学科,涉及到了机器学习、模式识别、归纳推理、统计学、数据库、高性能计算等多个领域。 所谓的数据挖掘(Data Mining)指的就是从大量的、模糊的、不完全的、随机的数据集合中提取人们感兴趣的知识和信息,提取的对象一般都是人们无法直观的从数据中得出但又有潜在作用的信息。从本质上来说,数据挖掘是在对数据全面了解认识的基础之上进行的一次升华,是对数据的抽象和概括。如果把数据比作矿产资源,那么数据挖掘就是从矿产中提取矿石的过程。与经过数据挖掘之后的数据信息相比,原始的数据信息可以是结构化的,数据库中的数据,也可以是半结构化的,如文本、图像数据。从原始数据中发现知识的方法可以是数学方法也可以是演绎、归纳法。被发现的知识可以用来进行信息管理、查询优化、决策支持等。而数据挖掘是对这一过程的一个综合性应用。

目录 引言 (1) 第一章绪论 (3) 1.1 数据挖掘技术的任务 (3) 1.2 数据挖掘技术的研究现状及发展方向 (3) 第二章数据挖掘理论与相关技术 (5) 2.1数据挖掘的基本流程 (5) 2.2.1 关联规则挖掘 (6) 2.2.2 .Apriori算法:使用候选项集找频繁项集 (7) 2.2.3 .FP-树频集算法 (7) 2.2.4.基于划分的算法 (7) 2.3 聚类分析 (7) 2.3.1 聚类算法的任务 (7) 2.3.3 COBWEB算法 (9) 2.3.4模糊聚类算法 (9) 2.3.5 聚类分析的应用 (10) 第三章数据分析 (11) 第四章结论与心得 (14) 4.1 结果分析 (14) 4.2 问题分析 (14) 4.2.1数据挖掘面临的问题 (14) 4.2.2 实验心得及实验过程中遇到的问题分析 (14) 参考文献 (14)

未来网络发展趋势

未来网络发展趋势
随着技术的进步,特别是 IT 和 IP 技术的发展,以及电信,IT,媒体和消费电子等行业之间的 融合,电信业正面临着巨大的变革. 未来 3-5 年是电信业转型的关键时期.伴随着业务转型的需要,宽带化,分组化,融合(包括 产业融合,业务融合,网络融合)和移动化成为电信网络的主流趋势.All IP 架构,FMC 是未来网 络发展的目标,而 IMS,IP 电信化,无缝移动性和 NG-SDP 等技术,是支撑未来运营商完成转型的 核心技术.
业务发展趋势
在新的产业融合背景下,运营商以带宽出租(如批发和专线业务等)和语音服务为主的业务已 不能适应未来用户的需求和市场竞争的需要.随着全球信息化程度的提高,运营商需要开展新的业 务,即面向消费者用户的 Multi-play 业务和面向商业用户的 ICT 服务.其中,IPTV 是面向家庭用户 和消费者用户最重要的业务切入点和关键点.而以网络为依托,为方案设计,业务托管,业务外包, 业务咨询乃至商业流程外包等提供高水准的综合解决方案,是满足未来商业用户需求的关键.
运营商的商业模式将从"Bit Pipe"向"Service"转变.这表现在,面对消费者市场,其商业 模式从"分享用户的通讯消费(Share of communication minutes) "向"分享用户的所有消费行为 (Share of total consumer spending) "转变;面向商业用户市场,其商业模式从"提供租用线路" 向"帮助用户优化商业流程"转变.在这一转变的过程中,开放合作和价值链的整合能力成为运营 商致胜的关键.

GIS技术的研究现状及未来发展趋势.

GIS 技术的研究现状及未来发展趋势 摘要:GIS 是随着计算机技术发展而形成的一门新兴技术,其应用程度和范围也随之渗透、延伸,得到了人们的广泛关注。该文综述了地理信.息的发展现状,从多个角度分析当前 GIS 技术发展存在的不足,并在此基础上研究分析了 GIS 技术的未来发展趋势。 关键词:GIS 研究现状发展趋势 0 引言 随着计算机技术的飞速发展、空间技术的日新月异及计算机图形学理论的日渐完善, GIS(Geographic Information System技术也日趋成熟,并且逐渐被人们所认识和接受。近年来, GIS 被世界各国普遍重视,尤其是“数字地球”概念的提出,使其核心技术 GIS 更为各国政府所关注。目前,以管理空间数据见长的 GIS 已经在全球变化与监测、军事、资源管理、城市规划、土地管理、环境研究、农作物估产、灾害预测、交通管理、矿产资源评价、文物保护、湿地制图以及政府部门等许多领域发挥着越来越重要的作用。当前 GIS 正处于急剧发展和变化之中,研究和总结 GIS 技术发展,对进一步开展 GIS 研究工作具有重要的指导意义。因此,本文就目前 GIS 技术的研究现状及未来发展趋势进行总结和分析。 1 GIS 研究现状及其分析 1.1 GIS研究现状 世纪 90年代以来,由于计算机技术的不断突破以及其它相关理论和技术的完善, GIS 在全球得到了迅速的发展。在海量数据存储、处理、表达、显示及数据共享技术等方面都取得了显著的成效,其概括起来有以下几个方面 [1]:①硬件系统采用服务器 /客户机结构,初步形成了网络化、分布式、多媒体 GIS ; ②在 GIS 的设计中, 提出了采用“开放的 CIS 环境” 的概念, 最终以实现资源共享、数据共享为目标; ③高度重视数据标准化与数据质量的问题, 并已形成一些较为可行的数据标准; ④ 面向对象的数据库管理系统已经问世, 正在发展称之为“对象 --关系 DBMS (数据库

数据挖掘工具应用及前景分析

数据挖掘工具应用及前景

介绍以下数据挖掘工具分别为: 1、 Intelligent Miner 2、 SAS Enterpreise Miner 3、SPSS Clementine 4、马克威分析系统 5、GDM Intelligent Miner 一、综述:IBM的Exterprise Miner简单易用,是理解数据挖掘的好的开始。能处理大数据量的挖掘,功能一般,可能仅满足要求.没有数据探索功能。与其他软件接口差,只能用DB2,连接DB2以外的数据库时,如Oracle, SAS, SPSS需要安装DataJoiner作为中间软件。难以发布。结果美观,但同样不好理解。 二、基本内容:一个挖掘项目可有多个发掘库组成;每个发掘库包含多个对象和函数对象: 数据:由函数使用的输入数据的名称和位置。 离散化:将记录分至明显可识别的组中的分发操作。 名称映射:映射至类别字段名的值的规范。 结果:由函数创建的结果的名称和位置。 分类:在一个项目的不同类别之间的关联层次或点阵。 值映射:映射至其它值的规范。 函数: 发掘:单个发掘函数的参数。 预处理:单个预处理函数的参数。 序列:可以在指定序列中启动的几个函数的规范。 统计:单个统计函数的参数。 统计方法和挖掘算法:单变量曲线,双变量统计,线性回归,因子分析,主变量分析,分类,分群,关联,相似序列,序列模式,预测等。 处理的数据类型:结构化数据(如:数据库表,数据库视图,平面文件) 和半结构化或非结构化数据(如:顾客信件,在线服务,传真,电子邮件,网页等) 。 架构:它采取客户/服务器(C/S)架构,并且它的API提供了C++类和方法 Intelligent Miner通过其独有的世界领先技术,例如自动生成典型数据集、发现关联、发现序列规律、概念性分类和可视化呈现,可以自动实现数据选择、数据转换、数据挖掘和结果呈现这一整套数据挖掘操作。若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为止。 三、现状:现在,IBM的Intelligent Miner已形成系列,它帮助用户从企业数据资产中 识别和提炼有价值的信息。它包括分析软件工具——Intelligent Miner for Data和IBM Intelligent Miner forText ,帮助企业选取以前未知的、有效的、可行的业务知识——

数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势摘要:从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展趋势。 关键词:数据挖掘;挖掘算法;神经网络;决策树;粗糙集;模糊集;研究现状;发展趋势 Abstract:From the definition of data mining,the paper introduced concepts and advantages and disadvantages of neural network algorithm,decision tree algorithm,genetic algorithm,rough set method,fuzzy set method and association rule method of data mining,summarized domestic and international research situation and focus of data mining in details,and pointed out the development trend of data mining. Key words:data mining,algorithm of data mining,neural network,decision tree,rough set,fuzzy set,research situation,development tendency 1引言 随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,迫切需要能自动地、智能地将待处理的数据转化为有价值的信息,从而达到为决策服务的目的。在这种情况下,一个新的技术———数据挖掘(Data Mining,DM)技术应运而生[2]。 数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。 江西理工大学

互联网+未来发展趋势

互联网+未来发展的趋势 从现状来看,“互联网+”处于初级阶段,是个都在热谈但是没有落实的理论阶段。各领域针对“互联网+”都会做一定的论证与探索,但是大部分商家仍旧会处于观望的阶段。从探索与实践的层面上,互联网商家会比传统企业主动,毕竟这些商家从诞生开始就不断用“互联网+”去改变更多的行业,他们有足够的经验可循,可以复制改造经验的模式去探索另外的区域,继而不断的融合更多的领域,持续扩大自己的生态。 互联网+真正难以改造的是那些非常传统的行业,但是这不意味着传统企业不做互联网化的尝试。很多传统企业都在过去几年就开始尝试营销的互联网化,多是借助B2B、B2C等电商平台来实现网络渠道的扩建。更多的线下企业还停留在信息推广与宣传的阶段,甚至不会、不敢或者不能尝试网络交易方面的营销,因为他们找不到合适的方案来解决线下渠道与线上渠道的冲突问题。还有一些商家自搭商城,但是成功的不是太多。但是自创品牌,通过电商平台销售经营的服装及零食等商家已经摸索出了一条电商之路。 与传统企业相反的是,当前“全民创业”时代的常态下,与互联网相结合的项目越来越多,这些项目从诞生开始就是“互联网+”的形态,因此它们不需要再像传统企业一样转型与升级。“互联网+”正是要促进更多的互联网创业项目的诞生,从而无需再耗费人力、物力及财力去研究与实施行业转型。可以说,每一个社会及商业阶段都有一个常态以及发展趋势,“互联网+”提出之前的常态是千万企业需要转型升级的大背景,后面的发展趋势则是大量“互联网+”模式的爆发以及传统企业的“破与立”。 本文尝试结合互联网线上线下的常态,做一个“互联网+”发展趋势的预测,希望对正在关注“互联网+”的朋友有所启发。 趋势一:政府推动“互联网+”落实 “互联网+”是全国性的,就如“三个代表”一样,各地政府都会提出建设主方案,然后招标或者外包给能够帮助企业做转型的服务型企业去具体执行。在今后长期的“互联网+”实施过程中,政府将扮演的是一个引领者与推动者的角色。 一是发现那些符合政策并且做的好的企业并立为标杆,起到模范带头作用。 二是挖掘那些有潜力的企业,在将来能够发展成为“互联网+”型企业,算是案例。

空间聚类的研究现状及其应用_戴晓燕

空间聚类的研究现状及其应用* 戴晓燕1 过仲阳1 李勤奋2 吴健平1 (1华东师范大学教育部地球信息科学实验室 上海 200062) (2上海市地质调查研究院 上海 200072) 摘 要 作为空间数据挖掘的一种重要手段,空间聚类目前已在许多领域得到了应用。文章在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 关键词 空间聚类 K-均值法 散度 1 前言 随着GPS、GI S和遥感技术的应用和发展,大量的与空间有关的数据正在快速增长。然而,尽管数据库技术可以实现对空间数据的输入、编辑、统计分析以及查询处理,但是无法发现隐藏在这些大型数据库中有价值的模式和模型。而空间数据挖掘可以提取空间数据库中隐含的知识、空间关系或其他有意义的模式等[1]。这些模式的挖掘主要包括特征规则、差异规则、关联规则、分类规则及聚类规则等,特别是聚类规则,在空间数据的特征提取中起到了极其重要的作用。 空间聚类是指将数据对象集分组成为由类似的对象组成的簇,这样在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大,即相异度较大。作为一种非监督学习方法,空间聚类不依赖于预先定义的类和带类标号的训练实例。由于空间数据库中包含了大量与空间有关的数据,这些数据来自不同的应用领域。例如,土地利用、居住类型的空间分布、商业区位分布等。因此,根据数据库中的数据,运用空间聚类来提取不同领域的分布特征,是空间数据挖掘的一个重要部分。 空间聚类方法通常可以分为四大类:划分法、层次法、基于密度的方法和基于网格的方法。算法的选择取决于应用目的,例如商业区位分析要求距离总和最小,通常用K-均值法或K-中心点法;而对于栅格数据分析和图像识别,基于密度的算法更合适。此外,算法的速度、聚类质量以及数据的特征,包括数据的维数、噪声的数量等因素都影响到算法的选择[2]。 本文在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 2 划分法 设在d维空间中,给定n个数据对象的集合D 和参数K,运用划分法进行聚类时,首先将数据对象分成K个簇,使得每个对象对于簇中心或簇分布的偏离总和最小[2]。聚类过程中,通常用相似度函数来计算某个点的偏离。常用的划分方法有K-均值(K-means)法和K-中心(K-medoids)法,但它们仅适合中、小型数据库的情形。为了获取大型数据库中数据的聚类体,人们对上述方法进行了改进,提出了K-原型法(K-prototypes method)、期望最大法EM(Expectation Maximization)、基于随机搜索的方法(ClAR ANS)等。 K-均值法[3]根据簇中数据对象的平均值来计算 ——————————————— *基金项目:国家自然科学基金资助。(资助号: 40371080) 收稿日期:2003-7-11 第一作者简介:戴晓燕,女,1979年生,华东师范大学 地理系硕士研究生,主要从事空间数 据挖掘的研究。 · 41 · 2003年第4期 上海地质 Shanghai Geology

数据挖掘研究的现状与发展趋势_郑继刚

数据挖掘研究的现状与发展趋势 郑继刚,王边疆 (保山学院数学系,云南保山678000) 影响其空间分布的因素之间的关系;预测型的模 型用来根据给定的一些属性预测某些属性,如分类模 型和回归模型等. 目前,主要在空间数据挖掘的体系结构和挖掘过 程做了大量研究,包括面向对象的空间数据库的数据 挖掘、模糊空间关联规则的挖掘、不确定性挖掘、聚类 挖掘、挖掘空间数据的偏离和演变规则、基于多专题 地图的挖掘、交叉概化、基于时空数据的概化、并行数 据挖掘、统计分析与数据挖掘的协同和遥感影像的挖 掘等,主要采用了基于统计学和概率论、集合论、机器 学习、仿生物学、地球信息学的研究方法. 4.2多媒体数据挖掘 多媒体数据,包括图形、图像、文本、文档、超文 本、声音、视频和音频数据等,数据类型复杂.随着信 息技术的进步,人们所接触的数据形式越来越丰富, 多媒体数据的大量涌现,形成了很多海量的多媒体数 据库[8].这些数据大多是非结构化数据、异构数据, 特征向量通常是数十维甚至数百维,转化为结构数据 和降维成了多媒体数据挖掘的关键技术. 有研究者提出了多媒体数据挖掘的系统原型 MDMP,将多媒体数据的建模表示、存储和检索等多 媒体数据库技术与数据挖掘技术有机地结合在一起, 采用多媒体图像数据的相似性搜索、多维分析、关联 规则挖掘、分类与聚类分析等挖掘方法,广泛地应用 于医学影像诊断分析、卫星图片分析、地下矿藏预测 等各种领域. 4.3时序数据挖掘 时序数据挖掘通过研究信息的时间特性,深入洞 悉事物进化的机制,揭示其内在规律(如波动的周期、 振幅、趋势的种类等),成为获得知识的有效途径.关 键问题是要是寻找一种合适的序列表示方式,基于点 距离和关键点是常用的算法,但都不能完整表示出序 列的动态属性.时序数据挖掘的主要技术有趋势分析 和相似搜索,在宏观的经济预测、市场营销、客流量分 析、太阳黑子数、月降水量、河流流量、股票价格波动 等众多领域得到了应用.

文献综述_数据挖掘

数据挖掘简介 数据挖掘的任务 数据挖掘的任务就是从实例集合中找出容易理解的规则和关系。这些规则可以用于预测未来趋势、评价顾客、评估风险或简单地描述和解释给定的数据。通常数据挖掘的任务包括以下几个部分: 数据总结目的是对数据进行浓缩,给出它的紧凑描述。传统的也是最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值,或者用直方图、饼图等图形方式表示。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。数据泛化目前主要有两种技术:多维数据分析方法和面向属性的归纳方法。 多维数据分析方法是一种数据仓库技术,也称作联机分析处理(OLAP,onLineAnalysisProeess)。数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合。决策的前提是数据分析。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作,这类操作的计算量特别大。因此一种很自然的想法是,把汇集操作结果预先计算并存储起来,以便于决策支持系统使用。存储汇集操作结果的地方称作多维数据库。多维数据分析技术已经在决策支持系统中获得了成功的应用,如著名的SAS数据分析软件包、Businessobject公司的决策支持系统Businessobjeet,以及IBM公司的决策分析工具都使用了多维数据分析技术。 采用多维数据分析方法进行数据总结,它针对的是数据仓库,数据仓库存储的是脱机的历史数据。为了处理联机数据,研究人员提出了一种面向属性的归纳方法。它的思路是,直接对用户感兴趣的数据视图(用一般的SQL查询语言即可获得)进行泛化,而不是像多维数据分析方法那样预先就存储好了泛化数据。方法的提出者对这种数据泛化技术称之为面向属性的归纳方法。原始关系经过泛化操作后得到的是一个泛化关系,它从较高的层次上总结了在低层次上的原始关系。有了泛化关系后,就可以对它进行各种深入的操作而生成满足用户需要的知识,如在泛化关系基础上生成特性规则、判别规则、分类规则,以及关联规则等。数据挖掘的分类 数据挖掘所能发现的知识有如下几种: .广义型知识,反映同类事物共同性质的知识; .特征型知识,反映事物各方面的特征知识; .差异型知识,反映不同事物之间属性差别的知识; .关联型知识,反映事物之间依赖或关联的知识; .预测型知识,根据历史的和当前的数据推测未来数据; .偏离型知识。揭示事物偏离常规的异常现象。 所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。例如,从一家超市的数据仓库中,可以发现的一条典型关联规则可能是“买面包和黄油的顾客十有八九也买牛奶”,也可能是“买食品的顾客几乎都用信用卡”,这种规则对于商家开发和实施客户化的销售计划和策略是非常有用的。 数据挖掘的方法 数据挖掘并非一个完全自动化的过程。整个过程需要考虑数据的所有因素和其预定的效用,然后应用最佳的数据挖掘方法。数据挖掘的方法很重要。在数据挖掘的领域里.有一点已经被广泛地接受,即不管你选择哪种方法,总存在着某种协定。因此对实际情况,应该具体分析,根据累积的经验和优秀的范例选择最佳的方法。数据挖掘中没有免费的午餐,也没

未来十互联网十大发展趋势分析P

世界已被互联网占领,互联网未来10年将如何变化与发展? 1.互联网全球普及 根据国际电信联盟最近统计,全球互联网用户总数已经达到20亿人;而联合国公布的最新统计数字显示,世界人口在2011年底突破70亿大关。所以到2020年毫无疑问会有更多的人使用互联网。据国家科学基金会(National Science Foundation)预测,2020年前全球互联网用户将增加到50亿。联合国估计2020年世界人口将为75亿,大部分人将使用互联网。 2.互联网将成为物联网 到2020年,互联网预计将成为一个设备网络而不再只是一个计算机网络。根据CIA World Factbook 2009的统计,今天的互联网拥有大约5.75亿台主机电脑。而美国国家科学基金会则预计未来会有数十亿个传感器连接到互联网。在物联网上,每个人都可以应用电子标签将真实的物体上网联结。学校班车将接入互联网,父母可实时了解孩子上学或放学途中的情况。 3.互联网将成为无线网络 目前移动宽带网的用户已经呈现出爆发式增长的迹象,据Informa公司统计,2009年第二季度,全球移动宽带的用户数突破了2.57亿人。这表明3G,WiMAX等高速无线网络的普及率已经比去年同期增长了85%左右。近年来,亚洲地区是无线宽带网用户最多的地区,不过用户增长率最强劲的地区则是在拉丁美洲地区。按Informa预计,到2014年,全球无线宽带网的用户数量将提升到25亿人左右。 4.社交网络的巅峰 基于Web2.0技术的社交网络是万维网技术的最新应用,很大程度上改变了社会生态。Facebook自2004年2月4日上线以来,用户数量已经超过了已经超过了8亿,至今并未呈现出减缓的迹象,Facebook、LinkedIn、Twitter、Instagram以及Google+还会继续增长。美国新媒体公司Wetpaint联合创始人兼CEO本·埃洛维茨(Ben Elowitz)在TechCrunch撰文称,未来十年内,社交网络将与搜索引擎全面整合,成为一位不知疲倦的个人助理,为用户规划日常生活,提高决策效率。 5.SoLoMo将主导互联网 2010年,中国手机用户数量达到了7.38亿,全球手机用户数量已经超过了50亿。2011年5亿Facebook用户中有2亿为移动用户,活跃度比远高于台式机用户。未来十年内随着智能手机和平板电脑等移动终端的普及,进入移动互联网时代。 随着社交网络和移动互联网的兴起,Social(社交的)、Local(本地的)、Mobile(移动的)三概念的结合,也称社交本地移动,代表着未来互联网发展的趋势。LBS已经成为连接真实世界与虚拟网络的一道桥梁,SoLoMo将引领未来十年移动互联网走势。 6.互联网变得越来越轻 互联网正在变得越来越轻,意味着轻量、轻松、轻快、轻简、傻瓜化、碎片化,主要有四个方面。 智能手机、平板电脑等种种手持移动终端轻量化,人人都可随身携带一个图书馆。 微博(micro blogging)、轻博(light blogging)等新媒体的兴起,展示形式更加简洁、便捷,网络表达方式在变轻。 轻游戏崛起,网络娱乐方式轻简化,风靡全球的轻度社交类游戏《愤怒的小鸟》《偷菜》《抢车位》是多么的简单、轻松。 软件应用更轻了,从各种应用市场(App Store)里可以直接下载各种应用,不像以前那样需要拷贝光盘或软盘,还有许多是基于云服务的在线应用。 7.大数据时代 未来的十年将是一个“大数据”引领的智慧科技的时代。随着社交网络的逐渐成熟,移动带宽迅速提升,云计算、物联网应用更加丰富。更多的传感设备、移动终端接入到网络,由此产生的数据及增长速度将比历史上的任何时期都要多和快。 互联网上的数据流量,尤其是高清图像和高清视频流量,迅猛增长。2012年华为报告指出未来十年网络容量提升千倍,每个移动终端也会达到Gb级的连接速度。思科预计,到2012年,互联网每个月的流量将会增加44艾字节(exabyte,109GB),仅每月的增量就是今天互联网流量的一倍多。 8.云计算大行其道 2009年,市场调研公司ABI Research在一份名为《移动云计算》的报告中提出,云计算不久将成为移动世界中的一股爆破力量,最终会成为移动应用的主导运行方式。根据Gartner的调查,到2015年,将有超过40%的CIO期望将其大部分IT运行在云中。 物联网也离不开云计算,物联网中的网络传输和管理服务就会利用到云计算。一位美国专家曾经预测说,全球只要5台计算机就可以满足人们的日常生活需要了。 9.语义网的春天 从20世纪80年代万维网之父蒂姆·伯纳斯-李(Tim Berners-Lee)提出万维网(WWW)构想以来,互联网进入飞速发展阶段。网络信息的沟通方式,从“人际交流”延伸至“人机交流”,语言科学与计算机科学结合的语义网,将是对目前互联网的一种扩展。 2010年Google收购了一家语义技术领先公司Metaweb。Metaweb运营着一个开放的语义信息数据库Freebase。Freebase和维基百科类似,不同的是,它完全专注于结构化数据及个人用户可行性操作。 2010年Facebook也公布了一个大规模的新平台Open Graph(开放图谱),让Facebook里的每个物件都拥有独特的ID。通过Open Graph把其他社交网站建构的网络给连接起来,将创造一个更聪明、更与社交连接、更个人化也更具语意意识的网络。 10.虚拟世界脱胎换骨 作为将来的网络系统,林登实验室于2003年推出的第二生命(second life)得到了很多主流媒体的关注。Second Life是一个基于因特网的虚拟世界,2011年美国虚拟社区Second Life年收入达1亿美元。 第二人生在一个巨大的Debian服务器阵列上模拟了一个平面的,类似地球的世界,被称为Grid。平台只提供土地,土地上的一切由人自己决定,网民可以像建主页一样建设自己的“世界”,并能与其他人的“世界”相连,最终形成一个巨型的“虚拟世界”,全世界各 地的玩家可以相互交流。未来10年,虚拟世界将会得我们的现实生活更加数字化。 未来十年,将是移动互联网普及应用、云计算技术大行其道、SoLoMo占主导、虚拟世界脱胎换骨的十年。除了以上的变化,未来还有三网合一、网络电视、富媒体应用、电商社区化、带宽提速、实时搜索、3D互联网、5G技术、人工智能等各种趋势和突破。

数据挖掘现状与前景

数据挖掘,这是个听起来既神秘,又具有诱惑性的词。就好像要去一片热带沙漠搜寻宝藏,宝藏的诱惑性很强,但是黄沙远处却看不透彻,不知此行是对是错,看到的光亮又是否只是虚幻的海市蜃楼。 所以很多学习数据挖掘的,或是想选择数据挖掘方向的人会在是否踏出第一脚时犹豫不决。 以下,我们就来分析看看数据挖掘的现状及前景。 首先看看百科中数据挖掘的定义:数据挖掘(Data Mining,DM)是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。 基于数据挖掘可能产生的巨大价值,我国的各大重点院校都针对数据挖掘开了专业课程以及研究课题,不仅如此,政府以及大型企业也开始重视这一领域,投资人力物力支持数据挖掘项目。 或许这样说还不够直观,那就就数字佐证。 据IDC对欧洲和北美62家采用了商务智能技术的企业的调查分析发现,这些企业的3年平均投资回报率为401%,其中25%的企业的投资回报率超过600%。调查结果还显示,一个企业要想在复杂的环境中获得成功,高层管理者必须能够控制极其复杂的商业结构,若没有详实的事实和数据支持,是很难办到的。因此,随着数据挖掘技术的不断改进和日益成熟,它必将被更多的用户采用,使更多的管理者得到更多的商务智能。 国外如此,那中国呢? 随着我国信息化的发展,数据的积累及计算机的广泛应用,加上来自外资企业商业智能数据挖掘应用带来的竞争压力,商业智能及数据挖掘也逐渐在中国也形成了一个产业。随着成功案例的增多,不仅仅是金融保险电信等行业或是政府机构,中小企业也逐渐将商业智能应用于业务之中。 信息化时代数据的潜力不容小觑,IT部门一直是企业的核心,而数据挖掘技术更是得到了前所未有的重视和期待。目前我国数据挖掘、商业智能技术的人才培养体系还未健全,而企业对这方面的需求却一直在增长。数据知识发展为核心竞争力是现在及未来必然的形势。因此数据挖掘、商业智能行业的前景还是非常可观的。 所以,请坚定勇敢地踏出迈向数据挖掘的那一步吧,然后扎实地学好所需的知识理论及实践技巧,最后所收获到的,或许比你所期待的还多。

数据挖掘在中国的现状和发展研究

数据挖掘在中国的现状和发展研究 导读:本文以科学引文索引数据库(SCI)、工程索引数据库(EI)以及清华全文数据库(CNKI)中有关“数据挖掘”研究文章的统计数据为研究基础,对数据挖掘在我国研究的总体趋势、研究热点、研究分支三个方面进行分析和研究。本文分析了数据挖掘在我国的发展,并对进一步发展我国数据挖掘的理论研究和实际应用提出了建议。 关键字:数据挖掘 0 引言 近年来,随着计算机对数据的生成、收集、存贮和处理能力的大大提高,数据量与日俱增,传统的数据分析工具对海量数据的处理力不从心,数据挖掘技术应运而生。 中国科研工作者近几年来积极开展了对数据挖掘的研究,并在理论研究和实际应用上取得了一定的成绩,但是有关数据挖掘的成功应用还比较少。本文通过对中国有关数据挖掘研究文章数量的统计,对数据挖掘在中国发展的现状及发展趋势进行分析和研究,通过分析有关论文的发表,对数据挖掘在中国的理论研究和实际应用提出建议。 1 数据挖掘的应用与研究发展 数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有用知识的过程。数据挖掘是一门新兴的边缘学科,近年来引起了中国学术界和产业界的广泛关注。 数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展。2001年,Gartner Group的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关健技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。美国麻省理工学院在2001年1月份的《科技评论》(Technology Review)提出将在未来5年对人类产生重大影响的10大新兴技术,其中第3项就是数据挖掘。 数据挖掘技术已被广泛的应用于各个领域,其中一些典型应用如加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统,能够帮助天文学家发现遥远的类星体,是人工智能技术在天文学和空间科学上的第一批成功应用之一;生物学研究中用数据挖掘技术对DNA进行分析利用数据挖掘技术识别顾客的购买行为模式,对客户进行了分析;对银行或商业上经常发生的诈骗行为进行预测IBM公司

展望互联网的未来发展趋势

展望互联网的未来发展趋势 互联网的到来也许并不像电,不像火那样让人顿时感到光亮,但它的影响却是“润物细无声”式的,很多人把互联网单纯等同于网上冲浪,如果你问他,没有互联网的话他会怎样,他也许会拍拍胸脯说,大不了我不斗地主,不聊QQ,不去淘宝,不逛论坛……云云,而实际上,互联网的应用绝不仅仅止于此,如果某一天你不能从银行转账,不能预订机票,遇到解决不了的问题不能随时随地Google一下……你会不会觉得非常不习惯?所以我们知道,互联网已经成为越来越多人生活中无法缺少的一环,既然如此,我们就来做个预言家,看看互联网在未来会有哪些看得见想得出的发展趋势。 互联网将进入全民时代 在未来,使用互联网的人一定越来越多,虽然这看上去是废话一般,但却是个不争的事实,也许以前因为经济、文化等因素致使很多像我们父母那一代的人无法接受互联网,但如今九年义务教育已经让文盲越来越少,而且电脑以及宽带费用也都个顶个地往下跌,一切都不是问题了,全民互联网时代自然也就来了,就像国家科学基金会所预测,2020年前全球互联网用户将增加到50亿。 电子计算机将不再“一家独大” 现如今电脑仍然是人们互联网应用的主体设备,而未来,这种情况将会得到改变,取而代之的是更多的城市基础设备,据国家科学基

金会预计,未来会有数十亿个安装在楼宇桥梁等设施内部的传感器将会被连接到互联网上,人们将使用这些传感器来监控电力运行和安保状况等,据估计,这数量要远远超过用户数量,何况计算机乎。 无线化是必然趋势 现在人们的生活、工作圈子已经得到了前所未有的扩大,今天这里明天那里,所以无线网络大受青睐,而在未来,一定有过之而无不及。按Informa预计,到2014年,全球无线宽带网的用户数量将提升到25亿人左右,所以说无线化是必然趋势毫不为过。 互联网的网络管理将更加自动化 除了安全方面的漏洞之外,目前的互联网技术最大的不足便是缺乏一套内建的网络管理技术。国家科学基金会希望科学家们能够开发出可以自动管理互联网的技术,比如自诊断协议,自动重启系统技术,更精细的网络数据采集,网络事件跟踪技术等等。 互联网技术对网络信号质量的要求将降低 随着越来越多无线网用户和偏远地区用户的加入,互联网的基础架构也将发生变化,将不再采取用户必须随时与网络保持连接状态的设定。相反,许多研究者已经开始研究允许网络延迟较大或可以利用其它用户将数据传输到某位用户那里的互联网技术,这种技术对移动互联网的意义尤其重大。部分研究者们甚至已经开始研究可用于在行

大数据时代的空间数据挖掘综述

第37卷第7期测绘与空间地理信息 GEOMATICS &SPATIAL INFORMATION TECHNOLOGY Vol.37,No.7收稿日期:2014-01-22 作者简介:马宏斌(1982-),男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。 大数据时代的空间数据挖掘综述 马宏斌1 ,王 柯1,马团学 2(1.信息工程大学地理空间信息学院,河南郑州450000;2.空降兵研究所,湖北孝感432000) 摘 要:随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题, 介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。关键词:大数据;空间数据挖掘;云计算中图分类号:P208 文献标识码:B 文章编号:1672-5867(2014)07-0019-04 Spatial Data Mining Big Data Era Review MA Hong -bin 1,WANG Ke 1,MA Tuan -xue 2 (1.Geospatial Information Institute ,Information Engineering University ,Zhengzhou 450000,China ; 2.Airborne Institute ,Xiaogan 432000,China ) Abstract :In the era of Big Data ,more and more researchers begin to show interest in data mining techniques again.The paper review most unresolved problems left by traditional spatial data mining at first.And ,some progress made by researches using Big Data and Cloud Computing technology is introduced.Also ,their drawbacks are mentioned.Finally ,future trend of spatial data mining is dis-cussed. Key words :big data ;spatial data mining ;cloud computing 0引言 随着地理空间信息技术的飞速发展,获取数据的手 段和途径都得到极大丰富,传感器的精度得到提高和时空覆盖范围得以扩大,数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子 显微镜、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、 地图数字化、统计图表等空间数据获取手段,还可能是来自计算机、 网络、GPS ,RS 和GIS 等技术应用和分析空间数据。特别是近些年来,个人使用的、携带的各种传感器(重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等),具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLE GLASS 和智能手表等),使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息(Volunteer Geographic Information )的出现,使这些普通民众也加入到了提供数据者的行列。 以上各种获取手段和途径的汇集,就使每天获取的 数据增长量达到GB 级、 TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ,并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB 的观测数据。而2012年发射的资源三号(ZY3)卫星,每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫 星、 飞机等飞行平台上,未来10年,全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来,那就是大数据时代。大数据具有 “4V ”特性,即数据体量大(Volume )、数据来源和类型繁多(Variety )、数据的真实性难以保证(Veracity )、数据增加和变化的速度快(Velocity )。对地观测的系统如图1所示。 在这些数据中,与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限, 受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将

数据挖掘文献综述

湘潭大学 本科生专业文献综述 题目: 数据挖掘文献综述 姓名: 林勇 学院: 信心工程学院学院 专业: 自动化 班级: 一班 学号: 2010550113 指导教师: 张莹

0前言 随着计算机技术的迅猛发展,人类正在步入信息社会。面对今天浩如烟海的信息,如何帮助人们有效地收集和选择所感兴趣的信息,更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它们之间的关系,使之能够真正地做到信息处理的自动化,这已成为信息技术领域的热点问题。数据挖掘就是为满足这种要求而产生并迅速发展起来的,可用于开发信息资源的一种新的数据处理技术。 1什么是数据挖掘 数据挖掘(Data Mining),也叫数据开采,数据采掘等,是按照既定的业务目标从海量数据中提取出潜在、有效并能被人理解的模式的高级处理过程。在较浅的层次上,它利用现有数据库管理系统的查询、检索及报表功能,与多维分析、统计分析方法相结合,进行联机分析处理,从而得出可供决策参考的统计分析数据。在深层次上,则从数据库中发现前所未有的、隐含的知识。OLAF'的出现早于数据挖掘,它们都是从数据库中抽取有用信息的方法,就决策支持的需要而言两者是相辅相成的。OLAP可以看作一种广义的数据挖掘方法,它旨在简化和支持联机分析,而数据挖掘的目的是便这一过程尽可能自动化。数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库(Data Warehouse)等。而挖掘后获得的知识包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。 1.1 数据挖掘的任务 数据挖掘的两个高层目标是预测和描述。前者指用一些变量或数据库的若干已知字段预测其它感兴趣的变量或字段的未知的或未来的值;后者指找到描述数据的可理解模式。根据发现知识的不同,我们可以将数据挖掘任务归纳为以下几类: (1)特征规则。从与学习任务相关的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征.例如可以从某种疾病的症状中提取

数据挖掘研究及发展现状

数据挖掘技术的研究现状及发展方向 摘要:数据挖掘技术是当前数据库和人工智能领域研究的热点。从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展方向。 关键词:数据挖掘;神经网络;决策树;粗糙集;模糊集;研究现状;发展方向 The present situation and future direction of the data mining technology research Abstract: Data mining technology is hot spot in the field of current database and artificial intelligence. From the definition of data mining, the paper introduced concepts and advantages and disadvantages of neural network algorithm, decision tree algorithm, genetic algorithm, rough set method, fuzzy set method and association rule method of data mining, summarized domestic and international research situation and focus of data mining in details, and pointed out the development trend of data mining. Key words: data mining, neural network, decision tree, rough set, fuzzy set, research situation, development direction 0 引言 随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识金砖,从而达到为决策服务的目的。在这种情况下,一个新的技术——数据挖掘(Data Mining,DM)技术应运而生[2]。数据挖掘正是为了迎合这种需要而产生并迅速发展起来的、用于开发信息资源的、一种新的数据处理技术。 数据挖掘通常又称数据库中的知识发现(Knowledge Discovery in Databases),是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。 1 数据挖掘算法 数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的实际应用数据中提取有效的、新颖的、潜在有用的知识的非平凡过程[3]。所得到的信息应具有先前未知、有效和实用三个特征。数据挖掘过程如图1所示。这些数据的类型可以是结构化的、半结构化的、甚至是异构型的。发现知识的方法可以是数学的、非数学的、也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等[4]。 数据选择:确定发现任务的操作对象,即目标对象; 预处理:包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等; 转换:消减数据维数或降维; 数据开采:确定开采的任务,如数据总结、分类、聚类、关联规则发现或序列模式发现等,并确定使用什么样的开采算法; 解释和评价:数据挖掘阶段发现的模式,经过用户和机器的评价,可能存在冗余或无关的模式,这时需要剔除,使用户更容易理解和应用。十大经典算法如图2: 目前,数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。

相关文档
相关文档 最新文档