文档视界 最新最全的文档下载
当前位置:文档视界 › 上网行为模式的数据挖掘

上网行为模式的数据挖掘

上网行为模式的数据挖掘
上网行为模式的数据挖掘

摘要数据分析已几乎成为解决所有领域问题不可或缺的手段,而完整的数据分析包含了数据分析的理念、方法和操作。本文将数据分析过程分为确定数据分析目标、研究设计、数据预处理、整理与数据挖掘、解释和分析计算结果 5 个阶段。利用MATLAB 软件的聚类分析和判别分析功能对某高校某一段时期内的用户上网日志的分析,挖掘出在抽样时间段内用户上网的行为模式,为科学的进行网络管理提供依据。实践表明,该方法具有简便易用,有着广泛的应用价值。

关键词上网行为模式;数据挖掘;聚类分析;判别分析;MATLAB

1 引言

数据挖掘几乎已成为解决所有的领域问题不可或缺的手段,而完整的数据挖掘包含了数据挖掘的理念、方法和操作。本文将数据挖掘分析过程划分为确定数据分析目标、研究设计、数据预处理、数据整理与数据挖掘、解释和分析计算结果5 个阶段。其中,研究设计是数据分析的灵魂。统计分析软件的使用主要在整理与数据挖掘阶段。数据挖掘的目的是利用数据来研究一个领域的具体问题。数据挖掘的过程包括确定数据挖掘的目标、研究设计、数据预处理、分析数据、解释结果。这是数据挖掘的一般过程,其中各个步骤之间常常需要互相反馈调整。图1 所示是数据挖掘过程示意图。

图1数据挖掘过程示意图

用户上网日志,其数据量在不断地迅速膨胀。这些数据犹如茫茫的信息海洋,能否从中了解这些表面毫无关联的数据之间是否存在或多或少的关系,怎样才能找到这些关系并利用到网络管理中。例如,能否有助于发现上网成瘾而影响学习的同学,为辅导员做好学生工作提供帮助;对上网时间过长的用户加以适当限制等。这就是数据挖掘要做的工作。本文主要的目标是统计分析该校用户上网日志,挖掘出用户上网的行为模式,为科学地进行网络管理提供依据。

3 研究设计

数据挖掘的研究设计,是根据数据挖掘的目标,寻求解决方案。一般而言,数据挖掘是用量化分析的方法对现象进行描述、解释、预测与控制。一个特定的领域问题要先转化为数据挖掘问题。为此,首先要进行量化研究设计,即将特定的领域问题转化为数据挖掘问题,确定用什么量化研究方法来进行该问题的研究及怎样研究。常用的量化研究方法有调查法(用调查或观测得到的样本数据推断总体)、相关研究法、实验法、时序分析法等[1]。显然用户上网日志记录的数据属于时间序列数据(TimeSeries Data)和横截面数据(Cross-Sectional Data),所以本文采用的量化研究方法是聚类分析和判别分析。一般地,若事先已经建立类别,则使用判别分析,若事先没有建立类别,则使用聚类分析。本文采用的数据来源于某高校用户上网日志。由于日志中记载的是全校所有用户上网的记录,为此需要对数据进行预处理。数据分为两个txt 文件,内容如下:

User.txt 为用户信息文件,主要包括用户名和用户所在的用户组,其中102 代表研究生组、103 代表本科生组、104代表教职工组、105 代表办公用户组。总共有1703 条记录。Log.txt 为用户上网日志文件。总共有65535 条记录。

4 对用户信息文件(User.txt)中的数据处理

根据1 中确定的数据挖掘目标,我们首先对用户信息文件(User.txt)进行分组。分组按照用户所在的用户组进行分组。分组后,教职工组共有569 条记录,办公用户组共有89条记录,研究生组共有299 条记录,本科生组有731 条记录,四者和为1688 条记录。而用户信息文件(User.txt)中共有1703 条记录,两者缺15 条记录。经过认真检查原始用户信息文件(User.txt)中的记录,发现有一些记录不合法,故在分组的时候将其过滤掉。不合法的记录如表1所示。由于该高校规定教职工组和办公用户组可以在同一个时间段,用同一个用户名登录不同的计算机;而研究生组和本科生组在同一个时间段,只能用一个用户名登录一台计算机。这项规定造成了用户组中用户名(name)字段中有重复的记录。

表 1 不合法的用户信息记录

故下面只考虑研究生组和本科生组中用户名(name)字段重复的记录。在研究生组和本科生组(参见表2、表3)中用户名(name)字段有重复的记录,表明该用户上网频繁,需过滤重复的用户名,统计出实际的用户数量。

有463,在这段时间内研究生和本科生上网的总人数为549。但是,在抽样调查这段时间内,重复的数据显示了上网的频率,分别为71.2、36.7。这些数字定性的说明这段时间内研究生上网的频率比本科生高,可能因为10/Nov/2006 恰好是星期五上班时间,该高校还属于正常教学时间,故上网的本科生比较少,时间也很短。

1)对于不同的距离,计算样本点之间的距离

Auser1_1=xlsread('user1_1.xls');%从user1_1.xls 中读入数据

y1=pdist(Auser1_1);%计算样本点之间的欧式距离

y2=pdist(Auser1_1,'seuclid');%计算样本点之间的标准化欧式距离

y3=pdist(Auser1_1,'mahal');%计算样本点之间的马氏距离

y4=pdist(Auser1_1,'cityblock');%计算样本点之间的布洛克距离

2)计算系统聚类树以及相关信息

z1=linkage(y1);%表示用最短距离法创建系统聚类树

z2=linkage(y2);

z3=linkage(y3);

z4=linkage(y4);

3)计算聚类树信息与原始数据的距离之间的相关性

a1=cophenet(z1,y1)%计算聚类树信息与原始数据的距离之间的相关性

a2=cophenet(z2,y2)

a3=cophenet(z3,y3)

a4=cophenet(z4,y4)

由于这是计算的聚类树信息与原始数据的距离之间的相关性,所以该值是越大越好,故选择a1 =0.6975,表明应该使用欧式距离最合适。

4)使用欧式距离进行分类,并创建系统聚类树

Auser1_2=xlsread('user_2.xls');

y1=pdist(Auser1_2);

z1=linkage(y1,'centroid');%按重心距离法得到系统聚类树

[stat mmsg]=xlswrite('Auser1_2.xls',z1);

b4=cluster(z1,0.5);%以0.5 作为聚类分界值

c=max(b4)

h=dendrogram(z1)%输出聚类树形图的冰状图运行后的结果是

c =97,表示首先约定将原始数据

user_2.xls 中的用户名数据分成了97 类。

分类数目较大说明了属于研究生用户组的用户数有86,属于本科生用户组的用户数有463,在这段时间内研究生和本科生上网的总人数为549。这些用户中上网行为模式为549/97 =5.6598,即在以0.5 作为聚类分界值时,大约每6 个人的上网行为模式是一样的。图2是输出聚类树形图的冰状图。

形图的冰状图

根据1 中确定的数据挖掘目标,我们接着对用户上网日志文件(Log.txt)进行预处理。下面是用户user1664 的一个记录:

10.10.28.57 user1664 - [10/Nov/2006:12:28:48 +0800]

"GET http://https://www.docsj.com/doc/ba9181915.html,/js/comment_iframe.js HTTP/1.0"

304 256 TCP_IMS_HIT:NONE

从这个记录中可以发现,其实并不需要一些信息,如端口号、网络协议、接收和发送的数据包数目、网络连接方式等等。这些信息在进行预处理的时候,就可以将其删除掉,只保留需要的信息记录,如IP 地址、用户名、上网时间、历史网址记录。

2)数据整理——用户信息文件(Log.txt)

整理与分析数据,即利用数据挖掘方法进行计算和分析。数据挖掘方法以统计分析技术为主。下面主要是对用户上网日志文件(Log.txt)进行数据挖掘。在MATLAB 软件中,主要使用的系统聚类法。系统聚类法是聚类分析中应用最为广泛的一种方法。它的基本原理是:首先将一定数量的样品(或指标)各自看成一类,然后根据样品(或指标)的亲疏程度,将亲疏程度最高的两类合并,如此重复进行,直到所有的样品都合成一类。衡量亲疏程度的指标有两类:距离、相似系数。

5 对用户上网日志文件(Log.txt)中的数据处理

1)数据预处理——用户上网日志文件(Log.txt)

因为用户上网日志文件(Log.txt)中是按照用户上网的时间段来记录的数据。如:

10.10.28.57 user1664 [10/Nov/2006:12:28:48

http://https://www.docsj.com/doc/ba9181915.html,/js/comment_iframe.js

10.10.28.57 user1664 [10/Nov/2006:12:28:48

http://https://www.docsj.com/doc/ba9181915.html,/i_comment.htm

10.10.28.57 user1664 [10/Nov/2006:12:28:48

http://https://www.docsj.com/doc/ba9181915.html,/adsview?

从用户名user1664 中可以看出日志是按照每一秒的间隔

来记录数据的,这样可以在日志中统计重复出现的记录条数,而重复出现的记录条数反映的是该用户上网时间的长短。

从表4 中可以看出重复出现的记录条数为65377 条,单独出现的记录条数为158 条,两者之和为65535 条记录。从百分比(Percent)一栏中,可以看出重复出现的记录条数的百分比为99.8,单独出现的记录条数的百分比为0.2。说明:在抽样调查这段时间中,存在一部分用户的上网时间较长,而另一部分用户上网时间较短(99.8 0.2 )。判别分析——用户上网日志文件(Log.txt)判别分析是利用原有的分类信息,而得到判别函数(判别函数是这种分类的函数关系式,一般是与分类相关的若干个指标的线性关系式),然后利用该函数去判别未知样品属于哪一类。因此,这是一个学习和预测的过程。常用的判别分析法有距离判别法、费歇尔判别法、贝叶斯判别法等等。

下面我们采用的是贝叶斯判别法。

贝叶斯判别法是一种概率方法,它的好处是可以充分利用先验信息,可以考虑专

家的意见。在MATLAB7.0 环境下,输入以下的代码,进行判别分析。

Alog2_2=xlsread('log2.xls');

y1=pdist(Alog2);

trainging=linkage(y1,'centroid');%表示已有的分类数据矩阵

%[stat mmsg]=xlswrite('Alog2_2.xls',trainging);

group=cluster(trainging,0.5);

c=max(group)

%h=dendrogram(trainging)

sample=[261 292 305];%表示样品数据矩阵

class=classify(sample,trainging,group,mahalanobis)%表示用马氏距离进行判别分析经检查用户上网日志文件(Log.txt)中的记录:用户名user261 的IP 地址为210.45.148.52用户名user292 的IP 地址为210.45.148.65 ,用户名user305 的IP 地址为210.45.144.24。用户名user261 上网时间属于中等,用户名user292 上网时间很短,用户名user305 上网时间较长。程序运行的结果可以准确地区分出用户名user261、user292、user305 的上网行为模式,达到了较为满意的效果。

6 解释和分析计算结果

下面使用决策树的方法来进行分析。采用的方法是

CHAID,字段采用的是用户名和IP 地址字段,见表5。

从决策树图可以看出,在抽样调查这段时间内,大部分用户上网时间很短(见图3),但存在小部分用户上网时间较对IP 地址为10.10.35.14 进行调查发现,该用户名是user483,用户组是104,属于教职工用户组。具体的上网时间段为:10/Nov/2006:14:21:53~10/Nov/2006:21:44:27。从抽样调查这段时间来看,大部分用户上网时间很短,只有极小部分用户上网时间很长。原因是10/Nov/2006 恰好是星期五上班时间,该高校还属于正常教学时间,故上网的人数比较少,时间也很短。推测:星期五是周末,六、七点钟以后上网的人数会逐渐增加。

7 结论

数据挖掘的方法通常可以分为两大类,一类是统计型,常用的技术有概率分析、相关性、聚类分析和判别分析等;另一类是人工智能中的机器学习型,通过训练和学习大量的样品集得出需要的模式或参数。本文采用的是用统计分析来进行用户上网行为模式的数据挖掘。统计分析的理论基础主要是统计学和概率论的原理是一种较为精确的数据挖掘技术。它是一种基于模型的方法,包括回归分析、因子分析、聚类分析和判别分析等,该方法的优点是容易理解,对结果描述精确。可实现趋势分析、相似性搜索、相关分析、时间序列模式和周期性模式的挖掘等功能。

模式识别的研究现状与发展趋势

模式识别的研究现状与发展趋势 摘要:随着现今社会信息技术的飞速发展, 人工智能的应用越来越广泛, 其中模式识别是人工智能应用的一个方面。而且现今的模式识别的应用也越来越得到大家的重视与支持,在各方面也有重大的进步。模式识别也成为人们身边不可或缺的一部分。关键词:人工智能,技术,模式识别,前景 Abstract:In the modern society with the rapid development of information technology, the application of a rtificial intelligence is more and more extensive, among them pattern recognition is one of the ap ply of artificial intelligence. And now the application of pattern recognition is also more and more to get everyone's attention and support, in various aspects have significant progress. Pattern rec ognition has become an integral part of people around. Keywords: Artificial Intelligence, Technology,Pattern Recognition, prospects 一,引言 如今计算机硬件的高速发展, 以及计算机应用领域的不断开拓, 人们开始要求计算机能够更有效地感知诸如声音、文字、图像、温度、震动等人类赖以发展自身、改造环境所运用的信息资料。但就一般意义来说, 目前一般计算机却无法直接感知它们, 我们常用的键盘、鼠标等外部设备, 对于这些外部世界显得无能为力。虽然摄像机、图文扫描仪、话筒等设备业已解决了上述非电信号的转换, 并与计算机联机, 但由于识别技术不高, 而未能使计算机真正知道采录后的究竟是什么信息。计算机对外部世界感知能力的低下, 成为开拓计算机应用的瓶颈, 也与其高超的运算能力形成强烈的对比。于是, 着眼于拓宽计算机的应用领域, 提高其感知外部信息能力的学科———模式识别, 便得到迅速发展。 人工智能所研究的模式识别是指用计算机代替人类或帮助人类感知模式, 是对人类感知外界功能的模拟, 研究的是计算机模式识别系统, 也就是使一个计算机系统具有模拟人类通过感官接受外界信息、识别和理解周围环境的感知能力。现将人工智能在模式识别方面的一些具体和最新的应用范围遍及遥感、生物医学图象和信号的分析、工业产品的自动无损检验、指纹鉴定、文字和语音识别、机器视觉地圈模式识别等方面。 二,现状 以地图模式识别为例,地图模式识别是由计算机来对地图进行识别与理解, 并借助一定的技术手段, 让计算机研究和分析地图上的各种模式信息, 获取地图要素的质量意义。其计算处理的过程类似于人对地图的阅读。 地图模式识别是近年来在地图制图领域中新兴的一门高新技术, 是信息时代人工智能、模式识别技术在地图制图中的具体应用。由于它是传统地图制图迈向数字地图制图的一座桥梁, 因此,地图模式识别遥感技术、地理信息系统一起, 被称为现代地图制图的三大技术。 目前, 地图模式识别由于具有广泛的应用价值和发展潜力,因而受到了人们的普遍重视。尤其是随着现今的计算机及其外部硬件环境的不断提高, 科技不过发展的情况下,

DX3004模式识别与人工智能--教学大纲概要

《模式识别与人工智能》课程教学大纲 一、课程基本信息 课程代码:DX3004 课程名称:模式识别与人工智能 课程性质:选修课 课程类别:专业与专业方向课程 适用专业:电气信息类专业 总学时: 64 学时 总学分: 4 学分 先修课程:MATLAB程序设计;数据结构;数字信号处理;概率论与数理统计 后续课程:语音处理技术;数字图像处理 课程简介: 模式识别与人工智能是60年代迅速发展起来的一门学科,属于信息,控制和系统科学的范畴。模式识别就是利用计算机对某些物理现象进行分类,在错误概率最小的条件下,使识别的结果尽量与事物相符。模式识别技术主要分为两大类:基于决策理论的统计模式识别和基于形式语言理论的句法模式识别。模式识别的原理和方法在医学、军事等众多领域应用十分广泛。本课程着重讲述模式识别的基本概念,基本方法和算法原理,注重理论与实践紧密结合,通过大量实例讲述如何将所学知识运用到实际应用之中去,避免引用过多的、繁琐的数学推导。这门课的教学目的是让学生掌握统计模式识别基本原理和方法,使学生具有初步综合利用数学知识深入研究有关信息领域问题的能力。 选用教材: 《模式识别》第二版,边肇祺,张学工等编著[M],北京:清华大学出版社,1999; 参考书目: [1] 《模式识别导论》,齐敏,李大健,郝重阳编著[M]. 北京:清华大学出版社,2009; [2] 《人工智能基础》,蔡自兴,蒙祖强[M]. 北京:高等教育出版社,2005; [3] 《模式识别》,汪增福编著[M]. 安徽:中国科学技术大学出版社,2010; 二、课程总目标 本课程为计算机应用技术专业本科生的专业选修课。通过本课程的学习,要求重点掌握统计模式识别的基本理论和应用。掌握统计模式识别方法中的特征提取和分类决策。掌握特征提取和选择的准则和算法,掌握监督学习的原理以及分类器的设计方法。基本掌握非监督模式识别方法。了解应用人工神经网络和模糊理论的模式识别方法。了解模式识别的应用和系统设计。要求学生掌握本课程的基本理论和方法并能在解决实际问题时得到有效地运用,同时为开发研究新的模式识别的理论和方法打下基础。 三、课程教学内容与基本要求 1、教学内容: (1)模式识别与人工智能基本知识; (2)贝叶斯决策理论; (3)概率密度函数的估计; (4)线性判别函数; (5)非线性胖别函数;

用MATLAB实现数据挖掘的一种算法

一、数据挖掘的目的 数据挖掘(Data Mining)阶段首先要确定挖掘的任务或目的。数据挖掘的目的就是得出隐藏在数据中的有价值的信息。数据挖掘是一门涉及面很广的交叉学科,包括器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。它也常被称为“知识发现”。知识发现(KDD)被认为是从数据中发现有用知识的整个过程。数据挖掘被认为是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式(patter,如数据分类、聚类、关联规则发现或序列模式发现等。数据挖掘主要步骤是:数据准备、数据挖掘、结果的解释评估。二、数据挖掘算法说明 确定了挖掘任务后,就要决定使用什么样的挖掘算法。由于条件属性在各样本的分布特性和所反映的主观特性的不同, 每一个样本对应于真实情况的局部映射。建立了粗糙集理论中样本知识与信息之间的对应表示关系, 给出了由属性约简求约简决策表的方法。基于后离散化策略处理连续属性, 实现离散效率和信息损失之间的动态折衷。提出相对值条件互信息的概念衡量单一样本中各条件属性的相关性, 可以充分利用现有数据处理不完备信息系统。 本次数据挖掘的方法是两种,一是找到若干条特殊样本,而是找出若干条特殊条件属性。最后利用这些样本和属性找出关联规则。(第四部分详细讲解样本和属性的选择) 三数据预处理过程 数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把连续值数据转换为离散型数据,以便于符号归纳,或是把离散型数据转换为连续)。 本文使用的数据来源是名为“CardiologyCategorical”的excel文件中的“源数据”。该数据表共303行,14个属性。即共有303个样本。将该数据表的前200行设为训练样本,剩下后的103行作为测试样本,用基于粗糙集理论的属性约简的方法生成相应的规则,再利用测试样本对这些规则进行测试。 首先对源数据进行预处理,主要包括字符型数据的转化和数据的归一化。 数据预处理的第一步是整理源数据,为了便于matlab读取数据,把非数字数据转换为离散型数字数据。生成lisanhua.xsl文件。这一部分直接在excel工作表中直接进行。 步骤如下: 将属性“sex”中的“Male”用“1”表示,“Female”用“2”表示; 将属性“chest pain type”中的“Asymptomatic”用“1”表示,“Abnormal Angina”用“2”表示,“Angina”用“3”表示,“NoTang”用“4”表示;

数据挖掘现状与前景

数据挖掘,这是个听起来既神秘,又具有诱惑性的词。就好像要去一片热带沙漠搜寻宝藏,宝藏的诱惑性很强,但是黄沙远处却看不透彻,不知此行是对是错,看到的光亮又是否只是虚幻的海市蜃楼。 所以很多学习数据挖掘的,或是想选择数据挖掘方向的人会在是否踏出第一脚时犹豫不决。 以下,我们就来分析看看数据挖掘的现状及前景。 首先看看百科中数据挖掘的定义:数据挖掘(Data Mining,DM)是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。 基于数据挖掘可能产生的巨大价值,我国的各大重点院校都针对数据挖掘开了专业课程以及研究课题,不仅如此,政府以及大型企业也开始重视这一领域,投资人力物力支持数据挖掘项目。 或许这样说还不够直观,那就就数字佐证。 据IDC对欧洲和北美62家采用了商务智能技术的企业的调查分析发现,这些企业的3年平均投资回报率为401%,其中25%的企业的投资回报率超过600%。调查结果还显示,一个企业要想在复杂的环境中获得成功,高层管理者必须能够控制极其复杂的商业结构,若没有详实的事实和数据支持,是很难办到的。因此,随着数据挖掘技术的不断改进和日益成熟,它必将被更多的用户采用,使更多的管理者得到更多的商务智能。 国外如此,那中国呢? 随着我国信息化的发展,数据的积累及计算机的广泛应用,加上来自外资企业商业智能数据挖掘应用带来的竞争压力,商业智能及数据挖掘也逐渐在中国也形成了一个产业。随着成功案例的增多,不仅仅是金融保险电信等行业或是政府机构,中小企业也逐渐将商业智能应用于业务之中。 信息化时代数据的潜力不容小觑,IT部门一直是企业的核心,而数据挖掘技术更是得到了前所未有的重视和期待。目前我国数据挖掘、商业智能技术的人才培养体系还未健全,而企业对这方面的需求却一直在增长。数据知识发展为核心竞争力是现在及未来必然的形势。因此数据挖掘、商业智能行业的前景还是非常可观的。 所以,请坚定勇敢地踏出迈向数据挖掘的那一步吧,然后扎实地学好所需的知识理论及实践技巧,最后所收获到的,或许比你所期待的还多。

模式识别与智能系统

模式识别与智能系统 (081104) 一、培养目标 培养热爱祖国,拥护中国共产党的领导,拥护社会主义制度,遵纪守法,品德良好,具有服务国家、服务人民的社会责任感,掌握本学科坚实的基础理论和系统的专业知识,具有创新精神、创新能力和从事科学研究、教学、管理等工作能力的高层次学术型专门人才。 模式识别与智能系统是20世纪60年代以来在信号处理、人工智能、控制论、计算机技术等学科基础上发展起来的新型学科。该学科以各种传感器为信息源,以信息处理与模式识别的理论技术为核心,以数学方法与计算机为主要工具,探索对各种媒体信息进行处理、分类、理解并在此基础上构造具有某些智能特性的系统或装置的方法、途径与实现,以提高系统性能。模式识别与智能系统是一门理论与实际紧密结合,具有广泛应用价值的控制科学与工程的重要学科分支。 本学科培养德智体全面发展,具有坚实和系统的模式识别与智能系统理论知识和实践技能,了解模式识别与智能系统学科发展的前沿和动态,能够适应我国经济、科技、教育发展需要,面向二十一世纪的科学研究、工程技术和高等教育的高层次人才。学位获得者业务上应具有具备从事在本学科及相关学科领域独立开发研究工作的能力,注意理论联系实际,能够分析和解决现代经济建设和交叉学科中涌现出的新课题;能够熟练利用计算机解决本学科的有关问题;较为熟练地掌握一门外国语;具有健康的体格。 二、研究方向 (一)智能机器人系统 主要进行智能机器人控制与决策系统的研究与开发,包括自主移动机器人、特种机器人、服务机器人、工业机器人等内容。机器人的自主定位、导航、避障与多机器人协调控制为主要研究方向。 (二)系统仿真技术与应用 主要研究方向为控制系统仿真与计算机辅助设计、半实物仿真与实时控制、分数阶与网络控制系统仿真、系统建模校验与验证及仿真算法和高层体系结构理论与应用技术、工业过程建模仿真和提高控制效果与系统性能的方法研究。 (三)图像处理与计算机视觉 研究图像信息获取、处理、分析、理解与识别分类等理论与技术,研究图像处理技术在医学影像处理、动态目标识别与跟踪、智能交通系统、军事等领域的工程应用问题。 (四)建筑智能化技术 本方向以建筑智能化技术为背景,主要研究智能建筑系统集成理论与技术、

数据挖掘报告

哈尔滨工业大学 数据挖掘理论与算法实验报告(2016年度秋季学期) 课程编码S1300019C 授课教师邹兆年 学生姓名汪瑞 学号 16S003011 学院计算机学院

一、实验内容 决策树算法是一种有监督学习的分类算法;kmeans是一种无监督的聚类算法。 本次实验实现了以上两种算法。在决策树算法中采用了不同的样本划分方式、不同的分支属性的选择标准。在kmeans算法中,比较了不同初始质心产生的差异。 本实验主要使用python语言实现,使用了sklearn包作为实验工具。 二、实验设计 1.决策树算法 1.1读取数据集 本次实验主要使用的数据集是汽车价值数据。有6个属性,命名和属性值分别如下: buying: vhigh, high, med, low. maint: vhigh, high, med, low. doors: 2, 3, 4, 5more. persons: 2, 4, more. lug_boot: small, med, big. safety: low, med, high. 分类属性是汽车价值,共4类,如下: class values:unacc, acc, good, vgood 该数据集不存在空缺值。

由于sklearn.tree只能使用数值数据,因此需要对数据进行预处理,将所有标签类属性值转换为整形。 1.2数据集划分 数据集预处理完毕后,对该数据进行数据集划分。数据集划分方法有hold-out法、k-fold交叉验证法以及有放回抽样法(boottrap)。 Hold—out法在pthon中的实现是使用如下语句: 其中,cv是sklearn中cross_validation包,train_test_split 方法的参数分别是数据集、数据集大小、测试集所占比、随机生成方法的可

模式识别与智能系统硕士点_研究生入学复试大纲pris_test

模式识别与智能系统硕士点 研究生入学复试大纲 复试笔试满分为150分,包括基本能力测试(45分)和专业基础知识测试(105分)两部分。采取闭卷考试,考试时间一般为2至3小时。 有关专业基础知识测试的说明 专业基础知识测试(105分)由21道题目组成,参加笔试同学可从中任意选择7道完成,每题15分。专业知识点包括以下七个方面: 一.图象处理(共3题) 考试知识点:数字图象直方图、基于直方图均衡化的图象增强、边缘检测算子、梯度大小/方向计算、频域滤波基础、频域滤波操作的基本步骤。 辅导材料:冈萨雷斯等,《数字图象处理》,第二版,电子工业出版社, 2003.3, ISBN 7-5053-8236-5。认真阅读该书的3.3, 4.2, 10.1。 二.信息安全(共2题) 考试知识点:信息熵的计算、信源编码。 辅导材料:《信息与编码理论基础》,万旺根,上海大学出版社。 三.人工智能(共2题) 考试知识点:人工智能的基本概念。 辅导材料:廉师友,人工智能技术导论(第二版)廉师友西安电子科技大学出版社, 2002.7, ISBN 7-5606-0811-6。认真阅读该书的第一章。 四.微型计算机原理(共5题) 考试知识点:80x86指令寻址模式及汇编指令的书写格式;不同进制数之间的转换;汇编程序的阅读;计数器模块8253及其编程;可编程中断控制器8259模块及其编程。 注:相关硬件模块控制字格式不需记忆。(提供)

辅导材料:微型计算机技术及应用(第3版),戴梅萼等,清华大学出版社,2003 五.多媒体信息处理(共4题) 考试知识点:1.多媒体基本概念 多媒体技术,多媒体系统的层次结构,多媒体系统的组成 2.多媒体数据压缩: 数据压缩算法概念及分类,统计编码,预测编码,变换编码,分形编码 静态图像压缩标准JPEG,运动图像压缩标准MPEG,音频压缩标准 3.音频信息处理 声音数字化,音频文件格式,声卡的组成与设计(含声卡的工作原理、硬件设计、软件结构、编程接口等) 4.视频信息处理 视频信号数字化,视频的文件格式,视频压缩卡的设计 辅导材料:多媒体技术基础及应用,钟玉琢等,北京:清华大学出版社,2006.2 六.生物特征识别(共2题) 考试知识点:生物信息学序列联配(双序列比对,多序列比对)。 辅导材料:David W. Mount,《生物信息学:序列与基因组分析(影印)》,Bioinformatics: Sequence and Genome Analysis, Cold Spring Harbor Lab(CSHL) Press。认真阅读sequence alignment 的相关内容。 七.射频识别(共3题) 考试知识点:电子标签的基本概念。 辅导材料:纪震,李慧慧等,《电子标签原理与应用》,西安电子科技大学出版社, 2005.12, ISBN 705606-1599-6。认真阅读该书的第一章。

人工智能与模式识别

人工智能与模式识别 摘要:信息技术的飞速发展使得人工智能的应用围变得越来越广,而模式识别作为其中的一个重要方面,一直是人工智能研究的重要方向。在介绍人工智能和模式识别的相关知识的同时,对人工智能在模式识别中的应用进行了一定的论述。模式识别是人类的一项基本智能,着20世纪40年代计算机的出现以及50年代人工智能的兴起,模式识别技术有了长足的发展。模式识别与统计学、心理学、语言学、计算机科学、生物学、控制论等都有关系。它与人工智能、图像处理的研究有交叉关系。模式识别的发展潜力巨大。 关键词:模式识别;数字识别;人脸识别中图分类号; Abstract: The rapid development of information technology makes the application of artificial intelligence become more and more widely. Pattern recognition, as one of the important aspects, has always been an important direction of artificial intelligence research. In the introduction of artificial intelligence and pattern recognition related knowledge at the same time, artificial intelligence in pattern recognition applications were discussed.Pattern recognition is a basic human intelligence, the emergence of the 20th century, 40 years of computer and the rise of artificial intelligence in the 1950s, pattern recognition technology has made great progress. Pattern recognition and statistics, psychology,

大数据挖掘商业案例

1.前言 随着中国加入WTO,国金融市场正在逐步对外开放,外资金融企业的进入在带来先进经营理念的同时,无疑也加剧了中国金融市场的竞争。金融业正在快速发生变化。合并、收购和相关法规的变化带来了空前的机会,也为金融用户提供了更多的选择。节约资金、更完善的服务诱使客户转投到竞争对手那里。即便是网上银行也面临着吸引客户的问题,最有价值的客户可能正离您而去,而您甚至还没有觉察。在这样一种复杂、激烈的竞争环境下,如何才能吸引、增加并保持最好的客户呢? 数据挖掘、模式(Patterns>等形式。用统计分析和数据挖掘解决商务问题。 金融业分析方案可以帮助银行和保险业客户进行交叉销售来增加销售收入、对客户进行细分和细致的行为描述来有效挽留有价值客户、提高市场活动的响应效果、降低市场推广成本、达到有效增加客户数量的目的等。 客户细分―使客户收益最大化的同时最大程度降低风险 市场全球化和购并浪潮使市场竞争日趋激烈,新的管理需求迫切要求金融机构实现业务革新。为在激烈的竞争中脱颖而出,业界领先的金融服务机构正纷纷采用成熟的统计分析和数据挖掘技术,来获取有价值的客户,提高利润率。他们在分析客户特征和产品特征的同时,实现客户细分和市场细分。 数据挖掘实现客户价值的最大化和风险最小化。SPSS预测分析技术能够适应用于各种金融服务,采用实时的预测分析技术,分析来自各种不同数据源-来自ATM、交易、呼叫中心以及相关分支机构的客户数据。采用各种分析技术,发现数据中的潜在价值,使营销活动更具有针对性,提高营销活动的市场回应率,使营销费用优化配置。 客户流失―挽留有价值的客户 在银行业和保险业,客户流失也是一个很大的问题。例如,抵押放款公司希望知道,自己的哪些客户会因为竞争对手采用低息和较宽松条款的手段而流失;保险公司则希望知道如何才能减少取消保单的情况,降低承包成本。 为了留住最有价值的客户,您需要开展有效的保留活动。然而,首先您需要找出最有价值的客户,理解他们的行为。可以在整个客户群的很小一部分中尽可能多地找出潜在的流失者,从而进行有效的保留活动并降低成本。接着按照客户的价值和流失倾向给客户排序,找出最有价值的客户。 交叉销售 在客户关系管理中,交叉销售是一种有助于形成客户对企业忠诚关系的重要工具,有助于企业避开“挤奶式”的饱和竞争市场。由于客户从企业那里获得更多的产品和服务,客户与企业的接触点也就越多,企业就越有机会更深入地了解客户的偏好和购买行为,因此,企业提高满足客户需求的能力就比竞争对手更有效。 研究表明,银行客户关系的年限与其使用的服务数目、银行每个账户的利润率之间,存在着较强的正相关性。企业通过对现有客户进行交叉销售,客户使用企业的服务数目就会增多,客户使用银行服务的年限就会增大,每个客户的利润率也随着增大。 从客户的交易数据和客户的自然属性中寻找、选择最有可能捆绑在一起销售的产品和服务,发现有价值的产品和服务组合,从而有效地向客户提供额外的服务,提高活期收入并提升客户的收益率。

数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势摘要:从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展趋势。 关键词:数据挖掘;挖掘算法;神经网络;决策树;粗糙集;模糊集;研究现状;发展趋势 Abstract:From the definition of data mining,the paper introduced concepts and advantages and disadvantages of neural network algorithm,decision tree algorithm,genetic algorithm,rough set method,fuzzy set method and association rule method of data mining,summarized domestic and international research situation and focus of data mining in details,and pointed out the development trend of data mining. Key words:data mining,algorithm of data mining,neural network,decision tree,rough set,fuzzy set,research situation,development tendency 1引言 随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,迫切需要能自动地、智能地将待处理的数据转化为有价值的信息,从而达到为决策服务的目的。在这种情况下,一个新的技术———数据挖掘(Data Mining,DM)技术应运而生[2]。 数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。 江西理工大学

模式识别与智能系统

模式识别与智能系统 Pattern Recognition & Intelligent System (专业代码:081104) 一、学科概况 本校模式识别与智能系统学科为国务院1993年批准的博士学位授予权学科,2001年经国务院学位委员会批准为国家级重点学科(二级学科);本学科所在的控制科学与工程学科具有一级学科博士学位授予权,同时拥有一级学科博士后流动站。本学科主要从事模式识别与智能系统的理论与应用研究,为本校“211工程”重点建设学科。经过多年的建设,现有博士生导师七名,百余名的博士生研究队伍,和先进的教学与科研硬设备环境。多年来,一批科研成果达到国际与国内先进水平。 二、培养目标 本学科培养的模式识别与智能系统的硕士研究生应具有较宽广的基础理论及较深入的专业知识,能解决国家经济建设与国防中在本领域内的工程技术的应用课题,具有较好的理论联系实际的能力。 三、学制和学分 全日制硕士研究生实行以两年半制为主的弹性学制,原则上不超过5年。 总学分33学分,其中必修课程不少于14学分。

四、硕士课程设置 五、科研能力与水平 1. 掌握本学科的基础理论和专业知识,对所研究的课题有新的见解,取得新的成果。对于学术型学位的硕士研究生,还应熟悉国内外相关的学术研究动态。 2. 工作认真踏实,能独立进行科研工作并圆满完成科研任务。 3. 对于应用型、复合型学位的硕士研究生,能发现实践中与本学科相关的需求,能提出工程解决方案;对于学术型学位的硕士研究生,能提出和界定科学问题。

4. 硕士研究生在校期间应积极发表学术论文,参与学术交流。 六、开题报告 为确保学位论文的质量,指导教师应针对每个硕士研究生的类型和层次,确定选题范围。硕士研究生在导师的指导下,通过阅读文献、收集资料和调查研究后确定研究课题,提交开题报告。开题报告的主要内容包括: (1)课题来源及研究的目的和意义; (2)国内外在该方向的研究现状及分析; (3)主要研究内容; (4)研究方案及进度安排,预期达到的目标; (5)预计研究过程中可能遇到的困难和问题以及解决的措施; (6)主要参考文献。 提交开题报告的时间一般为第四小学期,开题报告字数应在5000字以上。开题报告的评议结果为通过或不通过。硕士研究生学位论文选题、开题的要求详见《南京理工大学硕士学位论文选题、开题及撰写的有关规定 七、学位论文 学位论文工作是研究生培养的重要组成部分,是对研究生进行科学研究或承担专业技术工作的全面训练,是培养研究生创新能力、综合运用所学知识发现问题、分析问题和解决问题能力的重要环节。 硕士学位论文要求概念清楚、立论正确、分析严谨、计算正确、数据可靠、文句简练、图表清晰、层次分明,能体现硕士研究生具有宽广的理论基础,较强的独立工作能力和优良的学风。在阐明论文的目的、意义和成果时,应有实事求是的科学态度。 硕士研究生的论文工作必须在导师指导下,由研究生独立完成。完成后应按照《中华人民共和国学位条理暂行实施办法》和《南京理工大学博士、硕士学位授予细则》的规定,组织论文评审和答辩。获准参加答辩的前提条件是:必须修满规定的学分,外语通过学位英语考试或通过国家英语六级考试,其余学科基础课程成绩不得低于70分并完成教学实践、科研实习。

人工智能的模式识别与机器视觉

人工智能的模式识别与机器视觉 模式识别 “模式”(Panern)一词的本意是括完整天缺的供模仿的标本或标识。模式识别就是识别出给定物体所模仿的标本或标识。计算机模式识别系统使一个计算机系统具有模拟人类通过感官接受外界信息、识别和理解周围环境的感知能力。 模式识别是一个不断发展的学科分支,它的理论基础和研究范围也在不断发展。在二维的文字、图形和图像的识别方而,已取得许多成果。三维景物和活动目标的识别和分析是目前研究的热点。语音的识别和合成技术也有很大的发展。基于人工神经网络的模式识别技术在手写字符的识别、汽车牌照的识别、指纹识别、语音识别等方面已经有许多成功的应用。模式识别技术是智能计算机和智能机器人研究的十分重要的基础 机器视觉 实验表明,人类接受外界信息的80%以上来自视觉,10%左右来自听觉,其余来自嗅觉、味觉及触觉。在机器视觉方面,只要给计算机系统装上电视摄像输入装置就可以“看见”周围的东西。但是,视觉是一种感知,机器视觉的感知过程包含一系列的处理过程,例如,一个可见的景物由传感器编码输入,表示成一个灰度数值矩阵;图像的灰度数值由图像检测器进行处理,检测器检测出图像的主要成分,如组成景物的线段、简单曲线和角度等;这些成分又校处理,以便根据景物的表面特征和形状特征来推断有关景物的特征信息;最终目标是利用某个适当的模型来表示该景物。 视觉感知问题的要点是形成一个精练的表示来取代极其庞大的未经加工的输入情息,把庞大的视觉输人信息转化为一种易于处理和有感知意义的描述。 机器视觉可分为低层视觉和高后视觉两个层次,低层视觉主要是对视觉团像执行预处理,例如,边缘检测、运动目标检测、纹理分析等,另外还有立体造型、曲面色彩等,其目的是使对象凸现出来,这时还谈不上对它的理解。高层视觉主要是理解对象,显然,实现高层视觉需要掌捏与对象相关的知识。 机器视觉的前沿研究课题包括:实时图像的并行处理,实时图像的压缩、传输与复原,三绍景物的建模识别,动态和时变视觉等。 人娄的钉能活动过程主要是一个获得知识并运用知识的过程,知识是智能的基础。为了使计算机具有钉能,能模拟人类的智能行为,就必须使它具有知识。把人类拥有的知识采用适当的模式表示出来以便存储到计算机中,这就是知识表示要解决的问题。知识表示是对知识的一种描述,或者说是一组约定,是一种计算机可以接受的用于描述知识的数据结构,对知识进行表木就是把知识表示咸便于计算机存储和利用的菜种数据结构。知识表示方法给出的知识表示形式称为知识表示程式,知识表示模式分为外部表示模式和内部表示模式两个层次。知识外部表示模式是与软件开发的工具、运行的软件平台无关的知识表示的形式化描述。知

人工智能中的模式识别

人工智能与模式识别 摘要:模式识别(Pattern Recognition)是人类的一项基本智能,着20世纪40年代计算机的出现以及50年代人工智能的兴起,模式识别技术有了长足的发展。模式识别与统计学、心理学、语言学、计算机科学、生物学、控制论等都有关系。它与人工智能、图像处理的研究有交叉关系。模式识别的发展潜力巨大。 关键词:人工智能模式识别模式识别的方法模式识别的应用模式识别的发展潜力 正文: 模式识别的定义是借助计算机,就人类对外部世界某一特定环境中的客体、过程和现象的识别功能(包括视觉、听觉、触觉、判断等)进行自动模拟的科学技术。随着20世纪40年代计算机的出现以及50年代人工智能的兴起,人们当然也希望能用计算机来代替或扩展人类的部分脑力劳动。(计算机)模式识别在20世纪60年代初迅速发展并成为一门新学科。 模式识别(Pattern Recognition)是指对表征事物或现象的各种形式的(数 值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。模式识别又常称作模式分类,从处理问题的性质和解决问题的方法等角度,模式识别分为有监督的分类(Supervised Classification)和无监督的分类(Unsupervised Classification)两种。二者的主要差别在于,各实验样本所属的类别是否预先已知。一般说来,有监督的分类往往需要提供大量已知类别的样本,但在实际问题中,这是存在一定困难的,因此研究无监督的分类就变得十分有必要了。 此外,模式还可分成抽象的和具体的两种形式。前者如意识、思想、议论等,属于概念识别研究的范畴,是人工智能的另一研究分支。我们所指的模式识别主要是对语音波形、地震波、心电图、脑电图、图片、照片、文字、符号、生物传感器等对象的具体模式进行辨识和分类。 模式识别研究主要集中在两方面,一是研究生物体(包括人)是如何感知对象的,属于认识科学的范畴,二是在给定的任务下,如何用计算机实现模式识别的理论和方法。 模式识别与很多学科都有联系,它与统计学、心理学、语言学、计算机科学、生物学、控制论等都有关系。它与人工智能、图像处理的研究有交叉关系。例如自适应或自组织的模式识别系统包含了人工智能的学习机制;人工智能研究的景物理解、自然语言理解也包含模式识别问题。又如模式识别中的预处理和特征抽取环节应用图像处理的技术;图像处理中的图像分析也应用模式识别的技术。 模式识别的方法主要有决策理论方法和句法方法,模式识别方法的选择取决于问题的性质。如果被识别的对象极为复杂,而且包含丰富的结构信息,一般采用句法方法;被识别对象不很复杂或不含明显的结构信息,一般采用决策理论方法。这两种方法不能截然分开,在句法方法中,基元本身就是用决策理论方法抽取的。在应用中,将这两种方法结合起来分别施加于不同的层次,常能收到较好的效果。 模式识别的应用非常广泛,比较典型的有:1 文字识别:在信息技术及计算机技术日益普及的今天,如何将文字方便、快速地输入到计算机中已成为影响人机接口效率的一个重要瓶颈,也关系到计算机能否真正在我过得到普及的应用。

数据挖掘的发展与实施

数据挖掘的发展及实施 郑灵武 (河海大学企业管理学院,江苏常州) 摘要:本文主要论述知识管理工具体系中,数据挖掘的产生、发展、作用和代表 性软件,讲述数据挖掘的实施过程及存在的问题,并给出改进的措施。 关键字:数据挖掘;发展;实施 一、序言 随着科学技术飞速的发展,经济和社会都取得了极大的进步,与此同时,在各个领域产生了大量的数据,如人类对太空的探索,银行每天的巨额交易数据。显然在这些数据中丰富的信息,如何处理这些数据得到有益的信息,人们进行了有益的探索。计算机技术的迅速发展使得处理数据成为可能,这就推动了数据库技术的极大发展,但是面对不断增加如潮水般的数据,人们不再满足于数据库的查询功能,提出了深层次问题:能不能从数据中提取信息或者知识为决策服务。就数据库技术而言已经显得无能为力了,同样,传统的统计技术也面临了极大的挑战。这就急需有新的方法来处理这些海量般的数据。于是,人们结合统计学、数据库、机器学习等技术,提出数据挖掘来解决这一难题。 现如今,数据挖掘已经成为一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。 二、数据挖掘的产生与发展 数据挖掘的出现是一个逐渐演变的过程。电子数据处理的初期,人们试图实现自动决策支持,当时人们关心与研究的焦点主要是机器学习。机器学习的过程是先将已知的并被成功解决的范例输入计算机,然后机器通过学习这些范例总结并生成相应的通用规则,这些规则常被使用来解决某一类问题。随着神经网络技术的形成和发展,人们的注意力开始转向知识工程。知识工程的过程不同于机器学习,而是直接在计算机上输入代码化的规则,计算机通过使用这些规则来解决某些问题。专家系统就是基于这种方法所得到的成果,但它有许多不足,比如投资大、效果不甚理想等。 80年代,在新的神经网络理论的指导下,关注焦点重新回到机器学习,其成果被广泛地应用于处理大型商业数据库。在80年代末,出现了一个新的术语——数据库中的知识发现,简称KDD(Knowledge Discovery in Database),它泛指所有从源数据中发掘模式或联系的方法。KDD描述了整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而数据挖掘(data mining)描述使用挖掘算法进行数据挖掘的子过程。 因为其中的许多工作由统计方法来完成,因此统计方法与数据挖掘的有机结合是最好的策略。数据挖掘技术的形成与数据仓库技术的发展有着密切的关系。数据仓库的发展是促进数据挖掘越来越热的主要原因之一。因为很多数据挖掘可直接从操作数据源中挖掘信息,所以数据仓库并不是数据挖掘的先决条件。

数据挖掘在中国的现状和发展研究.

万方数据 万方数据 万方数据 万方数据 万方数据 Vo.l18.N.o3管理工程学报2004年第3期圈回[l4j网[l6j皿[lsj[l9j厂.Ll周生炳,张钱,成栋.于规则面向属性的数据库归纳的无回基溯算法[7软件学报,9,()63681.1917:7一7.90蒋嵘,李德毅,范建华.数值型

数据的泛概念树的自动生成方法【1计算机学报,0,()4046i.2025:一7.037一」一一尸十勺,1,刁[7软件学报,0,()7574J.2016:一4.013周水庚,周傲类,曹晶.基于数据分区的DSABCN算法【l计J.算机研究与发展,0,0)13192030:一1.07155「一-,,‘ ,郭建生,,赵奕施鹏飞一种有效的用于数据挖掘的动态概念毛国君,椿年.于项目序列集操作的关联规则挖掘算法刘基]i计算机学报,0,()4742I.2224:1一2.05IL尸聚类算法[l软件学报,0,()一9.J.2114:2510258内、内j「一一J魏李,宫学庆,钱卫宁,高维空间中的离群点发现〔l软件等.J.学报,0,32:8一9.221()20200门仁」程岩,黄梯云.粗糙集中定量关联规则的发现及其规则约简的方法研究【〕管理工程学报,0,()7-7J2113:7.053esLF飞)4俞蓓,王军,叶施仁.基于近邻方法的高维数据可视化聚类方苑森森,程晓青,数量关联规则发现中的聚类方法研究【l计i.法〔7计算机研究与发展,0,()747.J.2036:-07120r..L算机学报,0,()87812028:一7.036倪志伟,蔡庆生,方瑾.用神经网络来挖掘数据库中的关联规内、〕‘ 一一J「陈宁,陈安,周龙骥.大规模交易数据库的一种有效聚类算法[7软件学报,0,()4544J.2114:7一8.02L则【l系统仿真学报,0,()65671.2016:-.0288J内几6lesEtM,rSneJAgimadlaosstlsrPtKadrlrhsapcifpieeH,e.tonpitnoaar陆建江.数据库中布尔型及广义模糊型加权关联规则的挖掘dai仁lIicprGoaiDtMngamnZ.vehtferhainatignntaeogpcaindrdKolgDsvr,eroorhiGSTyrdnweeceRscMngpsI,ladioyeahanaonFacs20.一3.rni,112

图像校正与分割处理软件设计与实现模式识别与智能系统方案

图像校正及分割处理软件设计与实现《图像分析与模式识别》课程期末大作业报告 课程名称:图像分析与模式识别

目录 图像校正及分割处理软件设计与实现 (1) 1 软件需求 (1) 1.1 操作界面需求分析 (1) 1.2 图像几何校正需求分析 (1) 1.2 ISODATA聚类算法的图像分割需求分析 (2) 2 算法原理及流程图 (2) 2.1 Hough变换 (2) 2.1.1 Hough变换原理 (2) 2.1.2 图像几何校正流程 (3) 2.2 ISODATA算法原理 (3) 2.2.1 ISODATA算法原理步骤 (3) 2.2.1 ISODATA算法流程图 (5) 3 程序设计框图 (6) 4 实验结果及分析 (7) 4.1 图像几何 (7) 4.1.1 支票图像几何校正结果 (7) 4.1.1 支票图像几何校正结果分析 (8) 4.2 图像分割 (8) 4.2.1图像分割结果 (8) 4.2.1图像分割结果分析 (10) 附录: (11) 附录一:图像几何校正代码 (11) 附录一:ISODATA聚类算法图像分割代码 (11) 附录一:MATLAB的GUI操作界面代码 (17)

图像校正及分割处理软件设计与实现 摘要:设计一种图像几何校正及图像分割处理软件,实现对倾斜支票图像校正为水平,及对已给的图像进行分割。图像几何校正主要通过边缘检测、Hough 变换、求倾斜角、图像旋转等算法实现;图像分割采用ISODATA聚类算法实现。实验结果表明,实现了对倾斜支票图像几何校正和对图像的分割功能。 关键词:边沿检测;Hough变换、图像旋转、ISODATA算法;图像分割; 1 软件需求 需求分析是指对要解决的问题进行详细的分析,弄清楚问题的要求,包括整个系统所要实现的功能。 根据题目,设计需要编写带有操作界面的图像处理软件,功能包含图像几何校和基于ISODATA聚类算法的图像分割。开发工具使用MATLAB。根据MATLAB的特点及需要实现的软件功能,软件需求分析如下: 1.1 操作界面需求分析 软件实现的功能是图像处理,因此操作界面中需要一个按钮,用于选择待处理的图像,称为“图像选择”按钮;选择的原始图像需要在操作界面中显示,因此需要一个用于显示原始图像的坐标控件;由于软件需要实现多功能,需要一个下拉框实现功能的选择;一个开始功能处理的按钮,称为“开始处理”按钮;一个用于显示图像处理结果的坐标控件。最后需要一个退出操作界面的按钮,称为“退出”按钮。 1.2 图像几何校正需求分析 原始图像在拍照时出现了倾斜,需要将图像校正,消除倾斜。通过对图像的观察,图像是一支票,支票上存在表格。因此想法是通过检测支票表格边框线的倾斜角,就是整图像的倾斜程度,然后根据这个倾斜角旋转,便可得到校正的水平图像。要检测支票图像表格边框直线。需要对图像的边缘进行检测,图像的边缘检测方法很多,如:sobel算子边缘检测,prewitt算子边缘检测,roberts 算子边缘检测,log算子边缘检测,canny算子边缘检测等,由于原图的噪声并不是很严重,因此上面这些边缘检测办法都能胜任,这里使用log算子进行边缘检测,为了适应其它边缘检测方法,本设计需要尽量在改变边缘检测方法时尽可能少地修改代码。边缘检测后,采用Hough变换提取直线,然后在提取的直线上找两个点,计算出直线的倾斜角度。最后根据这个倾斜角度对图像进行旋转。

相关文档
相关文档 最新文档