当前位置：文档视界 › 知识获取——数据离散与特征提取

知识获取——数据离散与特征提取

文本特征提取方法

https://www.docsj.com/doc/4b2170196.html,/u2/80678/showart_1931389.html 一、课题背景概述文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂使学习算法无法处理。在浩如烟海的网络信息中,80%的信息是以文本的形式存放的，WEB文本挖掘是WEB内容挖掘的一种重要形式。文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题，它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息，即对文本进行科学的抽象，建立它的数学模型，用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。为了解决这个问题,最有效的办法就是通过特征选择来降维。目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性:1)特征项要能够确实标识文本内容;2)特征项具有将目标文本与其他文本相区分的能力;3)特征项的个数不能太多;4)特征项分离要比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言，词比字具有更强的表达能力，而词和短语相比，词的切分难度比短语的切分难度小得多。因此，目前大多数中文文本分类系统都采用词作为特征项，称作特征词。这些特征词作为文档的中间表示形式，用来实现文档与文档、文档与用户目标之间的相似度计算。如果把所有的词都作为特征项，那么特征向量的维数将过于巨大，从而导致计算量太大，在这样的情况下，要完成文本分类几乎是不可能的。特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数，以此来降低向量空间维数，从而简化计算，提高文本处理的速度和效率。文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。通常根据某个特征评估函数计算各个特征的评分值，然后按评分值对这些特征进行排序，选取若干个评分值最高的作为特征词，这就是特征抽取(Feature Selection)。

特征提取方法

4.2.2 特征提取方法图像经过一系列的预处理之后，原来大小不同、分布不规则的各个字符变成了一个个大小相同、排列整齐的字符。下面接要从被分割归一处理完毕的字符中，提取最能体现这个字符特点的特征向量。将提取出训练样本中的特征向量代入BP网络之中就可以对网络进行训练，提取出待识别的样本中的特征向量代入到训练好的BP网络中，就可以对汉字进行识别。特征向量的提取方法多种多样，可以分为基于结构特征的方法和基于像素分布特征的方法，下面给予简单介绍，并说明本文所用的方法。（1）结构特征。结构特征充分利用了字符本身的特点，由于车牌字符通常都是较规范的印刷体，因此可以较容易地从字符图像上得到它的字符笔画信息，并可根据这些信息来判别字符。例如，汉字的笔画可以简化为4类：横、竖、左斜和右斜。根据长度不同又可分为长横、短横、长竖和短竖等。将汉字分块，并提取每一块的笔画特征，就可得到一个关于笔画的矩阵，以此作为特征来识别汉字。（2）像素分布特征。像素分布特征的提取方法很多，常见的有水平、垂直投影的特征，微结构特征和周边特征等。水平、垂直投影的特征是计算字符图像在水平和垂直方向上像素值的多少，以此作为特征。微结构法将图像分为几个小块，统计每个小块的像素分布。周边特征则计算从边界到字符的距离。优点是排除了尺寸、方向变化带来的干扰，缺点是当字符出现笔划融合、断裂、部分缺失时不适用。 ①逐像素特征提取法这是一种最简单的特征提取方法。它可以对图像进行逐行逐列的扫描，当遇到黑色像素时取其特征值为1，遇到白色像素时取其特征值为0，这样当扫描结束后就获得一个维数与图像中的像素点的个数相同的特征向量矩阵。这种特征提取方法的特点就是算法简单，运算速度快，可以使BP网络很快的收敛，训练效果好，更重要的是对于数字图像这样特征较少的图像，这种方法提取的信息量最大，所以对于本系统来说，这种方法较为适用。但是它的缺点也很明显，就是适应性不强，所以本文没有选用这种方法。 ②骨架特征提取法

图像特征提取方法

图像特征提取方法摘要特征提取是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息，决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集，这些子集往往属于孤立的点、连续的曲线或者连续的区域。至今为止特征没有万能和精确的图像特征定义。特征的精确定义往往由问题或者应用类型决定。特征是一个数字图像中“有趣”的部分，它是许多计算机图像分析算法的起点。因此一个算法是否成功往往由它使用和定义的特征决定。因此特征提取最重要的一个特性是“可重复性”：同一场景的不同图像所提取的特征应该是相同的。特征提取是图象处理中的一个初级运算，也就是说它是对一个图像进行的第一个运算处理。它检查每个像素来确定该像素是否代表一个特征。假如它是一个更大的算法的一部分，那么这个算法一般只检查图像的特征区域。作为特征提取的一个前提运算，输入图像一般通过高斯模糊核在尺度空间中被平滑。此后通过局部导数运算来计算图像的一个或多个特征。常用的图像特征有颜色特征、纹理特征、形状特征、空间关系特征。当光差图像时，常常看到的是连续的纹理与灰度级相似的区域，他们相结合形成物体。但如果物体的尺寸很小或者对比度不高，通常要采用较高的分辨率观察：如果物体的尺寸很大或对比度很强，只需要降低分辨率。如果物体尺寸有大有小，或对比有强有弱的情况下同事存在，这时提取图像的特征对进行图像研究有优势。常用的特征提取方法有：Fourier变换法、窗口Fourier变换（Gabor)、小波变换法、最小二乘法、边界方向直方图法、基于Tamura纹理特征的纹理特征提取等。

设计内容课程设计的内容与要求（包括原始数据、技术参数、条件、设计要求等）：一、课程设计的内容本设计采用边界方向直方图法、基于PCA的图像数据特征提取、基于Tamura纹理特征的纹理特征提取、颜色直方图提取颜色特征等等四种方法设计。（1）边界方向直方图法由于单一特征不足以准确地描述图像特征,提出了一种结合颜色特征和边界方向特征的图像检索方法.针对传统颜色直方图中图像对所有像素具有相同重要性的问题进行了改进,提出了像素加权的改进颜色直方图方法;然后采用非分割图像的边界方向直方图方法提取图像的形状特征,该方法相对分割方法具有简单、有效等特点,并对图像的缩放、旋转以及视角具有不变性.为进一步提高图像检索的质量引入相关反馈机制,动态调整两幅图像相似度中颜色特征和方向特征的权值系数,并给出了相应的权值调整算法.实验结果表明,上述方法明显地优于其它方法.小波理论和几个其他课题相关。所有小波变换可以视为时域频域的形式，所以和调和分析相关。所有实际有用的离散小波变换使用包含有限脉冲响应滤波器的滤波器段(filterbank)。构成CWT的小波受海森堡的测不准原理制约，或者说，离散小波基可以在测不准原理的其他形式的上下文中考虑。通过边缘检测，把图像分为边缘区域和非边缘区域，然后在边缘区域内进行边缘定位．根据局部区域内边缘的直线特性，求得小邻域内直线段的高精度位置；再根据边缘区域内边缘的全局直线特性，用线段的中点来拟合整个直线边缘，得到亚像素精度的图像边缘．在拟合的过程中，根据直线段转角的变化剔除了噪声点，提高了定位精度．并且，根据角度和距离区分出不同直线和它们的交点，给出了图像精确的矢量化结果图像的边界是指其周围像素灰度有阶跃变化或屋顶变化的那些像素的集合，边界广泛的存在于物体和背景之间、物体和物体之间，它是图像分割所依赖的重要特征．边界方向直方图具有尺度不变性，能够比较好的描述图像的大体形状．边界直方图一般是通过边界算子提取边界，得到边界信息后，需要表征这些图像的边界，对于每一个边界点，根据图像中该点的梯度方向计算出该边界点处法向量的方向角，将空间量化为M级，计算每个边界点处法向量的方向角落在M级中的频率，这样便得到了边界方向直方图．图像中像素的梯度向量可以表示为[ ( ，)，)，( ，)，)] ，其中Gx( ，)，)，G ( ，)，)可以用下面的

肺结节检测中特征提取方法研究

小型微型计算机系统ＪｏｕｒｎａｌｏｆＣｈｉｎｅｓｅＣｏｍｐｕｔｅｒＳｙｓｔｅｍｓ２００９年１０月第１０期Ｖ０１．３０Ｎｏ．１０２００９肺结节检测中特征提取方法研究何中市１，梁琰１，黄学全２，王健２１（重庆大学计算机学院，重庆４０００４４）２（第三军医大学西南医院放射科，重庆４０００３８）Ｅ—ｍａｉｌ：ｚｓｈｅ＠ｃｑｕ．ｅｄｕ．ｃａ摘要：计算机辅助诊断（Ｃｏｍｐｕｔｅｒ—ＡｉｄｅｄＤｉａｇｎｏｓｉｓ，ＣＡＤ）系统为肺癌的早期检测和诊断提供了有力的支持．本文对孤立性肺结节特征提取问题进行研究．通过对肺结节和肺内各组织在序列ＣＴ图像上的医学征象分析和研究对比，结合专家提供的知识，提出了肺结节特征提取总体方案．该方案分别从肺部ＣＴ图像的灰度特征、肺结节形态、纹理、空间上下文特征等几个方面，对关键的医学征象进行图像分析，从而实现对ＲＯＩ（ＲｅｇｉｏｎｓｏｆＩｎｔｅｒｅｓｔ）区域的特征提取和量化；提出特征提取的评价方案，实验结果表明，本文提取的特征提取方案是有效的．利用本文提取的特征，肺结节检测正确率达到９３．０５％，敏感率为９４．５３％．关键词：孤立性；肺结节；特征提取；ＣＴ图像；特征评价中图分类号：ＴＰ３９１文献标识码：Ａ文章编号：１０００—１２２０（２００９）１０—２０７３－０５ＲｅｓｅａｒｃｈｏｎｔｈｅＦｅａｔｕｒｅＥｘｔｒａｃｔｉｏｎＡｐｐｒｏａｃｈｆｏｒＳＰＮｓＤｅｔｅｃｔｉｏｎ腼Ｚｈｏｎｇ—ｓｈｉｌ，ＬＩＡＮＧＹａｎｌ，ＨＵＡＮＧＸｕｅ—ｑｕａｎ２，ＷＡＮＧＪｉａｎ２１（ＣｏｌｌｅｇｅｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ｃ‰增幻增Ｕｎｉｖｅｒｓ毋，Ｃｈｏｎｇｑｉｎｇ４０００４４，Ｃｈｉｎａ）２（ＤｅｐａｒｔｍｅｎｔｏｆＲａｄｉｏｌｏｇｙ，Ｓｏｕｔｈｗｅｓｔ丑却池ｚ，ＴｈｉｒｄＭｉｌｉｔａｒｙＭｅｄｗａｌＵｎｉｖｅｒｓｉｔｙｏｆＣｈｉｎｅｓｅＰＬ４，Ｃｈｏｎｇｑｉｎｇ４０００３８，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｉｍａｇｅｐｒｏｃｅｓｓｉｎｇｔｅｃｈｎｉｑｕｅｓｈａｖｅｐｒｏｖｅｄｔｏｂｅｅｆｆｅｃｔｉｖｅｆｏｒｉｍｐｒｏｖｅｍｅｎｔｏｆｒａｄｉｏｌｏｇｉｓｔｓ７ｄｉａｇｎｏｓｉｓｏｆｐｕｂｍｏｎａｒｙｎｏｄｕｌｅｓ．Ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｐｒｅｓｅｎｔａｓｔｒａｔｅｇｙｂａｓｅｄｏｎｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎｔｅｃｈｎｉｑｕｅａｉｍｅｄａｔＳｏｌｉｔａｒｙＰｕｌｍｏｎａｒｙＮｏｄｕｌｅｓ（ＳＰＮ）ｄｅｔｅｃｔｉｏｎ．Ｉｎｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎｓｃｈｅｍｅ，３６ｆｅａｔｕｒｅｓｗｅｒｅｏｂｔａｉｎｅｄ，ｃｏｎｔａｉｎｅｄ３ｇｒｅｙｌｅｖｅｌｆｅａｔｕｒｅｓ，１６ｍｏｒｐｈｏｌｏｇｉｃａｌｆｅａｔｕｒｅｓ，１０ｔｅｘｔｕｒｅｆｅａｔｕｒｅｓａｎｄ７ｓｐａｔｉａｌｃｏｎｔｅｘｔｆｅａｔｕｒｅｓ．Ａｎｄｔｈｅｃｌａｓｓｉｆｉｅｒ（ＳＶＭ）ｒｕｎｎｉｎｇｗｉｔｈｔｈｅｅｘｔｒａｃｔｅｄｆｅａｔｕｒｅｓａｃｈｉｅｖｅｓｃｏｍｐａｒａｔｉｖｅｒｅｓｕｌｔｓ，ｗｉｔｈａｒｅ－ｓｕｉｔｏｆ９３．０５％ｉｎｎｏｄｕｌｅｄｅｔｅｃｔｉｏｎａｃｃｕｒａｃｙａｎｄ９４．５３％ｉｎｓｅｎｓｉｔｉｖｉｔｙ．Ｋｅｙｗｏｒｄｓ：ｉｓｏｌａｔｅｄ；ｓｏｌｉｔａｒｙｐｕｌｍｏｎａｒｙｎｏｄｕｌｅｓ；ｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎ；ＣＴｉｍａｇｅｓ；ｆｅａｔｕｒｅａｓｓｅｓｓｍｅｎｔ１引言近几年，随着影像检查技术的改进，临床结果初步证明ＣＴ扫描是检测早期无症状肺癌最有效的影像学方法。１Ｊ．肺部疾病在ＣＴ影像上通常表现为孤立性肺结节（ＳｏｌｉｔａｒｙＰｕｌ—ｍｏｎａｒｙＮｏｄｕｌｅｓ，ＳＰＮｓ），因此，对孤立性肺结节的检测和识别是对肺部疾病诊断最重要的途径．计算机辅助诊断系统一方面，大大减轻了医生的工作量，提高了工作效率；另一方面，使影像诊断更加客观化，提高诊断的效率和正确效率．因此，用计算机进行肺结节辅助诊断，提取肺结节特征，检测肺结节，是具有十分重要的意义和研究价值的．在孤立性肺结节自动识别中，肺结节的特征提取及表示是其关键问题之一，它是进行识别的重要手段．关于肺结节检测方法有很多。２…，但对肺结节医学征象描述并不充分．目前一般常用面积、周长等形态方面进行肺结节特征提取．对肺结节的形态、全局、局部上下文特征以及病理征象的分析不足，使得特征提取描述不到位，影响识别准备率．同时也欠缺对识别结果的解释．正因为对提取的特征与肺结节医学征象问的对应关系分析不足，无法对识别结果进行医学知识上的解释，特征提取特征评价懂歪母Ｉ里斗１显查鲎堑卜＿倒１Ｊ躺ｌ帽霭瓣｜｜描述程度ｌ１絮嚣卜ｌＪｓ、，Ｍ识－－｜别性能图１ＳＰＮｓ诊断框架图Ｆｉｇ．１ＯｖｅｒｖｉｅｗｏｆＳＰＮｓｄｅｔｅｃｔｉｏｎ而只有”是”或”否”的识别结果，无法给医生提供更多的信息．本文围绕以上几个问题，意在提供全面的、系统的量化信息，便于医学专家诊断的客观化、效率化．本文对孤立性肺结节特征提取问题进行研究．通过对肺结节和肺内各组织在序列ＣＴ图像上的医学征象分析和研究对比，提出了肺结节特征提取总体方案．该方案分别从肺部ＣＴ图像的灰度特征、形收稿日期：２００８－０８－３０基金项目：重庆市重大科技专项项目（ＣＳＴＣ，２００８ＡＢ５０３８）资助；重庆市自然科学基金项目（ＣＳＴＣ，２００７ＢＢ２１３４））资助．作者简介：何中市，男，１９６５年生，博士，教授，研究方向为人工智能、机器学习与数据挖掘等；梁琰，女，１９８２年生，博士研究生，图像处理、模式识别；黄学金，男，１９６６年生，博士，副教授，研究方向为影像诊断和介入放射学；王健，男，１９６４年生，博士，教授，研究方向为影像诊断和介入放射学．

文本特征提取方法研究

文本特征提取方法研究 ______________________________________________________ 一、课题背景概述文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂使学习算法无法处理。在浩如烟海的网络信息中,80%的信息是以文本的形式存放的，WEB文本挖掘是WEB内容挖掘的一种重要形式。文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题，它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息，即对文本进行科学的抽象，建立它的数学模型，用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。为了解决这个问题,最有效的办法就是通过特征选择来降维。目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性:1)特征项要能够确实标识文本内容;2)特征项具有将目标文本与其他文本相区分的能力;3)特征项的个数不能太多;4)特征项分离要比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言，词比字具有更强的表达能力，而词和短语相比，词的切分难度比短语的切分难度小得多。因此，目前大多数中文文本分类系统都采用词作为特征项，称作特征词。这些特征词作为文档的中间表示形式，用来实现文档与文档、文档与用户目标之间的相似度计算。如果把所有的词都作为特征项，那么特征向量的维数将过于巨大，从而导致计算量太大，在这样的情况下，要完成文本分类几乎是不可能的。特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数，以此来降低向量空间维数，从而简化计算，提高文本处理的速度和效率。文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。通常根据某个特征评估函数计算各个特征的评分值，然后按评分值对这些特征进行排序，选取若干个评分

数据挖掘中特征提取的分析与应用

摘要:数据挖掘中需要对数据进行各种分析，在一切分析前需要做好数据预处理。然而经过数据清理、数据集成、数据变换后，数据集仍然会非常大！在海量的数据上直接进行复杂的数据分析与挖掘将需要很长时间，使得这种分析不现实或不可行。数据归约技术可以用来得到数据集的归约表示，它小得多，但仍接近于保持原数据的完整性。这样，在归约后的数据集上挖掘将更有效，并产生相同或几乎相同的分析结果。通过这种方法从大量特征中提取出最具有代表性的特征根据需要分析有用的信息。随着社会的发展，传统的基于信物或口令的安全系统显得越来越脆弱，不能够满足现代安全系统的需要。基于特征提取的指纹识别随之产生，在众多的指纹属性中提取端点和分叉点两大明显特征，进行数据挖掘与分析。关键词:数据挖掘；数据预处理；数据归约；维归约；特征提取；指纹识别前言:数据挖掘中需要对数据进行各种分析，在一切分析前需要做好数据预处理。然而经过数据清理、数据集成、数据变换处理后，数据集仍然会非常大！在海量的数据上直接进行复杂的数据分析与挖掘将需要很长时间，使得这种分析不现实或不可行。此时数据归约技术显得尤为重要，通过数据归约技术的数据立方体聚集、维归约、数据压缩、数值压缩、离散化和概念分层产生策略将数据集归约表示，保持原数据的完整性。这样，在归约后的数据集上挖掘将更有效，并产生相同或几乎相同的分析结果。通过这种方法从大量特征中提取出最具有代表性的特征根据需要分析有用的信息。数据挖掘中的特征提取被广泛应用，其中指纹识别则是最典型的应用。正文：数据挖掘中的特征提取的分析与应用经过数据清理、数据集成、数据变换预处理后，数据量仍然会很大，直接进行分析，肯定会降低挖掘过程的速度和效率。而通过数据归约的数据立方体聚集、维归约、数据压缩、数值压缩等策略可以‘压缩’数据集，而又不损害数据挖掘的结果。简而言之，数据归约是通过聚集、删除冗余特性或聚类的方法来压缩数据。数据立方体聚集是作用于数据立方体中的数据；维归约可以检测并删除不相关、弱相关或冗余的属性或维；数据压缩使用编码机制压缩数据集；数值压缩用替代的、较小的数据表示替换或估计数据。本文就维归约的特征提取进行详尽的分析与应用说明，首先介绍维归约的概念。一、维归约用于数据分析的数据可能包含数以百计的属性，其中大部分属性与挖掘任务不相关，是冗余的。尽管领域专家可以挑选出有用的属性，但这可能是一项困难而费时的任务，特别是当数据的行为不清楚的时候更是如此。遗漏相关属性或留

数据挖掘中用于分类的时序数据特征提取方法

计算机系统应用 https://www.docsj.com/doc/4b2170196.html, 2012 年第21卷第 10 期 224 专论 ·综述Special Issue ① 林珠1, 邢延2 1(广东省计算中心, 广州 510033) 2 (广东工业大学自动化学院, 广州 510006) 摘要: 特征提取在提高分类的准确性中起着非常关键的作用. 对时序特征提取的方法进行归纳分类, 将有利于对特征提取整体性, 全面性的认识. 回顾现有的时间序列中特征提取的方法, 将其总结为四大类, 它们分别是基于基本统计方法的特征提取、基于模型的特征提取、基于变换的特征提取、基于分形维数的特征提取. 针对每一类的特征提取方法, 进一步研究了它相应的分类方法和它在时间序列数据中的应用邻域. 关键词: 时序数据; 分类; 特征提取 Survey of Feature Extraction Approaches for Time Series Classification LIN Zhu 1, XING Yan 2 1(Guangdong Computer Center, Guangzhou 510033, China) 2 (Guangdong University of Technology, Guangzhou 510006, China) Abstract : The main contributions of this paper are: 1) The main feature extraction approaches are classified into four categories; 2) The main idea of each category is analyzed, the advantages and disadvantages are pointed out; 3) The guidelines of choosing suitable feature extraction approach is suggested. Key words : time series; classification; feature extraction 1 引言时序数据(time series data)广泛存在于现实生活中,是指同一种现象在不同时间上的相继观察值排列而成的一组数字序列, 其时间轴上的采样值通常又被称为特征[1]. 时序数据普遍存在于许多重要应用邻域, 比如DNA 序列、金融数据、传感器网络监控数据、移动对像跟踪数据、机器故障检测数据等等. 由于时序数据与时间相关联, 因而其数据量一般都是非常庞大的, 这就对时序数据挖掘技术提出了更高的要求[2]. 在时序数据挖掘的研究与应用领域, 时序数据分类是重要任务之一[1,2]. 例如, 依据语音信号的波形识别出说话人的性别和年龄, 依据心电图的时序波形识别出病者所患的病症, 依据地震波的历史数据, 去识别地震的类型, 依据在机器运转过程中进行故障检测和识别故障类型, 甚至在客户关系管理中根据某段时间的客户购买信息, 识别不同的消费群体等等. 衡量分类技术优劣的核心指标是分类准确率, 而提高分类准确率途径有两种: 一是改进分类器; 二是采用特征提取技术(feature extraction). 特征提取是在分类前对数据时间采样值上进行适量的归约, 以达到减少数据量同时提高分类准确率(底线是不牺牲分类准确率)的目的. 时间序列除了具有的趋势性、季节性、周期性等一般特征之外, 不同的时序数据又存在不同的个别特征. 如金融数据, 普遍具有“高峰厚尾”和“平方序列微弱而持续的自相关”的特点; 而地震波则具有强度随时序延伸而减弱的特点; 语音信号幅度具有一定的范围, 并以零幅和近零幅的概率高, 而且长时间的语音信号会有相当多的无信号区间, 即所谓的语音寂静区间; 心电信号则具有很强的周期性, 它的主要特征是 ① 基金项目:广东省科技计划项目基金(2011B060500049, 2010B090400545, 2010A040300006) 收稿时间:2012-02-06;收到修改稿时间:2012-03-04

图像特征特点及常用的特征提取与匹配方法

图像特征特点及常用的特征提取与匹配方法常用的图像特征有颜色特征、纹理特征、形状特征、空间关系特征。一颜色特征（一）特点：颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质。一般颜色特征是基于像素点的特征，此时所有属于图像或图像区域的像素都有各自的贡献。由于颜色对图像或图像区域的方向、大小等变化不敏感，所以颜色特征不能很好地捕捉图像中对象的局部特征。另外，仅使用颜色特征查询时，如果数据库很大，常会将许多不需要的图像也检索出来。颜色直方图是最常用的表达颜色特征的方法，其优点是不受图像旋转和平移变化的影响，进一步借助归一化还可不受图像尺度变化的影响，基缺点是没有表达出颜色空间分布的信息。（二）常用的特征提取与匹配方法（1）颜色直方图其优点在于：它能简单描述一幅图像中颜色的全局分布，即不同色彩在整幅图像中所占的比例，特别适用于描述那些难以自动分割的图像和不需要考虑物体空间位置的图像。其缺点在于：它无法描述图像中颜色的局部分布及每种色彩所处的空间位置，即无法描述图像中的某一具体的对象或物体。最常用的颜色空间：RGB颜色空间、HSV颜色空间。颜色直方图特征匹配方法：直方图相交法、距离法、中心距法、参考颜色表法、累加颜色直方图法。（2）颜色集颜色直方图法是一种全局颜色特征提取与匹配方法，无法区分局部颜色信息。颜色集是对颜色直方图的一种近似首先将图像从RGB颜色空间转化成视觉均衡的颜色空间（如HSV 空间），并将颜色空间量化成若干个柄。然后，用色彩自动分割技术将图像分为若干区域，每个区域用量化颜色空间的某个颜色分量来索引，从而将图像表达为一个二进制的颜色索引集。在图像匹配中，比较不同图像颜色集之间的距离和色彩区域的空间关系（3）颜色矩