图像特征的提取和选择是图像处理过程中很重要的环节,对后续图像分类有着重要的影响,并且具有样本少、维数高的特点。特征提取与特征选择就是最有效的降维方法,其目的是得到一个反映数据本质结构、识别率更高的特征子空间。上述特征提取方法是图像特征的初步获取,其各有利弊。针对不同的实际问题,可选择适当的图像特征提取方法。......
2023-11-08
聚类是对物理的或抽象的样本集合分组的过程。聚类的目标是把一个样本集合分割为子集或簇,使得簇内部的样本之间的相关性比与其他簇中样本之间的相关性更紧密。聚类的方法主要有划分方法、基于密度的方法、基于网格的方法、层次方法等。聚类是无监督的模式识别的主要手段,也是数据准备过程中连续数据离散化的主要方法。
分类是数据挖掘的一项重要任务,其目标是从已知类标号的训练集中学习模型,并用该模型对类标号未知的记录进行分类。针对分类问题,人们开发了很多算法,较经典的有神经网络方法、支持向量机方法、关联规则分类算法、K近邻分类算法、决策树分类算法和贝叶斯分类算法等[25,90]。
模式识别的方法在一定程度上可以说是数据挖掘算法的应用或延伸。模式识别是一门以应用为基础的学科,其目的是利用计算机实现人的类识别能力。模式是指具有某种特定性质的观察对象。对象与应用领域有关,它们可以是图像、信号波形或者任何可测量且需要分类的对象[90]。模式类是通过特征来表示的,特征选择的好坏,直接影响分类器的性质。在模式识别系统设计中,特征的确定往往是一个反复的过程,其选择和提取方法对领域知识有较强的依赖性。如果有一个可用的训练数据集,并通过挖掘先验已知信息来设计分类器,则称为有监督模式识别,其方法与数据挖掘的分类异曲同工;如果模式识别没有已知类别标签的训练数据可供使用,则称为无监督的模式识别,聚类方法是其中最典型的方法[90]。
1.特征提取与选择
在聚类、分类与模式识别系统中,或者明显地或者隐含地要有特征提取与选择技术环节,通常其处于对象特征数据采集和分类识别两个环节之间,特征提取与选择方法的优劣极大地影响着聚类分类器的设计和性能。由于在很多实际问题中常常不容易找到那些最重要的特征,或受条件限制不能对它们进行测量,这就使特征选择和提取的任务复杂化,成为困难的任务之一。
根据分类对象或目的不同,对象的特征数值化结果有下述3种类型[92]:
(1)物理量。直接反映特征的实际物理或几何意义,如重量、速度和长度等。进行处理分析前需要对这些连续量进行离散化。
(2)次序量。特征在数值化时,按某种规则确定特征的等级,次序量只反映次序关系。此已为离散数据,如产品的等级、人的学识、技能的等级、病症的级或期等。
(3)名义量。有些特征本身是非数值的,如男性与女性、事物的状态、种类等,为便于分析而将它们数值化。这些特征的数值指标既无数量含义,也无次序关系,只是用数字代表各种状态。
在特征空间中,如果同类模式相距较近,不同类模式相距较远,分类识别就比较容易正确。因此,在提取实际对象的特征时,要求所提取的特征对不同类的对象差别很大而同类对象差别较小,这将给后继分类识别环节带来很大的方便。但是由于某些原因,提取出的特征不具有这些特性。通常在得到实际对象的若干具体特征之后,再由这些原始特征产生出对分类识别最有效、数目最少的特征,这就是特征提取与选择的任务。在实现上述目标时,往往需要首先制定特征提取与选择的准则,可直接以反映类内与类间距离的函数作为准则,或直接以误判概率最小作为准则,也可以用类别判决函数作为准则,还可以构造与误判概率有关的判据来刻画特征对分类识别的贡献或有效性。在具体实施特征提取与选择时有以下两个基本途径[92]:
(1)当实际用于分类识别的特征数目N给定后,直接从已获得的M个特征x1,x2,…,xM中选择N个,使可分性判据J的值满足式(2.2),即:
J(x1,x2,…,xM)=max[J(xi1,xi2,…,xiM)] (2.2)
即寻找M维特征空间中使判据J最大的N维空间。这类方法称为直接选择法,主要有分支定界法。
(2)在使判据J取最大的目标下,对M个原始特征进行变换降维,即对原M维特征空间进行坐标变换,再进行直接选择。这类方法称为变换法,主要有基于可分性判据的特征提取选择、基于误判概率的特征提取选择、离散K-L变换法及基于决策界的特征选择等。
2.相似性测度
聚类、分类与识别均需解决对象或模式间的相似度问题,距离是表征相似性的主要特征。对不同领域对象、不同类型的数据,其间距离的函数不同,一般以两个矢量的函数来表达。设矢量x与y的距离为d(x,y),一般地讲,d(x,y)应满足[92]:
(1)d(x,y)≥0,当且仅当y=x时,等号成立。
(2)d(x,y)=d(y,x)。
(3)d(x,y)≤d(x,z)+d(z,y)。
距离函数可以有各种形式,以下列出主要的几种,大部分基于实际的分类方法使用欧几里得距离函数[92]。
设,x=(x1,x2,…,xn)1,y=(y1,y2,…,yn)1,则有:
1)欧几里得距离(Euclidean)。
2)绝对值距离(Manhattan)。
3)切氏距离(Chebyshev)。
4)明氏距离(Minkowski)。
另一类表征距离的测度是以两矢量的方向为基础的。设x=(x1,x2,…,xn)1,y=(y1,y2,…,yn)1,则[91,92]:
1)角度相似系数(夹角余弦)。矢量之间的相似性可用它们的夹角余弦来度量。两个矢量x和y的夹角余弦如式(2.7)。
2)相关系数。它实际上是数据中心化后的矢量夹角余弦。
3)指数相似系数。
式中:为相应分量的方差。
从函数构造上看,指数相似系数属于距离方式,但从测度值和相似性关系看,属于方向相似测度。
有关数据挖掘算法及在视频分析中的应用的文章
图像特征的提取和选择是图像处理过程中很重要的环节,对后续图像分类有着重要的影响,并且具有样本少、维数高的特点。特征提取与特征选择就是最有效的降维方法,其目的是得到一个反映数据本质结构、识别率更高的特征子空间。上述特征提取方法是图像特征的初步获取,其各有利弊。针对不同的实际问题,可选择适当的图像特征提取方法。......
2023-11-08
基于这些特性,它们是高度显著而且相对容易撷取,在母数庞大的特征数据库中,很容易辨识物体而且鲜有误认。SIFT特征的信息量大,适合在海量数据库中快速准确匹配。SIFT算法的实质是在不同的尺度空间上查找关键点(特征点),并计算出关键点的方向。假设我们得到的2维数据如下:行代表样例,列代表特征,这里有10个样例,每个样例2个特征。这里特征值只有两个,我们选择其中最大的那个,是1.28402771,对应的特征向量是T。......
2023-06-28
由于本书第2章至第4章已经提出了三种灰度纹理图像的特征提取方法,并且HSV颜色空间中的亮度分量V就是灰度纹理图像,可将本书第2章至第4章提出的灰度纹理图像特征提取方法直接应用于HSV颜色空间中的V分量,从而实现灰度纹理特征的提取。......
2023-06-29
针对常见特征选择方法的不直接性,我们将子集评价函数直接选为分类器的识别率,提出一种基于模拟退火算法与最近邻分类器识别率的特征选择方法。因此,我们最终选用最近邻分类器识别率作为评价准则。模拟退火算法中最常用的是2变换法和3 变换法,这两种方法有着各自独特的优越性,我们将这两种方法随机交替使用获得了较好的效果。......
2023-11-19
所以,迄今为止关于木材表面纹理表达与分析的研究,基本上仍停留在定性描述为主,局部定量为辅的阶段。日本的仲村匡司采用计算机图形处理模拟制作了各种木材径切面纹理模型图片,并调查分析了“自然感”心理量与其他心理量以及纹理图形数字化参数之间的关系。其结果表明,“自然感”与“木纹相象感”和“喜好感”相关程度很高,可认为加强自然感是提高木纹仿制品视觉特性的有效途径之一。......
2023-11-19
有机化合物都是碳的化合物,简称有机物。烃可以看作一切有机物的母体,其他有机物都能看作烃的衍生物。有机物分子里的某些原子或原子团,被其他原子或原子团替代的反应,称为取代反应。......
2023-08-11
空间信息网络是以空间平台为载体,实时获取、传输和处理空间信息的网络系统,其基本构成如图1-1所示。其节点包含各种卫星、空间站、升空平台、有人或无人机,这些平台节点在业务性质、应用特点、工作环境、技术体制等方面均有差异,由此构建的网络具有网络异构和业务异质的典型特征。图1-1空间信息网络架构图1-2空间信息网络的特点......
2023-07-02
如第2章2.3.3节所述,面矩作为一种全局信息,已经广泛用于完全分割后的目标识别,其具有前面所述的整体特征的优缺点。当对边缘曲线进行尺度变化时,尺度的变化导致曲线长度的变化,相应的变化因子是k。此时尺度变化后的中心矩成为μ′pq=μpq×kp+q+1。为此,对7个不变矩进行如下修正,以调整其取值范围:式中所进行的修正变换应综合考虑不变矩特征的大小及后续识别的结构特点。......
2023-06-28
相关推荐