首页 理论教育模式识别的基本概念及特征提取方法

模式识别的基本概念及特征提取方法

【摘要】:模式识别是一门以应用为基础的学科,其目的是利用计算机实现人的类识别能力。进行处理分析前需要对这些连续量进行离散化。,xM中选择N个,使可分性判据J的值满足式(2.2),即:J(x1,x2,…这类方法称为变换法,主要有基于可分性判据的特征提取选择、基于误判概率的特征提取选择、离散K-L变换法及基于决策界的特征选择等。3)指数相似系数。

聚类是对物理的或抽象的样本集合分组的过程。聚类的目标是把一个样本集合分割为子集或簇,使得簇内部的样本之间的相关性比与其他簇中样本之间的相关性更紧密。聚类的方法主要有划分方法、基于密度的方法、基于网格的方法、层次方法等。聚类是无监督的模式识别的主要手段,也是数据准备过程中连续数据离散化的主要方法。

分类是数据挖掘的一项重要任务,其目标是从已知类标号的训练集中学习模型,并用该模型对类标号未知的记录进行分类。针对分类问题,人们开发了很多算法,较经典的有神经网络方法、支持向量机方法、关联规则分类算法、K近邻分类算法、决策树分类算法和贝叶斯分类算法等[25,90]

模式识别的方法在一定程度上可以说是数据挖掘算法的应用或延伸。模式识别是一门以应用为基础的学科,其目的是利用计算机实现人的类识别能力。模式是指具有某种特定性质的观察对象。对象与应用领域有关,它们可以是图像、信号波形或者任何可测量且需要分类的对象[90]。模式类是通过特征来表示的,特征选择的好坏,直接影响分类器的性质。在模式识别系统设计中,特征的确定往往是一个反复的过程,其选择和提取方法对领域知识有较强的依赖性。如果有一个可用的训练数据集,并通过挖掘先验已知信息来设计分类器,则称为有监督模式识别,其方法与数据挖掘的分类异曲同工;如果模式识别没有已知类别标签的训练数据可供使用,则称为无监督的模式识别,聚类方法是其中最典型的方法[90]

1.特征提取与选择

在聚类、分类与模式识别系统中,或者明显地或者隐含地要有特征提取与选择技术环节,通常其处于对象特征数据采集和分类识别两个环节之间,特征提取与选择方法的优劣极大地影响着聚类分类器的设计和性能。由于在很多实际问题中常常不容易找到那些最重要的特征,或受条件限制不能对它们进行测量,这就使特征选择和提取的任务复杂化,成为困难的任务之一。

根据分类对象或目的不同,对象的特征数值化结果有下述3种类型[92]

(1)物理量。直接反映特征的实际物理或几何意义,如重量、速度和长度等。进行处理分析前需要对这些连续量进行离散化。

(2)次序量。特征在数值化时,按某种规则确定特征的等级,次序量只反映次序关系。此已为离散数据,如产品的等级、人的学识、技能的等级、病症的级或期等。

(3)名义量。有些特征本身是非数值的,如男性与女性、事物的状态、种类等,为便于分析而将它们数值化。这些特征的数值指标既无数量含义,也无次序关系,只是用数字代表各种状态。

在特征空间中,如果同类模式相距较近,不同类模式相距较远,分类识别就比较容易正确。因此,在提取实际对象的特征时,要求所提取的特征对不同类的对象差别很大而同类对象差别较小,这将给后继分类识别环节带来很大的方便。但是由于某些原因,提取出的特征不具有这些特性。通常在得到实际对象的若干具体特征之后,再由这些原始特征产生出对分类识别最有效、数目最少的特征,这就是特征提取与选择的任务。在实现上述目标时,往往需要首先制定特征提取与选择的准则,可直接以反映类内与类间距离的函数作为准则,或直接以误判概率最小作为准则,也可以用类别判决函数作为准则,还可以构造与误判概率有关的判据来刻画特征对分类识别的贡献或有效性。在具体实施特征提取与选择时有以下两个基本途径[92]

(1)当实际用于分类识别的特征数目N给定后,直接从已获得的M个特征x1,x2,…,xM中选择N个,使可分性判据J的值满足式(2.2),即:

J(x1,x2,…,xM)=max[J(xi1,xi2,…,xiM)] (2.2)

即寻找M维特征空间中使判据J最大的N维空间。这类方法称为直接选择法,主要有分支定界法。

(2)在使判据J取最大的目标下,对M个原始特征进行变换降维,即对原M维特征空间进行坐标变换,再进行直接选择。这类方法称为变换法,主要有基于可分性判据的特征提取选择、基于误判概率的特征提取选择、离散K-L变换法及基于决策界的特征选择等。

2.相似性测度

聚类、分类与识别均需解决对象或模式间的相似度问题,距离是表征相似性的主要特征。对不同领域对象、不同类型的数据,其间距离的函数不同,一般以两个矢量的函数来表达。设矢量x与y的距离为d(x,y),一般地讲,d(x,y)应满足[92]

(1)d(x,y)≥0,当且仅当y=x时,等号成立。

(2)d(x,y)=d(y,x)。

(3)d(x,y)≤d(x,z)+d(z,y)。

距离函数可以有各种形式,以下列出主要的几种,大部分基于实际的分类方法使用欧几里得距离函数[92]

设,x=(x1,x2,…,xn1,y=(y1,y2,…,yn1,则有:

1)欧几里得距离(Euclidean)。

2)绝对值距离(Manhattan)。

3)切氏距离(Chebyshev)。

4)明氏距离(Minkowski)。

另一类表征距离的测度是以两矢量的方向为基础的。设x=(x1,x2,…,xn1,y=(y1,y2,…,yn1,则[91,92]

1)角度相似系数(夹角余弦)。矢量之间的相似性可用它们的夹角余弦来度量。两个矢量x和y的夹角余弦如式(2.7)。

2)相关系数。它实际上是数据中心化后的矢量夹角余弦。

3)指数相似系数。

式中:为相应分量的方差

从函数构造上看,指数相似系数属于距离方式,但从测度值和相似性关系看,属于方向相似测度。