首页 理论教育基于密度的局部特定数据挖掘:概念与应用

基于密度的局部特定数据挖掘:概念与应用

【摘要】:基于密度的局部特异数据挖掘方法的文献一般基于两个基本概念:k-distance和DB-outlier。显然,k-distance越大,p点附近的点密度越低,p的特异程度越高。从而确定了这类方法与统计方法的一致性。正态分布的特异定义DefNormal:p是特异的,当且仅当,此定义将正态分布中与均值距离不小于3的对象称为是特异的。说明了当参数μ=3时,泊松分布的特异数据界定。泊松分布的特异数据定义DefPoisson为:p是特异的,当且仅当,p≥8。

文献[106]研究的是基于密度的局部特异数据挖掘的方法和理论。基于密度的局部特异数据挖掘方法的文献一般基于两个基本概念:k-distance和DB(pct,dmin)-outlier。对于给定的数据集D,|D|表示其中点(或对象、或记录)的个数。o、p、q表示其中的点,d(p,o)表示p和o的距离。下面的[定义2.7]和[定义2.8]来源于文献[106]。

【定义2.7】[k-distance(p)]对于给定的正整数k,k-distance(p)用点p和o的距离d(p,o)来定义,并且有:

1)在D中至少有k个点o′,o′∈D并且o′≠p,满足d(o′,p)≤d(o,p)。

2)在D中至多有k-1个点o′,o′∈D并且o′≠p,满足d(o′,p)<d(o,p)。

显然,k-distance(p)越大,p点附近的点密度越低,p的特异程度越高。

【定义2.8】[DB(pct,dmin)-outlier]称一个点p是DB(pct,dmin)-outlier,如果在D中至少有百分之pct的点与p之间的距离大于指定的最小距离dmin。也就是集合{q∈D|d(p,q)≤dmin}的势≤(100-pct)/100×|D|。

例如:对给定的D,设定pct=98.5,dmin=10。如果存在点p,使得D中至少98.5%的点与p的距离大于10,那么称p是DB(98.5,10)-outlier。从另一个角度讲,如果p是DB(98.5,10)-outlier,那么D中至多有1.5%的点与p的距离≤10。

由定义可知,可以通过k-distance(p)来确定DB(pct,dmin)-outlier。因为k-distance(p)只取决于p附近点的值,所以基于此两个概念开发的算法被归类为局部的方法。

E.Knorr和R.Ng等在文献[109]中详细分析了DB(pct,dmin)-outlier的定义,说明如果根据统计不一致检测,对象o是特异的,那么当给定适当的pct和dmin时,根据DB(pct,dmin)-outlier定义也会将对象o判定为是特异的。从而确定了这类方法与统计方法的一致性。以下只列出文献[109]中的关于正态分布和泊松分布的特异性判别与DB-outlier判别关系的相关定义与结论,详细的内容请参考文献[109]原文。

【定义2.9】称DB(pct,dmin)-outlier的定义统一了或概括了另一个特异数据的定义,如果存在特定的pct和dmin,使得依据另一个定义,对象o被判断为特异的,当且仅当,对象o也是DB-outlier。

【定义2.10】设D是一个具有均值μ和标准差σ的正态分布的对象集,p是D中的一对象。正态分布的特异定义DefNormal:p是特异的,当且仅当,

此定义将正态分布中与均值距离不小于3的对象称为是特异的。

【定理2.1】定义DB(pct,dmin)-outlier统一了定义DefNormal,当pct=0.9988,dmin=0.13σ时,也就是依据DefNormal,对象p是特异的,当且仅当,p是DB(0.9988,0.13σ)-outlier。

【定义2.11】说明了当参数μ=3时,泊松分布的特异数据界定。

【定义2.12】泊松分布的特异数据定义DefPoisson为:p是特异的,当且仅当,p≥8。

【定义2.13】DB(0.9962,1)-outlier统一了DefPoisson