4)探查例外或特异数据。在数据集中,一些数据或对象与其中其他数据或对象显著不同,则称为特异数据或特异对象。在这些应用中,发现特异数据成为挖掘的目标。其中,基于统计的方法,主要是利用数据的分布特性计算特异数据的特征,采用不一致检验的方法挖掘数据。2)和3)的方法均从数据本身出发挖掘特异数据,本章将介绍基于密度的局部特异数据挖掘方法的思想和主要算法。......
2023-06-16
文献[106]研究的是基于密度的局部特异数据挖掘的方法和理论。基于密度的局部特异数据挖掘方法的文献一般基于两个基本概念:k-distance和DB(pct,dmin)-outlier。对于给定的数据集D,|D|表示其中点(或对象、或记录)的个数。o、p、q表示其中的点,d(p,o)表示p和o的距离。下面的[定义2.7]和[定义2.8]来源于文献[106]。
【定义2.7】[k-distance(p)]对于给定的正整数k,k-distance(p)用点p和o的距离d(p,o)来定义,并且有:
1)在D中至少有k个点o′,o′∈D并且o′≠p,满足d(o′,p)≤d(o,p)。
2)在D中至多有k-1个点o′,o′∈D并且o′≠p,满足d(o′,p)<d(o,p)。
显然,k-distance(p)越大,p点附近的点密度越低,p的特异程度越高。
【定义2.8】[DB(pct,dmin)-outlier]称一个点p是DB(pct,dmin)-outlier,如果在D中至少有百分之pct的点与p之间的距离大于指定的最小距离dmin。也就是集合{q∈D|d(p,q)≤dmin}的势≤(100-pct)/100×|D|。
例如:对给定的D,设定pct=98.5,dmin=10。如果存在点p,使得D中至少98.5%的点与p的距离大于10,那么称p是DB(98.5,10)-outlier。从另一个角度讲,如果p是DB(98.5,10)-outlier,那么D中至多有1.5%的点与p的距离≤10。
由定义可知,可以通过k-distance(p)来确定DB(pct,dmin)-outlier。因为k-distance(p)只取决于p附近点的值,所以基于此两个概念开发的算法被归类为局部的方法。
E.Knorr和R.Ng等在文献[109]中详细分析了DB(pct,dmin)-outlier的定义,说明如果根据统计不一致检测,对象o是特异的,那么当给定适当的pct和dmin时,根据DB(pct,dmin)-outlier定义也会将对象o判定为是特异的。从而确定了这类方法与统计方法的一致性。以下只列出文献[109]中的关于正态分布和泊松分布的特异性判别与DB-outlier判别关系的相关定义与结论,详细的内容请参考文献[109]原文。
【定义2.9】称DB(pct,dmin)-outlier的定义统一了或概括了另一个特异数据的定义,如果存在特定的pct和dmin,使得依据另一个定义,对象o被判断为特异的,当且仅当,对象o也是DB-outlier。
【定义2.10】设D是一个具有均值μ和标准差σ的正态分布的对象集,p是D中的一对象。正态分布的特异定义DefNormal:p是特异的,当且仅当,
此定义将正态分布中与均值距离不小于3的对象称为是特异的。
【定理2.1】定义DB(pct,dmin)-outlier统一了定义DefNormal,当pct=0.9988,dmin=0.13σ时,也就是依据DefNormal,对象p是特异的,当且仅当,p是DB(0.9988,0.13σ)-outlier。
【定义2.11】说明了当参数μ=3时,泊松分布的特异数据界定。
【定义2.12】泊松分布的特异数据定义DefPoisson为:p是特异的,当且仅当,p≥8。
【定义2.13】DB(0.9962,1)-outlier统一了DefPoisson。
有关数据挖掘算法及在视频分析中的应用的文章
4)探查例外或特异数据。在数据集中,一些数据或对象与其中其他数据或对象显著不同,则称为特异数据或特异对象。在这些应用中,发现特异数据成为挖掘的目标。其中,基于统计的方法,主要是利用数据的分布特性计算特异数据的特征,采用不一致检验的方法挖掘数据。2)和3)的方法均从数据本身出发挖掘特异数据,本章将介绍基于密度的局部特异数据挖掘方法的思想和主要算法。......
2023-06-16
E.Knorr和R.Ng等在文献[109]中同时提出了一种基于网格构架的挖掘DB-outlier的方法。首先,全部的数据空间被分割成边长为l的网格。①如果Cx,y中的对象数>k,那么Cx,y中的所有对象均不是特异对象。M.M.Breuning等认为文献[106]中关注一个对象是否是特异的,而很多的应用中,给出一个对象的特异程度值更有意义。从[定义2.7]和[定义2.8]出发,M.M.Breuning等定义了一个度量对象p的特异程度的因子Local Outlier Factor,记为LOF[106]。......
2023-06-16
Zhong Ning等人提出了一种基于距离的全局特异数据挖掘的构架[101]。其中,Mj和σj分别代表aj所有PF值的均值和标准差。Pr=RPF均值+γ×RPF的标准差(3.4)可以看出,此构架是基于距离的,并且找到的特异数据是全局的。从式(3.1)得出,属性xij和xkj间的距离d是后续计算的基础。由前述可知,此构架可以处理各类属性值,并且可以处理多个相关数据集的特异挖掘问题。......
2023-06-16
数据挖掘就是综合应用一系列先进的技术从大量数据中提取人们感兴趣的信息和知识,它们是隐含的、事先未知且潜在有用的概念、规则、规律及模式等。这个概念诠释了数据挖掘的3个要点:数据挖掘要处理的数据量是巨大的。因此,高效率常常是数据挖掘算法研究的目标。4)数据转换:数据要被转换和整理,使其符合挖掘程序的格式。图2.1典型的数据挖掘系统构架......
2023-06-16
对服刑人员进行危险性评估主要是指对服刑人员的人身危险性进行评估,进而对服刑人员未来是否有暴力、自杀、脱逃等危险性行为进行预测。目前,危险性评估技术的应用主要集中在监狱内对服刑人员进行危险性评估、监狱外服刑人员的危险性评估。将服刑人员危险性评估定义为通过一定的技术对服刑人员重新犯罪或者实施其他犯罪行为的可能进行预测,从而为控制这些危险提供根据。......
2023-07-31
图2-8常用药知名老中医马祥治疗胃炎的常用药物药性分析104张处方中出现的药性为平、温、寒、凉、微温、微寒,分析结果显示药性,所使用频率由高到低依次为温,平,微寒,寒,微温(72次),热(42次),凉(10次)。图2-9药性分布知名老中医马祥治疗胃炎的常用药物药味分析104张处方中,药味分布最多的是味苦的药物,药味分析结果以苦味为主,如图2-10所示。......
2023-11-08
表4-2某大型医院三年住院治疗情况(续表)医学图像数据聚类分析。中医药数据聚类分析。图4-1聚类数据示例聚类分析在数据挖掘中的作用:作为一个独立的工具来获得数据集中数据的分布情况。Q型聚类分析是对样本进行分类处理。根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析或Q型聚类分析。......
2023-11-08
设某一属性的所有值的数据集为S,其平均值为Smean。根据这些想法,提出一种基于聚类的全局特异数据挖掘方法。构架仍由挖掘特异属性和挖掘特异记录两个层次构成。从原则上讲可以采用任何基于距离的聚类算法对S进行聚类,采用的聚类算法的效果好,可以减少后续的计算量。图3.2SimC聚类算法可以看出,k是控制聚类半径Cd的。现在根据式(3.9)计算每个类的特异因子,记为CPF。显然,CPF越小的类,其中的元素是特异数据的可能性越小。......
2023-06-16
相关推荐