目前, 世界各国所装备和正在发展的各种弹药有数百种。弹药有多种分类方法, 可从不同的角度进行分类。枪弹是从枪膛内发射的弹药, 主要对付人员及薄装甲目标, 结构与定装式炮弹类似。装核弹头的大、中型中远程导弹, 主要打击固定战略目标, 起威慑作用。......
2025-09-29
前述测试主要是对利用特征数据进行分类精度对比,由于数据集大小、类分布不同等因素影响,精度只能在一定程度上代表数据对分类的支持情况。为探索特征数据的性能,更深入的分析是必要的。作为分类的特征数据,希望其类间距离大而类内方差小,也就是说,不同类别间的特征值距离较远,而同一类别内的特征距离较近。为分析特征数据的距离特性,分别进行了判别式分析和特异分析。
1.判别式分析
为衡量特征数据间的距离,常规的就是利用欧氏距离,欧氏距离也适合本节数据集的计算。鉴于第5.3.5节的分类方法中,线性判别式分类器分类精度较好,选择利用此分类器中的线性判别式来计算数据集的距离特征。前面的实验表明,在区间划分取10行×10列以上时,可以获得较好的精度,为了不增加计算的复杂度,选择10×10划分的数据集,按6类数据规模大致相同的比例,组成一组新数据集,其记录构成为:walking-36、running-40、jogging-40、handwaving-40、handclapping-40、boxing-40,数据集大小为236×84。利用SPSS将集合进行判别式分析,分析以全部84维向量为独立的变量,建立Fisher线性的判别式,并根据判别函数来计算各类间距离与类内距离。
基本的Fisher判别方法是一种两类别判别方法,它利用使Fisher准则达到最大值的方向作为最优投影方向,样本模式在该方向投影后的类间散度达到最大而类内散度达到最小。以投影函数作为判决函数function,当样本的function的得值大于某个阈值时判定为一类,否则判定为另一类。判决阈值f0的典型选择有3种[94]:

式中:
为function作用在第1类和第2类样本上的平均值;N1、N2为第1类和第2类样本的数量;P(w1)、P(w2)为第1类和第2类样本先验概率。
对于多类的判别问题,以一类为判别目标,其他样本均设定为另一类,可以构造一判别函数;在剩余的类中,再以一类为判别目标,其他样本均设定为另一类,构造第2个判别函数;重复此过程,一直到每一类均能判别。所以一般n类分类问题需构造n-1个判别函数。
利用一Fisher判别函数,可以计算出每个记录的得值y。如果将记录数为n的数据集按其类别分为k组,第i组的记录数为ni,那么所在组间距离的平方和也称为组间散度,用式(5.6)表示:

式中:
为全部数据的判别式得值的平均值;
为第i组数据得值的平均值。
可见,SSA是各组平均值与总体平均值离差的平方和,反映了组间的总距离。SSE则反映了组内离差平方和,也称组内散度,其计算方法如式(5.7)所示:

F则是平均组间平方和与平均组内平方和之比,其值可有效表征数据集中组间松散与组内紧密的对比,计算方法如式(5.8)所示:

式(5.8)的F服从(k-1,n-k)个自由度的F分布,根据F分布表可以计算出其相伴概率值。如果相伴概率值小于显著性水平a,则认为各组间总体均值有显著差异[151]。
因为数据集中有6类数据,建立了5个判别式Function 1~Function 5,由各判别式的Structure Matrix可知,特征向量的不同分量与不同的Function显著相关,各判别式的特征值如表5.9所示。
表5.9 5个判别式的特征值

其中的特征值Eigenvalue即为式(5.5)中的F值,表5.9的第1行表示利用Function 1,计算出的F值为41.123,它对整体分类的贡献是65.5%,下一列是累计的贡献百分比,最后一列为典型相关系数,反映的是此判别函数与组别间的关联程度。可以看出5个判别式累计分类的贡献率是100%,与分类类别相关程度均大于0.8;由Structure Matrix可知,数据集中的84维特征分别与5个判别式函数达到相关性显著水平;表5.10中1~6类代表前述的6类行为:walking、running、jogging、handwaving、handclapping、boxing,各类数据在不同的判别式的中心有显著差距,说明5个判别式对此数据集的分类判别是有效的。
表5.10 各类记录在5个判别式上的中心

如图5.6所示显示出由Function 1和Function 2计算出的各类数据的分布情况,其中,handwaving类别(4),已经能有效区分,但其他类别还要进一步识别。(https://www.chuimin.cn)

图5.6 由Function 1和Function 2计算的各类数据分布图
如表5.11所示列出了最终的分类结果,可以看出分类错误仍出现在running和jogging之间,这和前面的测试是一致的。
这组分析表明,特征数据集具有较好的线性可分特性。
表5.11 Fisher线性判别的分类结果

2.特异分析
在数据集中,一些数据或对象与其中其他数据或对象显著不同,则称是特异数据或特异对象。同一类特征数据相似性高,而不同类数据相似性低,在一类数据中掺入少量的其他类数据,希望掺入的数据能被识别为特异的。选择10×10划分的数据集,构造4个子集如表5.12所示,其中每个子集均有一大类,另外的类别记录加一起为小类,约占总记录的10%。
表5.12 4个子集组成表

以4个子集为数据,以大类为正类,以小类为负类,利用本书第3.2节的全局特异数据挖掘算法,计算记录的特异因子,将其排序后绘制ROC图,结果如图5.7和图5.8所示,各ROC曲线下面积值如表5.13所示。
表5.13 各ROC曲线下面积


图5.7 Subt1和Subt2的特异因子ROC图
(a)Subt1;(b)Subt2

图5.8 Subt3和Subt4的特异因子ROC图
(a)Subt3;(b)Subt4
由以上的图表可反映出,小类数据均表现出了较好的特异性。在Subt3的ROC曲线性能是最差的,主要原因是其中涉及running和jogging的区分。
至此,本节提出的行为识别特征数据具有较好的“不同类别间的特征值距离较远,而同一类别内的特征距离较近”的特性。
相关文章
目前, 世界各国所装备和正在发展的各种弹药有数百种。弹药有多种分类方法, 可从不同的角度进行分类。枪弹是从枪膛内发射的弹药, 主要对付人员及薄装甲目标, 结构与定装式炮弹类似。装核弹头的大、中型中远程导弹, 主要打击固定战略目标, 起威慑作用。......
2025-09-29
多分类器融合就是融合多个分类器提供的信息,得到更加精确的分类结果。多数据投票法和BKS方法均是决策层的多分类器融合方法。利用训练集数据学习获得一个分类器,然后使用测试数据集对该分类器分类精度进行评估。......
2025-09-29
应急大数据的时空分析从地理空间位置和时间的角度分析了突发事件的演变情况,按照时间尺度的长短可以分为长期发生规律和短期内突发事件发展过程研究;根据空间范围的大小则可以分为大、中、小尺度的分布特性、发展趋势研究。国内发表的论文主要研究内容包括灾害时空变化、空间格局和影响因素。......
2025-09-29
针对不平衡数据集的分类问题是一类重要的分类问题,在网络入侵检测、信用卡欺诈识别及疾病诊断等领域有实际应用。表4.6中显示的是整个数据集的分类精度,在不平衡数据集中,小类是被关注的对象,其被识别的精度更能反映算法的性能判别。在4个数据子集Sub1、Sub2、Sub3、Sub4中,包含8个攻击类和一个正常类。图4.24个子集的规模与训练时间的关系图4.34个子集的规模与测试时间的关系......
2025-09-29
KDDCUP99数据集是网络访问数据记录集[117],它包含了若干个数据集,本书选用的是corrected.gz。每个记录有42个属性,前41个是访问特征属性,最后一个属性是记录的类别标识。从corrected中按比例分别选择两类记录来构造若干子集,其中攻击记录所占比例均小于10%,以使其为特异记录。分别在30+300、50+500、100+1000、200+2000、300+3000共5个子集上分别运行PecuFind算法程序和CpecuFind算法程序。很明显,Cpecu Find发现攻击记录的能力强于Pecu Find。表3.330+300和50+500上的实验结果比较......
2025-09-29
与玻璃型护栏的护壁板垂直水平面布置结构类似,直型金属护栏的护壁板也是呈垂直布置状态的区别在于两者的材质不同。因此,在正常情况下,金属材质护壁板相对于玻璃材质护壁板安全性更高。该护栏结构与直型金属护栏在结构组成上除了护壁板的倾斜角度和没有内盖板的区别之外,并无大的区别。......
2025-09-29
Wisconsin Breast Cancer数据集有699条记录,每条记录都是记录一位胸部有肿瘤的病人的特征数据。可以从中随机选择444条良性记录和39条恶性记录组成一数据集。文献[107]描述的是基于聚类的且基于密度局部特异数据挖掘方法—FindCBLOF,在Wisconsin Breast Cancer Data上的实验结果显示了其挖掘特异数据的能力在同类算法中是优越的。结果再次表明Cpecu Find挖掘特异数据的能力略优于pecu Find。表3.4Wisconsin Breast Cancer数据集上的实验结果比较......
2025-09-29
电磁场中有电路和磁路的概念,热场中也有热路的概念。从这点上讲,把热场简化为热路,其精度比电磁场简化电路和磁路的要低,但通过适当处理也可满足工程计算要求。图5-2 电路与类比的热路a)电路 b)热路表5-1 热路参数与电路参数的类比利用以上热路和电路相似原理可对一具体开关电器建立其热路网络模型,求解热网络问题可采用电网络方法求解,例如用电网络的软件PSpice来计算。另一种求解热网络方法是热网络有限差分法。......
2025-09-29
相关推荐