仔细研究各算法就会发现,决策树分类算法、关联规则分类算法、贝叶斯分类算法都是基于规则“A→C”和其统计特性的。C 4.5是决策树分类算法的代表[98]。构造决策树时,总选择增益比例大的属性作为下一分支节点。简化后的规则按类进行分组,形成最终的分类规则集。可见,贝叶斯分类器也是基于规则“A→C”的统计特性的。决策树分类法是一种直观且精度较高的方法,但决策树有时也会变得很复杂,以至于难以解释。......
2025-09-29
关联规则是形如“A→C”的规则,有两个指标:属性集的支持度Support和规则的置信度Confidence。如果后件“C”只有类别值,自然可以想到使用此规则进行分类。典型的关联规则分类算法有CBA、CMAR和CPAR[99]。
CBA是由Liu B等人提出的,是最早的也是最简单的关联规则分类算法[99]。首先,根据指定的支持度阈值和置信度阈值,在训练集中找出所有形如“A→C”的关联规则,这类规则被称为“类关联规则”(Class Association Rules,CARs),其特点是后件只包含类标号,这样产生的CARs作为初始的规则集。CBA算法中这部分采用的方法类似于Apriori。之后进行如下的一系列的操作,以得到最终的规则集。
(1)初始规则集中的规则按置信度、支持度和产生顺序排序,形成一层次结构。
(2)使用类似序列覆盖的方法,将层次规则集作用于训练集,使最终规则覆盖训练集。对于排序在后的规则,如果其没有提高测试精度或者出错率增高了,则剪枝。
(3)在经过剪枝的规则集中加入训练集中的多数类作为默认的类别。
最终规则集就是一张决策表。测试时一个记录被判定为属于在列表中第一次遇到的满足其前件的规则的类别,当此记录不满足所有规则的前件时,判定其为默认类别。在一些典型的分类数据集的测试中,CBA算法的实验精度高于C 4.5。
W Li等人进一步提出了CBA的改进算法CMAR[114],其与CBA的有3点不同之处:(https://www.chuimin.cn)
1)在挖掘CARs时采用的是FP-growth算法。
2)从初始规则集构造最终分类规则集时的策略不同。CMAR将规则按置信度、相关性和覆盖率进行排序,形成层次结构。每一记录在将插入此结构时,均进行剪枝计算。特殊性更强、置信度更低的规则将被删除。例如,对于规则R 1和R 2,如果R 1的前件比R 2的前件更通用,并且R 1的置信度更大,则R 2将被剪除。CMAR还以X2验证测试一规则的前件与后件,当它们不是正相关时,此规则被剪除。
3)分类时,当一记录X满足若干规则的前件,CBA将用置信度最高的规则来判定X。CMAR则将这些规则按后件的类别分组,计算各组规则的X2关联强度,用关联最强的组来判定X。
CMAR实验精度略高于CBA,其时间效率、可扩展性和内存利用率均比CBA高。
CBA和CMAR均采用频繁项挖掘的方法来产生初始的规则集,根据给定的支持度和置信度,这样产生的规则数据大,在后面要进行大量剪枝工作,从而损失了效率。CPAR基于FOIL算法(一种基于精度的算法)产生规则[115]。对每一类在训练集中找出其正类和反类(其余的类),计算各规则FOIL的值,找出得值高的规则加入规则集。同时,覆盖的记录不直接删除,而是降低其权重,以便为其他类的FOIL计算提供基数。进行分类时,当一记录满足若干规则的前件,CPAR将这些规则按后件的类别分组。但与CMAR不同的是,CPAR只选择每组中的“最好的”K个规则进行分类计算。CPAR与CMAR分类精度相当,但CPAR效率高于CMAR,特别是在大数据集的分类过程中。
可见,关联规则分类算法是一类基于规则的算法,其基础是频繁项目的与运算。
相关文章
仔细研究各算法就会发现,决策树分类算法、关联规则分类算法、贝叶斯分类算法都是基于规则“A→C”和其统计特性的。C 4.5是决策树分类算法的代表[98]。构造决策树时,总选择增益比例大的属性作为下一分支节点。简化后的规则按类进行分组,形成最终的分类规则集。可见,贝叶斯分类器也是基于规则“A→C”的统计特性的。决策树分类法是一种直观且精度较高的方法,但决策树有时也会变得很复杂,以至于难以解释。......
2025-09-29
,xm}是一组称为项的元素的集合,集合XI称为项集。关联规则是一个表达式X→Y,其中X和Y是项集且不相交,即X,YI,其中N∩Y=。为了生成频繁且高置信度的关联规则,首先要枚举所有的频繁项及其支持度。给定数据集D和用户自定义的支持度阈值minsup;其次,给定频繁项集的集合F和最小置信度minconf,关联规则挖掘的任务是找出所有频繁且置信度高的规则。......
2025-09-29
对盗窃犯罪案件类别、时间段、网格编号等属性信息,选择合适的支持度和置信度阈值,进行关联规则挖掘。按照关联规则长度为3,提升度大于1.2的原则进行筛选,得到共计68条强关联规则。通过分析得到的强关联规则,推出犯罪类型、网格号与时间段这三个案件属性之间所存在的关联关系,进而推测盗窃犯罪的时空规律。......
2025-09-29
由线性判别函数的设计过程可知,对于线性可分集,总能找到使模式样本正确划分的解。d维空间中线性判别函数的一般形式为g=ωX+b,分类面方程为:ωX+b=0将判别函数进行归一化,使两类所有样本都满足|g|>1,这样分类间隔就等于2/‖ω‖。对于线性不可分问题,可以用类似于广义线性判别函数的方法,通过事先选择好的非线性映射将输入模式向量映射到一个高维空间,在这个空间中构造最优分界超平面。......
2025-09-29
多分类器融合就是融合多个分类器提供的信息,得到更加精确的分类结果。多数据投票法和BKS方法均是决策层的多分类器融合方法。利用训练集数据学习获得一个分类器,然后使用测试数据集对该分类器分类精度进行评估。......
2025-09-29
在所有可能的项集中,有很多候选都不是频繁的。算法4.2Apriori算法伪代码FPGrowth方法使用一种增强的前缀树对数据D进行索引,以实现快速的支持度计算。FPGrowth将所有的项按照支持度的降序排列。FP树构建完成后,所有的频繁项集就可以从树中挖掘出来。基于频繁树模式的频繁集搜索方法见算法4.3。算法4.3FPGrowth算法伪代码......
2025-09-29
机头是挤出机的成型部件,它主要包括机头体、分流器、分流器支架、芯棒、口模、调节螺栓等。2)按机头内压力大小分类。3)按挤出制品的形状分类。管材挤出成型机头主要是挤出软质和硬质圆形塑料管状制品,另外还有塑料与塑料、塑料与金属复合管状制品。板与片的挤出成型模具主要指机头,定型在辅机中进行。又称电缆挤出成型机头。棒材一般是指实心的圆棒、方棒、多角棒等,挤出成型模具包括机头和定型模套。⑨坯料挤出机头。......
2025-09-29
基于规则的分类器利用IF-THEN规则集进行分类。如一个规则R 1可以表示为:R 1:IF age=youth AND student=yes THEN buys_computer=yesR 1也可以表示为:R 1:^=>其中,IF部分或=>前面的部分称为前件,后一部分称为后件。那么,覆盖率和精度的定义如式(4.1)和式(4.2)。当X只满足规则集中的一个规则R 1时,就可以判定X属于R 1后件的类别。后件为同一类别的规则不需排序,因为它们判断的结果不会有冲突;在基于规则的排序策略中,规则按其前件的质量排序。......
2025-09-29
相关推荐