首页 理论教育利用WisconsinBreastCancer数据集进行实验

利用WisconsinBreastCancer数据集进行实验

【摘要】:Wisconsin Breast Cancer数据集有699条记录,每条记录都是记录一位胸部有肿瘤的病人的特征数据。可以从中随机选择444条良性记录和39条恶性记录组成一数据集。文献[107]描述的是基于聚类的且基于密度局部特异数据挖掘方法—FindCBLOF,在Wisconsin Breast Cancer Data上的实验结果显示了其挖掘特异数据的能力在同类算法中是优越的。结果再次表明Cpecu Find挖掘特异数据的能力略优于pecu Find。表3.4Wisconsin Breast Cancer数据集上的实验结果比较

Wisconsin Breast Cancer数据集有699条记录,每条记录都是记录一位胸部有肿瘤的病人的特征数据。其中458条是良性的,241条是恶性的。记录属性有11个,其中第1个是关键字ID,最后一个是良性、恶性标识,中间的9个是要计算的特征属性。可以从中随机选择444条良性记录和39条恶性记录组成一数据集。这个数据集与文献[107]的实验数据集相吻合。文献[107]描述的是基于聚类的且基于密度局部特异数据挖掘方法—FindCBLOF,在Wisconsin Breast Cancer Data上的实验结果显示了其挖掘特异数据的能力在同类算法中是优越的。

取λ=10%,k=2,使用Cpecu Find程序进行计算,如表3.4显示了其结果与pecu Find算法挖掘结果,以及与文献[107]的实验结果对比情况。应该说明的是,因为无法获得文献[107]的原数据集,表3.4的结果并不具有严格的可比性。结果再次表明Cpecu Find挖掘特异数据的能力略优于pecu Find。同时,粗略地说明基于密度的局部方法和基于距离的全局方法在挖掘特异数据的能力上是相当的。

表3.4 Wisconsin Breast Cancer数据集上的实验结果比较