数据挖掘可以针对任何类型的数据库进行,既包括传统的关系数据库,也包括非数据库组织的文本数据库、Web数据库以及复杂的多媒体数据库等[5]。文本数据库多数为非结构化的,也有些是半结构化的,如HTML、E-mail等。Web网页也是文本信息,由众多的Web网页组成的数据库就是最大的文本数据库。......
2025-09-29
本书介绍了数据挖掘的主要问题,包括挖掘技术、用户界面、性能和各种数据类型。
1.数据挖掘技术和用户界面问题
该问题反映所挖掘的知识类型、在多粒度上挖掘知识的能力、领域知识的使用、特定的挖掘和知识显示。
(1)在数据库中挖掘不同类型的知识:由于不同的用户可能对不同类型的知识感兴趣,数据挖掘系统应当覆盖广阔的数据分析和知识发现任务,包括数据特征、区分、关联、聚类、趋势、偏差分析和类似性分析。这些任务可能以不同的方式使用相同的数据库,并需要开发大量的数据挖掘技术。
(2)多个抽象层的交互知识挖掘:由于很难准确地知道能够在数据库中发现什么,数据挖掘过程应当是交互的。对于包含大量数据的数据库,应当使用适当的选样技术,进行交互式数据探查。交互式挖掘允许用户聚焦搜索模式,根据返回的结果提出和精炼数据挖掘请求。特殊地,类似于OLAP在数据上做的那样,应当通过交互的方式在数据空间和知识空间下钻、上卷、挖掘知识。用这种方法,用户可以与数据挖掘系统交互,以不同的粒度和从不同的角度观察数据和发现模式。
(3)结合背景知识:可以使用背景知识或关于所研究领域的信息来指导发现过程,并使得发现的模式以简洁的形式、在不同的抽象层表示。关于数据库的领域知识,如完整性限制和演绎规则,可以帮助聚焦和加快数据挖掘过程,或评估发现模式的兴趣度。
(4)数据挖掘查询语言和特定的数据挖掘:关系查询语言(如SQL)允许用户进行特定的数据提取查询。类似地,需要开发高级数据挖掘查询语言,使用户通过说明分析任务的相关数据集、领域知识、所挖掘的数据类型以及被发现的模式必须满足条件和兴趣度限制,描述特定的数据挖掘任务。将这种语言与数据库查询语言集成,对数据挖掘起着重要的作用。
(5)数据挖掘结果的表示和显示:发现的知识应当用高级语言、可视化表示形式或其他表示形式表示,使知识易于理解,能够直接被人使用。如果数据挖掘系统是交互的,数据挖掘结果的表示和显示这一点便尤为重要。这要求系统采用有表达能力的知识表示技术,如树、表、图、图表、交叉表、矩阵或曲线。
(6)处理噪声和不完全数据:数据库中可能存在噪声、异常或信息不全的数据。这些数据可能搞乱分析过程,导致数据与所构造的算法模型过拟合,使发现模式的精确性变差。需要采用处理数据噪声的数据清洗方法和数据分析方法,以及发现和分析例外情况的局外者挖掘方法。
(7)模式评估——兴趣度问题:数据挖掘系统可能发现数以千计的模式。对于给定的用户,许多模式不是有趣的,它们表示平凡或缺乏新颖性的知识。关于开发模式兴趣度的评估技术,特别是对于给定用户类,基于用户的信赖或期望,评估模式价值的主观度量,仍然存在一些挑战。使用兴趣度度量,进而发现过程和压缩搜索空间,是一个活跃的研究领域。(https://www.chuimin.cn)
2.性能问题
性能问题包括数据挖掘算法的有效性、可规模性和并行处理。
(1)数据挖掘算法的有效性和可规模性:为了有效地从数据库中的大量数据提取信息,数据挖掘算法必须是有效的和可规模化的,即对于大型数据库,数据挖掘算法的运行时间必须是可预计的和可接受的。从数据库角度来讲,有效性和可规模性是数据挖掘系统实现的关键问题。前面讨论的挖掘技术和用户交互的大多数问题,也必须考虑有效性和可规模性。
(2)并行、分布和增量挖掘算法:许多数据库中大容量数据的广泛分布和一些数据挖掘算法的计算复杂性是促使开发并行和分布式数据挖掘算法的因素。这些算法将数据划分成部分,这些部分可以并行处理,然后合并每部分的结果。此外,有些数据挖掘过程的高花费导致了对增量数据挖掘算法的需要。增量算法与数据库更新结合在一起,而不必重新挖掘全部数据。这种算法渐增地进行知识更新,修正和加强先前已发现的知识。
3.关于数据库类型的多样性问题
(1)关系的和复杂的数据类型处理:由于关系数据库和数据仓库已经广泛使用,因此对它们开发有效的数据挖掘系统是重要的。数据库中包含复杂的数据对象、超文本和多媒体数据、空间数据、时间数据、事务数据。由于数据类型的多样性和数据挖掘的目标不同,指望用一个系统挖掘所有类型的数据是不现实的。为挖掘特定类型的数据,应当构造特定的数据挖掘系统,即对于不同类型的数据有不同的数据挖掘系统。
(2)由异种数据库和全球信息系统挖掘信息:局域和广域(如Internet)计算机网络连接了许多数据源,形成了庞大的、分布的和异种的数据库。从具有不同数据语义的结构的、半结构的和无结构的不同数据源发现知识,对数据挖掘提出了巨大挑战。数据挖掘可以帮助发现多个异种数据库中的数据规律,这些规律多半难以被简单的查询系统发现,并可以改进异种数据库信息交换和协同操作的性能。Web挖掘发现关于Web连接、Web使用和Web动态情况的有趣知识,已经成为数据挖掘的一个非常具有挑战性的领域。
以上问题是数据挖掘技术未来发展的主要挑战。在近年来的数据挖掘研究和开发中,一些挑战已经得到解决,而另一些挑战仍处于研究阶段。
相关文章
数据挖掘可以针对任何类型的数据库进行,既包括传统的关系数据库,也包括非数据库组织的文本数据库、Web数据库以及复杂的多媒体数据库等[5]。文本数据库多数为非结构化的,也有些是半结构化的,如HTML、E-mail等。Web网页也是文本信息,由众多的Web网页组成的数据库就是最大的文本数据库。......
2025-09-29
实际上数据挖掘技术从一开始就是面向应用的。目前,在很多重要的领域,数据挖掘技术都发挥着积极的作用。商家通过数据挖掘技术制定营销策略,向消费者发出与其以前消费行为相关的推销材料。自20世纪90年代开始出现数据挖掘商用软件以来,据不完全统计,1998年年底1999年年初,已有50多个厂商从事数据挖掘系统的软件开发工作,美国数据挖掘产品市场在1994年达到5 000万美元,1997达到3亿美元。......
2025-09-29
我国的高等工程教育目前存在的问题主要集中在人才定位、人才培养等几个方面。有些高校在专业设置上过于追求热门,追逐社会热点,造成一些传统的工科专业备受冷落,在这种形势下,工科专业的工程教育现状令人担忧。近年来,经济、金融、管理、新闻出版类人才受到社会欢迎,收入高、工作环境优越,使得学生盲目追逐这些热门专业,而对工科专业兴趣下降。工程师的社会认可度不高对高校工科专业的教育教学运行与管理带来了较大的冲击。......
2025-09-29
计算这些序列的频率和时间平均方差形成特征向量,利用此特征向量数据进行了多方面的实验,验证其在人的行为识别方面的有效性。实验表明,当分段长度达到30帧以上时,就可获得很高的分类精度,且分段长度的变化对识别精度影响就会很小了。......
2025-09-29
4)探查例外或特异数据。在数据集中,一些数据或对象与其中其他数据或对象显著不同,则称为特异数据或特异对象。在这些应用中,发现特异数据成为挖掘的目标。其中,基于统计的方法,主要是利用数据的分布特性计算特异数据的特征,采用不一致检验的方法挖掘数据。2)和3)的方法均从数据本身出发挖掘特异数据,本章将介绍基于密度的局部特异数据挖掘方法的思想和主要算法。......
2025-09-29
设某一属性的所有值的数据集为S,其平均值为Smean。根据这些想法,提出一种基于聚类的全局特异数据挖掘方法。构架仍由挖掘特异属性和挖掘特异记录两个层次构成。从原则上讲可以采用任何基于距离的聚类算法对S进行聚类,采用的聚类算法的效果好,可以减少后续的计算量。图3.2SimC聚类算法可以看出,k是控制聚类半径Cd的。现在根据式(3.9)计算每个类的特异因子,记为CPF。显然,CPF越小的类,其中的元素是特异数据的可能性越小。......
2025-09-29
基于密度的局部特异数据挖掘方法的文献一般基于两个基本概念:k-distance和DB-outlier。显然,k-distance越大,p点附近的点密度越低,p的特异程度越高。从而确定了这类方法与统计方法的一致性。正态分布的特异定义DefNormal:p是特异的,当且仅当,此定义将正态分布中与均值距离不小于3的对象称为是特异的。说明了当参数μ=3时,泊松分布的特异数据界定。泊松分布的特异数据定义DefPoisson为:p是特异的,当且仅当,p≥8。......
2025-09-29
数据挖掘就是综合应用一系列先进的技术从大量数据中提取人们感兴趣的信息和知识,它们是隐含的、事先未知且潜在有用的概念、规则、规律及模式等。这个概念诠释了数据挖掘的3个要点:数据挖掘要处理的数据量是巨大的。因此,高效率常常是数据挖掘算法研究的目标。4)数据转换:数据要被转换和整理,使其符合挖掘程序的格式。图2.1典型的数据挖掘系统构架......
2025-09-29
相关推荐