基于密度的局部特异数据挖掘方法的文献一般基于两个基本概念:k-distance和DB-outlier。显然,k-distance越大,p点附近的点密度越低,p的特异程度越高。从而确定了这类方法与统计方法的一致性。正态分布的特异定义DefNormal:p是特异的,当且仅当,此定义将正态分布中与均值距离不小于3的对象称为是特异的。说明了当参数μ=3时,泊松分布的特异数据界定。泊松分布的特异数据定义DefPoisson为:p是特异的,当且仅当,p≥8。......
2025-09-29
实际上数据挖掘技术从一开始就是面向应用的。目前,在很多重要的领域,数据挖掘技术都发挥着积极的作用。尤其是在银行、电信、保险、交通、零售(如超级市场)等商业应用领域,数据挖掘技术取得了显著的成就。数据挖掘能够帮助解决许多典型的商业问题,其中包括:数据库营销、客户群体划分、背景分析、交叉销售等市场分析行为,以及客户流失性分析、客户信用评分、欺诈发现等。
数据挖掘技术在企业市场营销中得到了比较广泛的应用,它以市场营销学的市场细分原理为基础,其基本假设是“消费者过去的行为是其今后消费倾向的最好说明”。通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为。然后,以此为基础,对所识别出来的消费群体进行特定内容的定向营销。这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。
消费者的信息来自市场中的各种渠道。例如,每当使用信用卡消费时,企业就可以在信用卡结算过程中收集消费者的信息,记录下我们消费的时间、地点、感兴趣的商品或服务、愿意接受的价格水平和支付能力等数据。当我们在申办信用卡、办理汽车驾驶执照、填写商品保修单和其他需要填写个人信息的时候,我们的个人信息就存入了相应的业务数据库,企业除了自行收集相关业务信息之外,还可以从其他公司或机构购买此类信息为自己所用。
组合来自各种渠道的数据后,人们使用超级计算机,利用并行处理、神经元网络、模型化算法和其他信息处理技术处理组合后的数据,从中得到商家用于向特定消费群体或个体进行定向营销的决策信息。这些决策信息是如何应用的呢?例如,当银行通过对业务数据进行挖掘后,发现一个银行账户持有者突然要求申请双人联合账户,并且确认该消费者是第一次申请联合账户时,银行会推断该用户可能要结婚了,它就会向该用户定向推销用于购买房屋、支付子女学费等长期投资业务,银行甚至可能将该信息卖给专营婚庆商品和服务的公司。
在市场经济比较发达的国家和地区,许多公司都开始在原有信息系统的基础上通过数据挖掘对业务信息进行深加工,以构筑自己的竞争优势,增加自己的营业额。美国运通公司有一个用于记录信用卡业务的数据库,数据量达到上亿字符,并仍在随着业务增长不断更新。运通公司通过对这些数据进行挖掘,制定了“关联结算优惠”的促销策略,即如果一个顾客在一个商店用运通卡购买一套时装,在同一个商店再买一双鞋,就可以得到比较大的折扣,这样既可以增加商店的销售量又可以增加运通卡在该商店的使用率。例如,居住在英国伦敦的持卡消费者如果最近刚刚乘英国航空公司的航班去过巴黎,那么他可能会得到一张周末前往美国纽约的机票打折优惠卡。
商家通过数据挖掘技术制定营销策略,向消费者发出与其以前消费行为相关的推销材料。卡夫食品公司建立了一个拥有3 000万客户资料的数据库,数据库是通过收集对公司发出的优惠券等促销手段做出积极反应的客户的销售记录建立起来的,卡夫公司通过数据挖掘了解特定客户的兴趣和口味,并以此为基础向他们发送特定产品的优惠券,还为他们推荐符合客户口味和健康状况的卡夫产品食谱。美国的《读者文摘》出版公司运行着一个积累了多年的业务数据库,业务数据库中包含了全球一亿多位客户的消费信息,数据库每天24 h连续运行,保证数据不断得到实时更新。正是基于对客户资料数据库进行数据挖掘的优势,《读者文摘》出版公司才能够从通俗杂志扩展到专业杂志、书刊和音像制品等的出版业务。
数据挖掘还有其他的一些应用。
(1)在对客户进行分析方面:银行信用卡和保险行业,利用数据挖掘将市场分成有意义的群组和部门,从而协助市场经理和业务执行人员更好地集中于对效益有促进作用的活动并开拓新的市场。
(2)在客户关系管理方面:数据挖掘可以帮助商家找出产品的使用模式和了解客户行为,从而改进通道管理(如银行分支和ATM机等)。例如,正确时间销售就是基于顾客生活周期模型来实施的。
(3)在零售业方面:数据挖掘用于顾客购货篮的分析可以协助商家布置货架、安排促销活动时间、组合促销商品以及了解滞销和畅销商品状况等商业活动。通过对一种商品在各连锁店的市场共享、客户统计以及历史状况的分析,可以确保销售和广告业务的有效性。
(4)在产品质量保证方面:数据挖掘协助管理大数据变量之间的相互作用,并能自动发现某些不正常的数据分布,揭示制造和装配操作过程中的变化情况和各种因素,从而协助质量工程师及时地注意到问题发生的范围并采取改正措施。(https://www.chuimin.cn)
(5)在网络容量利用方面:数据挖掘可以让企业了解客户使用聚集服务的结构和模式,从而指导企业人员对网络设施做出最佳的投资决策。
在各个企事业部门的业务中,数据挖掘在假伪检测、险灾评估、失误回避、资源分配、市场销售预测和广告投资等很多方面起着很重要的作用。例如在化学及制药行业,将数据挖掘用于大量化学信息可以发现新的有用的化学成分;在遥感领域,利用每天从卫星上及其他方面来的海量数据,数据挖掘能对气象预报、臭氧层监测等起很大的作用。自20世纪90年代开始出现数据挖掘商用软件以来,据不完全统计,2025年年底2025年年初,已有50多个厂商从事数据挖掘系统的软件开发工作,美国数据挖掘产品市场在2025年达到5 000万美元,1997达到3亿美元。从产品的类型来看,通常有以下五类产品。
(1)能够提供广泛的数据挖掘能力的产品,典型的有:IBM公司的Intelligent Miner、SAS公司的Enterprise Miner。
(2)旨在为某个部门求解问题的产品,典型的有:Unica公司的Response Modeler Segmentor、IBM公司的Business Application等。
(3)与提供服务联系在一起的产品,典型的有:NeoVista、Hyperparallel、HNCMarksman。
(4)黑匣工具,典型的有:GroupModel、ModelMax、Predict。
(5)解决客户问题的产品,典型的有:Marketier Paregram、Exchange Application。
数据挖掘(知识发现)的目的是为企业决策提供正确的依据,从分析数据、发现问题到做出决策、采取行动这一系列操作是一个单位的动作行为,利用计算机及信息技术完成整体行动,是发挥机构活力和赢得竞争优势的唯一手段。人们将这种机构的手段称为“商业智能”(Business Intelligent,BI),BI系统能极大地提高决策的质量和及时性,从而提高机构的生产率以发挥竞争优势。近年来,一些大公司将数据分析和数据挖掘工具及其有关技术组合起来,形成所谓的商业智能软件BIS。其中SAS公司的Enterprise Miner就是将数据源、数据预处理、数据存储、数据分析与发掘、信息表示与应用等技术结合形成一个复杂的数据挖掘系统。
IBM公司更全面地考虑了BI系统的结构和功能,与其他公司共同合作开发了各类BI软件和工具。开发BI软件需要从多方面加以考虑。首先必须有一个良好的数据库,为了能使企业管理与决策机制覆盖管理与决策的全阶段,IBM提出了一个统一的数据库系统——DB2和一个可视化数据仓库(Visual Data Warehouse,VDW)。它可以将各种应用和各部门的信息融为一体,利用可视化仓库联机分析处理(Online Analytical Processing,OLAP)工具可以生成实时报告。在信息发现和数据发掘工具方面,提出能对结构型和非结构型数据进行挖掘的一整套智能矿工家族。由于BI手段只有在好的数据基础上才能见效,因此IBM公司提出数据重组工具。由于向用户提供言之有据的信息是做出正确决策的前提,因此IBM公司又提出能支持异形数据库的DataJointer(数据接合)。BI系统是从数据到知识再到决策的进程中更深入的一步,展示了真正实用的智能信息系统的雏形。
相关文章
基于密度的局部特异数据挖掘方法的文献一般基于两个基本概念:k-distance和DB-outlier。显然,k-distance越大,p点附近的点密度越低,p的特异程度越高。从而确定了这类方法与统计方法的一致性。正态分布的特异定义DefNormal:p是特异的,当且仅当,此定义将正态分布中与均值距离不小于3的对象称为是特异的。说明了当参数μ=3时,泊松分布的特异数据界定。泊松分布的特异数据定义DefPoisson为:p是特异的,当且仅当,p≥8。......
2025-09-29
计算这些序列的频率和时间平均方差形成特征向量,利用此特征向量数据进行了多方面的实验,验证其在人的行为识别方面的有效性。实验表明,当分段长度达到30帧以上时,就可获得很高的分类精度,且分段长度的变化对识别精度影响就会很小了。......
2025-09-29
4)探查例外或特异数据。在数据集中,一些数据或对象与其中其他数据或对象显著不同,则称为特异数据或特异对象。在这些应用中,发现特异数据成为挖掘的目标。其中,基于统计的方法,主要是利用数据的分布特性计算特异数据的特征,采用不一致检验的方法挖掘数据。2)和3)的方法均从数据本身出发挖掘特异数据,本章将介绍基于密度的局部特异数据挖掘方法的思想和主要算法。......
2025-09-29
设某一属性的所有值的数据集为S,其平均值为Smean。根据这些想法,提出一种基于聚类的全局特异数据挖掘方法。构架仍由挖掘特异属性和挖掘特异记录两个层次构成。从原则上讲可以采用任何基于距离的聚类算法对S进行聚类,采用的聚类算法的效果好,可以减少后续的计算量。图3.2SimC聚类算法可以看出,k是控制聚类半径Cd的。现在根据式(3.9)计算每个类的特异因子,记为CPF。显然,CPF越小的类,其中的元素是特异数据的可能性越小。......
2025-09-29
数据挖掘就是综合应用一系列先进的技术从大量数据中提取人们感兴趣的信息和知识,它们是隐含的、事先未知且潜在有用的概念、规则、规律及模式等。这个概念诠释了数据挖掘的3个要点:数据挖掘要处理的数据量是巨大的。因此,高效率常常是数据挖掘算法研究的目标。4)数据转换:数据要被转换和整理,使其符合挖掘程序的格式。图2.1典型的数据挖掘系统构架......
2025-09-29
读取预处理后的交通事故数据,根据经纬度信息,与这195个网格进行空间连接,为交通事故数据赋予与空间位置相对应的网格编号,以便通过Apriori算法进行关联规则挖掘。对交通事故案件类别、时间段、网格编号等属性信息进行关联规则分析,选择合适的最小支持度和最小置信度。按照关联规则长度为2,提升度大于1.1的原则进行筛选,得到共计84条强关联规则。图4.5关联规则结果......
2025-09-29
图5.14过滤器的符号过滤器的主要性能参数过滤器的主要性能参数有过滤精度、过滤比和过滤能力等。国际标准ISO4572 推荐过滤比的测试方法是:在油箱中不断加入某种规格的污染物(试剂),液压泵从油箱中吸油,输出的油液通过被测过滤器,然后回油箱;测量过滤器入口与出口处污染物的数量,即得到过滤比。最常用的有网式和线隙式过滤器两种。此种过滤器结构简单,清洗方便。如图5.15所示为线隙式过滤器。......
2025-09-29
Zhong Ning等人提出了一种基于距离的全局特异数据挖掘的构架[101]。其中,Mj和σj分别代表aj所有PF值的均值和标准差。Pr=RPF均值+γ×RPF的标准差(3.4)可以看出,此构架是基于距离的,并且找到的特异数据是全局的。从式(3.1)得出,属性xij和xkj间的距离d是后续计算的基础。由前述可知,此构架可以处理各类属性值,并且可以处理多个相关数据集的特异挖掘问题。......
2025-09-29
相关推荐