数据挖掘技术及其应用

发布时间:2018-09-01 23:55:49   来源:文档文库   
字号:

数据挖掘毕业论文

---------数据挖掘技术及其应用

摘要随着网络、数据库技术的迅速发以及数据库管理系统的广泛应用,人们积累的数据越来越多。数据挖掘(Data Mining)就是从大量的实际应用数据中提取隐含信息和知识,它利用了数据库、人工智能和数理统计等多方面的技术,是一类深层次的数据分析方法。本文介绍了数据库技术的现状、效据挖掘的方法以及它在Bayesian网建网技术中的应用:通过散据挖掘解决Bayesian网络建模过程中所遇到的具体问题,即如何从太规模效据库中寻找各变量之间的关系以及如何确定条件概率问题。

关键字:数据挖掘、知识获取、数据库、函数依赖、条件概率

一、 引言:

数据是知识的源泉。但是,拥有大量的数据与拥有许多有用的知识完全是两回事。过去几年中,从数据库中发现知识这一领域发展的很快。广阔的市场和研究利益促使这一领域的飞速发展。计算机技术和数据收集技术的进步使人们可以从更加广泛的范围和几年前不可想象的速度收集和存储信息。收集数据是为了得到信息,然而大量的数据本身并不意味信息。尽管现代的数据库技术使我们很容易存储大量的数据流,但现在还没有一种成熟的技术帮助我们分析、理解并使数据以可理解的信息表示出来。在过去,我们常用的知识获取方法是由知识工程师把专家经验知识经过分析、筛选、比较、综合、再提取出知识和规则。然而,由于知识工程师所拥有知识的有局限性,所以对于获得知识的可信度就应该打个

折扣。目前,传统的知识获取技术面对巨型数据仓库无能为力,数据挖掘技术就应运而生。

数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们希望在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望“数”兴叹。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。数据挖掘通过在大量数据的基础上对各种学习算法的训练,得到数据对象间的关系模式,这些模式反映了数据的内在特性,是对数据包含信息的更高层次的抽象[1]。目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注,同时,在实际问题中,大量成功运用数据挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分析处理,以节约时间,将更多的精力投入到更高层的研究中,从而提高科研工作的

效率。

二、知识获取与数据挖掘

一般说来,知识获取(Knowledge Discovery inDatabases,称称KDD)意为数据库中知识获取,它代表从低层次数据中提取高层次知识的全过程,包括数据信息的收集,数据原型的确定,相关函数的分析,知识的抽取和数据模式分析。统计学中常指的是无假设证实所进行的数据测量和分析。而数据挖掘则是指从数据中自动地抽取模型。数据挖掘包括许多步骤:从大规模数据库中(或从其他来源)取得数据;选择合适的特征属性;挑选合适的样本策略;剔除数据中不正常的数据并补足不够的部分;用恰当的降维、变换使数据挖掘过程与数据模型相适合或相匹配;辨别所得到的是否是知识则需将得到的结果信息化或可视化,然后与现有的知识相结合比较。这些步骤是从数据到知识的必由之路。每一步骤都可能是成功的关键或失败的开始。在一般的定义中数据挖掘是知识获取的一部分

数据挖掘的研究领域涉及广泛,主要包括数据库系统,基于知识的系统,人工智能,机器学习,知识获取,统计学,空间数据库和数据可视化等领域。

1)统计学

统计学在数据样本选择、数据预处理及评价抽取知识的步骤中有非常重要的作用。以往许多统计学的工作是针对数据和假设检验的模型进行评价[2~4],很明显也包括了评价数据挖掘的结果。在数据预处理步骤中,统计学提出了估计噪声参数过程中要用的平滑处理的技术,在一定程度上对补足丢失数据有相当的作用。统计学对检测数据分析、聚类和实验数据参数设计上也有用。但统计学研究的焦点是在于处理小规模数据样本采集和小规模数据集处理的问题上。统计学的工作大多是针对技术和模型的理论方面。于是许多工作是着眼于线性模型、递

增的高斯噪声模型、参数估计和严格分类参数模型上。只有在进行相近模式区别时才强调寻优。大多数数据库用户并不具备恰当使用统计学知识的能力。实际上是要求有关数据库工程师或数据库系统的管理员运用关于数据选择的模型、相当多的域知识和数学知识的能力,在现实中是不大可能的。

2)模式识别

在模式识别工作中,传统上是把注意力集中在符号形式化直接结合实际技术的工作过程中[5~6]。模式识别主要用于分类技术和数据的聚类技术上。模式识别中的分类和含义分析是对数据挖掘概念形成的开端。多数模式识别的算法和方法对降维、变换和设置都有直接的参考意义。在数据挖掘的步骤中,模式识别比统计学更为重要,因为它强调了计算机算法、更加复杂的数据结构和更多的搜索。典型的数据分类是用一定的分类技术把数据从一个向量空间映射到另外一个向量空间。但这种映射并不总是有意义的。比如,形状上“方”与“圆”的差别就很难说比性别上“男”与“女”的差别大。显然,这其中应当注重其语言的含义。

3)人工智能

人工智能对于数据挖掘来说原来一直是在符号的层次上处理数据,而对于连续变量注意较少。在机器学习和基于案例的推理中,分类和聚类算法着重于启发式搜索和非参数模型。对于其结果,并不象模式识别和统计学在数学上的精确和要求严格分析。随着计算机学习理论的发展。人工智能把注意力集中在了表达广义分类的模糊边缘上。机器学习主要是对数据挖掘过程中的数据变量选择处理极有帮助,在通过大量搜索表达式和选择变量上有很大作用。另外,机器学习对于发现数据结构,特别是人工智能中的不确定推理技术和基于贝叶斯模型推理是

统计学意义上的分布密度估计的强有力的工具。人工智能技术建立了关于特定领域知识和数据的已有知识的相对容易理解和自然的框架。人工智能的其他技术,包括知识获取技术、知识搜索和知识表达在数据挖掘的数据变换、数据选择、数据预处理等步骤中都有作用。

4)数据库

数据库及其相关技术显然与数据挖掘有直接的关系。数据库是原始数据的处理、储存和操作的基础。随着平行和分布式数据库的使用,对数据录入和检索有更高的要求。数据挖掘中很重要的一个问题是对数据库中数据的在线分析,主要是如何利用多种方法对数据进行实时处理和分析。一般来说,通过相关数据结构的标准化可以克服要求特殊存取数据的困难。在数据挖掘中为了对数据进行特定的统计和计数,则要对各个特征属性进行组合形成新的数据库。其中,对于数据挖掘所得知识支持率的研究是个新领域。为直接从数据库中发现联系规则,

经以产品的形式出现了依靠分析和分类表达式的新方法。此外,为了对数据库问题的求解和优化,利用新出现的数据库定向技术更加易于寻求数据库中隐含的模式。

三、数据挖掘技术的方法

数据挖掘涉及的学科领域和方法很多,如多种分类法[2]。根据开采任务分,可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据开采对象分,有关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异

质数据库、遗产数据库以及环球网Web;根据开采方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。本文的实例中我们采用了一种基于分类的方法,它的优点是可以在较小的复杂度下,进行有效的挖掘。

四、数据挖掘技术的应用

首先介绍一个著名的实例:SKICAT。然后结合实际具体探讨数据挖掘技术在Bayesian中的应用。

(一) 天文数据分析中的数据挖掘

数据挖掘在天文学上有一个非常著名的应用系统:SKICAT[3]。它是美国加州理工学院(CIT)与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具。SKICAT既是第一个获得相当成功的数据挖掘应用,也是人工智能技术在天文学和空间科学上第一批成功应用之一。利用SKICAT,天文学家已发现了16个新的极其遥远的类星体,该项发现能帮助天文工作者更好地研究类星体的形成以及早期宇宙的结构。

在天文学研究以及航天数据分析中,人们遇到了一个很大的难题,即人工对大批量数据分析的无能为力。这里所说的数据量一般在数千兆以上,现有的大型数据库只是把数据以另一种形式给出,而并没有对数据进行更深层次的处理,因而, 在对大量天体数据进行分析的过程中,很难起到根本的促进作用。

SKICAT不仅提供对数据库的管理,并且通过训练可以对天体进行辨识。它采用了模块化设计,共有三个主要功能模块:分类建立、分类管理及统计分析。其中,分类建立是通过有示范的训练建立对天体的辨识机制。对天体的辨识是进行其它数据分析的前提,只有将天体识别出来以后,如是星系还是星球,才能进行相应的研究。使用SKICAT对天体数据进行分析,一方面是通过机器学习将知识提取过程由学习算法完成,从而可以实现对大批量数据的分析,另一方面是辨识那些亮度很低、人工难以判读的天体图像,以进行后续分析。SKICAT通过有效地对天体图像的特征进行定义,对那些亮度较低的图像可以得到比人工分类更好的结果。将仅由象素包含的关于天体的多维信息通过变换形成低维空间内的向量空间,并进而利用示范学习进行分类,以达到人工直接观察无法达到的分类精度。

(二) Bayesian网络中的数据挖掘

Bayesian网是由变量及其关联组成的有向图。它主要用于处理实际应用中遇到的不确定信息。图中还带有各变量的概率分布,定量的概率信息被表示为条件概率表中在决策前对实际问题的先验的理解与把握。

然而,针对实际问题建立一个应用于决策的Bayesian网络时存在两个问题。首先,我们常常是凭个人对问题的经验与理解来建立模型的,因此建立的模型很难反映问题的客观实际。其二,在确定Bayesian网中的条件概率表时,我们需要用定量的数值以支持计算,但实际中,人们很难给出一个具体概率值,一般的应用往往是根据经验,这就要求我们有一个合理的方法,从大量杂乱无序的数据中将它们找到,并填入条件概率表中去。

而数据挖掘技术恰恰为我们提供了一系列有效的方法来寻找隐藏于大规模数据之中的有用数据,以解决以上两个问题。在Bayesian建模中,我们需要找到各变量之间的关联,这种关联与关系数据库理论中的函数依赖(Functional Dependence)近似,后者表示了关系表中各属性(Attribute)之间的依赖关系,而前者表示Bayesian网中各变量是关系表中的属性时,两者的表示含义是一致而和谐的。因而,只要在关系表的元组中发掘出函数依赖,便可以认清Bayesian网中各变量之间的关系,从而给建模予以理论依据,并且在数量上以具体值作为技术支持。

将数据挖掘中函数依赖的挖掘与Bayesian网技术结合起来[4],将带来以下好处:

1)简化Bayesian网的结构; 2)根据所挖掘出的函数依赖的置信度,可以使Bayesian网中各结点关联更加清晰且有理可寻。

从技术线路方面来看,首先,在数据库表中挖掘函数依赖:我们采取了函数依赖理论,运用分类的方法来进行数据挖掘。其步骤:①将原始数据库中的数据按属性值进行一次性分类;②将函数依赖规则的等价形式用分类表示出来;③计算每一分类所得的等价类的个数;④采用立方体算法(Levelwise算法)对空间进行搜索;⑤为减少搜索的算法复杂度,提供几种裁减算法进行计算时的精化;⑥获得满足置信度大于某个阀值的函数依赖。

发掘出的函数依赖形如: AB,A决定B,且函数依赖在发掘中带有相应的置信度a,其含义为: Aa的程度上决定B。在绿化决策系统中,:树种的树冠形状在a的程度上(a%)决定了绿化效果属性,或树种的成本在b%的程度上影响了人们对树种的“总评分”。

与选树种有决定性影响的因素包括树种本身的特性。树种本身的特性所涉及的变量为:绿化效果、抗逆性、成本、土壤要求、总评分。根据这些变量进行调查,收集调查表,便可以建立一个关于各树种特性的数据库。在此基础上,运用数据挖掘中采集函数依赖的技术,可以找到各属性之间的依赖关系。

例如:设在调查表中搜索发现,成本决定总评分的程度仅为0.0001,则认为不是一个值得考虑的依赖。经过专家咨询可知,成本对选树种的影响并不大,因为对一个确定的环境来说,培养的费用都差不多,而各树种的种子成本也差不多,因此,并不影响树种的选择。可以看到,在数据库中发现的函数依赖是来源于客观实际的,是对应用领域知识的客观反映。因而,在建Bayesian网时,成本变量指向总评分的有向弧便可以忽略,成本将不再作为我们选择树种时考虑的因素。

再如:挖掘结果表示树冠形状对绿化效果的影响力是50%。这样的函数依赖告诉我们在这两个变量之间有着密切的联系,应在Bayesian网建立时,将有向弧树冠形状→绿化效果加入其中,考察两者之间的关联和影响。

由此,通过数据依赖的挖掘,我们可以得到在构建Bayesian网时不是基于经验而是基于对大规模数据库的搜索所获得的理论依据[5],这无疑使得Bayesian网能正确地反映客观本质,在建好一个Bayesian网后须对有关变量填入先验的条件概率,此时,同样可以对所建的数据库元组进行搜索,分类,计算而得。

(2)发掘条件概率

我们仍在数据库中采用分类法,若有AB (a)为函数依赖,则将A属性进行按值分类,每个A属性状态为一等价类。例如, A为“树冠形状”,则可以分为“圆形”,“伞形”等,其中圆形等价类中包含了300个元组。而绿化效果等价类为“好”、“中”、“差”。“树冠形状”中“圆形”等价类中“绿化效果”为“好”的等价类元组个数为180,则其所占比例为180/300=0.6,即作为条件概率填入表格。由此计算出Bayesian网中所有变量的先验条件概率。

五、数据挖掘的基本问题

(一)数据挖掘所获取目标知识分类

从目前的资料看来,数据挖掘所希望研究和获取的知识可以分为三类,:分类问题,联系问题,时间序列问题。

(1)分类问题

分类的问题就是根据一定的领域知识和给定的数组,找出分类的各条规则。例如一个航空邮购滑雪旅行包顾客分类问题:首先把相对较少数目的旅行包邮寄给事先选定的一组顾客样本,然后就可得到有良好反应的大概的规律。这种大概的规律一般以顾客各特征属性的值不同范围来描述的。比如说对该产品邮购有良好反应的顾客一般为年龄在3040之间,年收入高于40000美元,并驾驶跑车的人。各个有关因素可按一定顺序排列,从而据此挑选出最恰当的顾客群体,也是销售所急需的知识。

(2)联系问题

联系的问题就是得到如下形式的规则:A1∧…∧Am B1∧…∧Bn,其中Ai(i[1,,m])Bj(j[1,,n])均为在数据库中相关数据特征属性值的集合。例如在一个大型超市的售货记录数据库处理后可能得到这样的规则:如果顾客在一次购买行为中,买了某种品牌的牛奶,一般他/她会买某种品牌(另一品牌)的面包。

(3)时间序列问题

指的是若干种事件发生的顺序规则(或规律)。例如通过对股票市场的数据库进行处理,可得到如下规则:AT&T公司股票价格在两个连续交易日中上涨,而同一时期内DEC公司股票价格没有下跌。则IBM公司股票在随后的一个交易日内会上涨。

(二)数据挖掘的统一框架

O为实体集。以D(m)代表某一分类m的特征域,R(m)代表m分类的特征的所处区间。以M为分类的一个集合。其中M的一些分类m的域处于O中或R(m)中。以o.m代表以分类m作用于记录o上的结果。分类m指以一定的属性的不同组合方式。表达式p(o.l),lM中的分类组成,p为集合M中一些分类mR(m)中的所限定的表述。例如表述为“年长的”,当纪录tage大于65,

“长年的(t.age)”为真。这里,ageM中的一个分类。

数据挖掘的最终目的是希望得到相关的规则。我们通常以形式F(o) G(o)表达一条规则。其中F为表达式的组合,为这条规则的前件。而G为另外一个表达式,为这条规则的后件。对于所得规则可靠程度的衡量,一般以置信度c来表征。置信度如下定义:实体集O,如果O中最少以c比例的纪录同时满足FG,则规则F(o) G(o)以置信度c成立,其中0 c 1

对于给定目标集O,所产生的规则应当满足一定的附加约束。通常,约束以两种形式出现:①合成约束:是出现在规则中的表述和方法的约束。例如,我们可能只关心规则后件中包含特征属性值x的规则,或只关心前件中出现特征属性值y的规则。也可能对前件、后件都有约束。②支持率约束:是在O实体集中对某一规则支持的纪录的数目的有关约束。支持率定义为实体集O中满足规则前件、后件的交。支持率与置信度是有区别的。置信度是规则强度的一个度量,而支持率相应的是统计意义上的比率。出于实际应用的目的。我们经常只对支持率达到

一定阀值的规则感兴趣,这是要求计算规则支持率约束的另外一个原因。

以下是对数据挖掘问题如何对应各类种数据挖掘问题表述的一般方法。

(1)分类问题

分类器的训练集由实体集O中的有标号的数组构成。标号把记录分到各个组中。相应每一记录的属性,有一方法返回记录的属性值,另有一方法返回记录的标号。分类问题的目标是发现训练集中的每一类数组特征的规则。就是说发现所有后件为“o.标号-方法=k,k为不同标号值范围。例如,找出规则中后件带有“积极的反应(o.positive-response=yes)”的目标市场分类问题,在滑雪旅行包中可有如

下表示:(30 u.age 40)and(u.salary 40k) u.positive-response=yes这里规则的后件的限制是典型的合成约束。另一个合成约束是前件中不能出现带标号的数值。在规则确认前,实体应当满足一定的前件的支持率条件。

(2)联系问题

实体集O是一个售货交易数据库。相应每个交易集中的项,有一个二进制的值,依据是否在集中的项出现而返回真或假。同样应满足置信度和支持率

要求。

(3)时间序列问题

时间序列问题中的实体集O包含时间因素(可能有不同的细化程度,例如天,分钟,小时等)。以上文中提到的股市问题为例,stock(s,t1,t2)为一方法则有:

(t.stock(AT&T,0,1)=UP)(t.stock(AT&T,1,2)=UP)(t.stock(DEC,0,1)DOWN)(t.stock(DEC,1,2)DOWN) (t.stock(IBM,2,3)=UP)

时间序列规则可看成一类特殊的联系规则,前件和后件在时间序列上相续出现。在此,支持率的约束作用尤其重要。

六. 掘在多个科学中的融合。

()掘在多个科学中的融合

() 商务与数据挖掘——完美结合

(1)商务中进行成功的数据挖掘得益于:

a) 电子商务提供海量的数据

i. 如果一个电子商务网站平均每个小时卖出五件物品,那么它一个月的平均点击量是160万次。

b) 丰富的记录信息

i. 良好的WEB站点设计将有助于获得丰富的信息

c) 干净的数据

i. 从电子商务站点收集的都是电子数据,无需人工输入或者是从历史系统进行整合

d) 研究成果容易转化

i. 在电子商务中,很多知识发现都可以进行直接应用

e) 投资收益容易衡量

(2) 对电子商务网站的Web数据挖掘

通常在一个电子商务网站上应用的数据挖掘技术是Web数据挖掘。

我们可以在一个电子商务网站挖掘些什么东西?

a) 内容挖掘 (Web Content Mining)

b) 结构挖掘 (Web Structure Mining)

c) 使用挖掘 (Web Usage Mining)

(3)Web Usage Mining的作用

通过对电子商务网站应用Web Usage Mining数据挖掘技术,可以提高站点的质量改善WEB缓存,缓解网络交通,提高性能在电子商务中还可捕捉到大量的采购过程的细节,为更加深入的分析提供了可能

七、结束语

本文总结了数据挖掘的定义、目标、相关领域及其一般方法,基于数据挖掘技术数据资料之丰富,现在在论文中提到的相关领域已有了一些数据挖掘技术的模型,限于篇幅不再一一列举。作为一个新兴的研究领域,数据挖掘仍然有许多问题需要进行深入研究。例如:从同一个数据库的不同层次上提取相应的规则;确定一种方便、实用、统一的语言表达数据挖掘的结果;应用数据挖掘技术,基于动态数据库、面向对象技术、多媒体数据库及从国际互连网上抽取新的、有用的规则。当然,数据挖掘技术同样应该包括对于所抽取规则的准确性及数据的安全性、私密性的保护等领域的研究。

数据挖掘技术是一个发展十分快的领域, 随着对数据挖掘技术在各领域日益广泛的应用,实现了数据资源共享及技术发展的跨域,从而大大提高了工作效率,并带来巨大的成功。21世纪是信息时代的社会,“信息不仅是资源,更是财富”,要实现经济的腾飞,需依赖高新尖科技的发展,故利用提供的信息,充分进行数据挖掘,则将为数据库的应用开辟了广阔的前景,也为人类的文明开辟了一个崭新的时代。

【参考文献】

[1]王军.数据挖掘技术[J] .计算机世界, 1998

[2]朱延劭.科学研究的好帮手[J] .计算机世界, 1998

[3]何新贵.人工智能新进展[M] .北京:清华大学出版社, 1994.

[4]陶浦周,李强.Sybase数据库技术大全[M] .北京:科学出版社, 1995.

[5]唐小我,曹长修,.组合预测权系数向量的进一步研究[J],预测,1994

[6]曾勇,唐小我.线性规划在非负权重最优组合预测计算中的应用[J].预测,1994

[7]杨桂元,唐小我.提高组合预测模型精度的方法探讨[J].预测,1997

[8]唐纪,王景.组合预测方法评述[J].预测,1999

本文来源:https://www.2haoxitong.net/k/doc/6c65396959fb770bf78a6529647d27284b733728.html

《数据挖掘技术及其应用.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式