数据挖掘结课论文

发布时间:2018-10-17 21:06:28   来源:文档文库   
字号:

数据挖掘——技术与应用综述

****

()

 要 数据挖掘是近年来出现的新技术。它已用于企业决策支持, 市场策略制定等。并将成为决策支持系统的一个重要组成部分。本文主要从技术和应用两个方面对数据挖掘进行了详细的讨论。

关键词:数据挖掘; 知识发现; 数据库; 数据仓库; 决策支持系统 

Surveying DataMining: Technologies and Applications

(Hebei University of Science and Technology Institute of Technology class fuses L061Shijiazhuang, Hebei 050000)

Abstract: DataM ining is a new technology w h ich appeared recent years. It has been used in decision support

and marketing strategy for enterp rises. DataM ining w ill become important parts of DSS. Th is papermainly give a

comp rehensive perspective of technologies and app lications of DataM ining.

Key word: Data m ining; Information discovery;Database;Data w arehouse;DSS

引言

数据挖掘(或知识发现) 就是从大量的数据中抽取以前未知并具有潜在可用的模式[1]。然而数据挖掘领域还缺之独立性, 数据挖掘是人工智能(A I) 技术与数据库技术的结合。它的核心概念是A I 领域中的机器学习。数据挖掘系统所采用的主要算法是A I 中知识发现技术的应用。比较有代表性的挖掘系统有。Q uest, Kdw , Exp lora, IA GCS, INL EN , DB2M iner。这些系统基本代表了数据挖掘技术的发展[2, 3]。目前数据挖掘研究和开发表明数据挖掘需要覆盖各种各样不同的应用任务, 从数据的预处理到关联规则、聚类分析、数据分类、偏差检查、序列模式等等特定的模式。因此, 这一技术应用是一个极富挑战性的任务。

近年来出现的数据挖掘技术之所以被目前认为具有令人兴奋的研究前景, 是因为它能够获得广泛的应用。如用于支持企业关键性决策, 市场策略的制定等等。面对汹涌而来的大量数据, 企业对数据挖掘应用形成极大的需求, 将使这一技术迅速得到发展和完善。国外, 在大型商业、金融业、保险业、民航等大型企业都开始得到应用。国内目前总体上处于理论探讨、应用试验阶段

1.基本概念和一般结构

数据挖掘的目的就是通过发现令人感兴趣的模式来帮助人们理解大量的原始数据。模式定义如下[4]:

给定一个事实(数据) F, 一个语言L , 以及一些可信度C 的量度, 一个模式S 就是L 中的一个陈述, S 以可信度C 来描述F 的一个子集F s 中的关系, 并使得S 要易于对F s 中所有事实的简单枚举。

对于应用来说, 事实集F 通常都是特别巨大的, 而发现的结果只有在统计学的意义上是有效的,用户旨在寻找对有意义的相对数据部分成立的知识, 而不一定要考虑所有的数据。因此所谓令人感兴趣的模式也就因人而异, 各取所需。

由于数据量特别巨大, 为避免如同人工智能中的组合爆炸问题, 任何大型的商用系统必须需要某种程度的用户参与。这样就应把信息分析员作为数据挖掘系统的一部分来考虑。

挖掘系统中的输入是数据库(或数据仓库) 的数据、信息分析员的指导以及存储在挖掘系统知识库中的知识和规则。选择的数据在引擎中处理, 以生成辅助模式和关系。然后进行评价, 通过与分析员交互以期发现令人感兴趣的模式。有些发现还要加入知识库中, 以便后继的抽取和进行评价。

2.数据挖掘技术

数据挖掘中的关键技术是进行模式识别和关系识别的算法。许多算法来源于人工智能和机器学习等研究领域。此项技术可分成四种常见的任务:

1)关联发现(A ssociation D iscovery) —— 关联分析算法在数据库的记录或对象间抽取关联性。它展示了数据间未知的依赖关系, 根据这种关联性就可从某一数据对象的信息来推断另一数据对象的信息。关联性是一种统计意义上的关系, 并以置信度因子衡量关联的程度。通常须设定最小置信度作为阀值。对于数据类型皆为布尔属性其关联分析算法见文献[5]。在一般情况下, 对于数量属性的数据可通过区间划分的方法将其转化为布尔属性详见文献[6]

2)聚类分析(Clustering A nalysis) —— 聚类分析问题可描述为: 给定n 维空间R 中的m 个向量,把每个向量归属到C 个聚类中的某一个, 使得每个向量与其聚类中心的距离最小[7]。聚类分析问题的实质是一个全局最优问题。K 均值算法是应用较广的算法, 但它不一定能得到全局最优。遗传算法具有计算简单、全局优化效果好的特点, 以及它在组合优化问题方面所具有的优势。其它一些优化效果较好的算法大多需要大量的时间和空间开销。

3.数据挖掘应用

以上描述的不同数据挖掘算法和技术的分类,可以按分析员如何用它们解决现实世界的数据挖掘问题来进行。数据挖掘算法和技术可概括地分为下面几种使用类型:

1)关联发现的使用——关联的一个典型例子是市场菜篮子分析, 此分析与一组产品相关联。通过挖掘事物数据可派生关联规则, 利用此规则可以了解客户的行为。例如, 观察客户对办公用品的订货,在那些订购笔的客户中, 70% 订购也订购了写字台,“笔”是规则的前提,“写字台”是规则的结果, 关联规则中可有任意多个前提和结果。挖掘系统试图在给定的数据集中找到尽可能多的关联规则或模式。此外,70% ”表示了置信度因子。

2)聚类分析——当要分析的数据缺乏描述信息, 或者是无法组织成任何分类模式时, 利用聚类算法可以自动地找到类。聚类功能可用于一组顾客的现金流分析, 这些顾客在一月的特定时间内付帐(例如, 当收到社会保险支票时, 或者月工资存入帐户时, ) 聚类还可用于市场细分, 寻找相关的组[8]

3)分类使用——分类问题涉及规则的查找, 此规则将数据记录划分成不连贯的组, 划分基于数据记录的属性。例子: 信息认可和商店定位。在商店定位中, 首先按成功的商店、一般商店和失败商店进行排列, 然后得出这三类商店各自具有特殊性, 然后选择包含位置属性的地理数据库, 并对每一项预期的商店位置属性进行分析, 以便确定预期的商店定位属于哪一类。

4)神经网络的使用——神经网络已应用于许多商业领域, 例如: 市场营销——此领域需要检查客户的行为以便构造微观市场细分和邮寄表, 并且还要寻找理想的客户群。财经分析此领域包括现金流分析和欺诈检查。商业运作此领域包括传送计划和后勤分析。

5)规则发现和决策树的使用——规则发现算法用于带有属性或描述的数据项中, 其目的是要显式描述抽取的规则。显式规则分析员必须明确的理解并指明规则, 它需要指明的是“好的”和“差的”信用风险客户。没有恰当的解释就“拒绝信用请求”会带来很高的风险。

4.在应用中应注意的问题

在应用中数据挖掘技术除了一些重要特征之外, 还存在一些问题。

1数据质量

由于是数据驱动, 而且相对于不接受管理, 因此很容易遇到数据质量的问题。许多数据库(数据仓库) 很可能是动态的、有错误而且不完整的、有冗余、稀疏的、当然也是很大的。因此在恰当使用知识发现功能和技术的同时, 还要小心的分析异常。

2数据可视化

将数据库大量的数据可视化需要复杂的数据可视化工具。它有助于分析员增加人们的视觉能力, 尤其是数据维数较低的时候。由于数据库中的数据量非常巨大, 很容易使分析员变得不知所措。数据挖掘可通过设定富有成效的探索的始点并按恰当的隐喻来表示数据给予帮助。

3极大数据库的问题

数据需要事务数据和细节数据, 以便了解顾客的行为和购买模式。极大数据库除了在进行系统管理时存在问题以外, 许多挖掘系统也由于极大的数据库尺寸而存在问题。查询数据的尺寸很可能对特定技术(例如神经网络训练) 造成困难。在许多情况下, 需要使用其它的数据抽样技术。

4能和成本

为了满足的领域知识, 并具有很强的调查能力, 同时还应用创造性。创造性允许分析员试验各种知识发行技术, 以便发现大量潜在的模式和关系, 然后分析并了解它, 最后生成预测许多数据挖掘系统的计算要求, 需要在硬件、操作系统软件和数据库系统采用并行技术。这些资源大大增加了成本, 并且使并行型技术专家构成的信息技术资源也变得紧张。

5.展望

数据挖掘的出现只有短短的几年时间, 如今方兴未艾。数据挖掘技术所表现出的广阔应用前景吸引了众多的研究人员和商业公司。一批数据挖掘系统被开发出来, 并在商业、经济、金融、管理等领域都取得了应用性成果。采用的方法综合了机器学习、模式识别、统计学、知识发现、数据库和数据分析等领域的研究成果。但总的说来, 这些系统基本上还停留在实验阶段, 在适应性、系统效率方面还不尽人意。随着硬件环境、挖掘算法的改进及应用经验的积累,数据挖掘技术与应用将会得到长足的进展。

参考文献:

[1] Jie Lu, Chao Wang, Guangquan Zhang, Jun Ma. Collaborative Management of Web Ontology with Flexible Access Control[J]. Expert Systems with Applications, 2010, 37(5): 3737-3746.

[2] 杜小勇, 马文峰, 武文娟. 学科领域本体的构建与进化——以经济学领域本体为例[J]. 现代图书情报技术, 2007, 148(3): 7-12.

[3] 邢军, 韩敏. 基于两层向量空间模型和模糊FCA本体学习方法[J]. 计算机研究与发展, 2009, 46(3): 443-451.

[4] 刘晨, 韩燕波, 陈旺虎, 王建武. MINI——一种可减少变更影响范围的本体演化算法[J]. 计算机学报, 2008, 31(5): 711-720.

[5] 鲍爱华, 姚莉, 张维明. 基于变化生成图的OWL本体协同进化方法研究[J]. 计算机科学, 2007, 34(3): 186-191.

[6] Kavalec M. Svdtek V. A Study on Automated Relation Labelling in Ontology Learning[M]. Amsterdam: IOS Press, 2005.

[7] Sini M, Salokhe G, Pardy C, et al. Ontology-based Navigation of Bibliographic Metadata: Example from the Food, Nutrition and Agriculture[C]. Proceedings of the International Conference on the Semantic Web and Digital Libraries, Rome, Italy, 2007: 64-76.

[8] 毛军. 基于RDF的叙词表研究[J]. 情报学报, 2003,22(2): 163-168.

本文来源:https://www.2haoxitong.net/k/doc/a4ed4f1cff00bed5b9f31d39.html

《数据挖掘结课论文.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式