文档文库

手机版

投诉建议

首页 > 数据挖掘论文

数据挖掘论文

发布时间：2016-07-17 12:37:15 来源：文档文库

小中大

字号：

手机查看

pa车行数据挖掘案例

——电子商务数据挖掘应用

内容摘要

本论文讨论了电子商务中应用数据挖掘工具的现状与主流方法，并通过pa车行的数据挖掘案例分析C4.5、k-means聚类、贝叶斯聚类三种方法的原理、实现与案例并讨论不同方法的优缺点和局限性。

关键字

C4.5；k-means聚类；贝叶斯聚类

1电子商务和数据挖掘概述 1

1．1 电子商务 1

1．2 数据挖掘技术 1

1．3. 数据挖掘过程 2

1. 3. 1 确立目标 2

1．3．2 数据准备 2

1. 3. 3 模式分析 2

2. 数据挖掘的具体应用场景和意义 3

2.1决策树分类算法 3

2.1.1C4.5算法简介 3

2.1.2 C4.5算法的实现 4

2.1.3 C4.5算法的基本原理 5

2.1.4实例：本论文以C4.5算法计算pa车行的各项指标对其影响 7

2.2k-means算法 8

2.2.1k-means算法简介 8

2.2.2 K-means原理 8

2.2.3实例：本论文以k-means算法计算pa车行的各项指标聚类结果 9

2.3贝叶斯分类算法 9

2.3.1贝叶斯分类算法简介 9

2.3.2 贝叶斯分类算法原理 10

2.3.3实例：本论文以贝叶斯分类算法算法计算pa车行的各项指标聚类结果 10

1电子商务和数据挖掘概述

1．1 电子商务

　　电子商务是指个人或企业通过Internet网络，采用数字化电子方式进行商务数据交换和开展商务业务活动。目前国内已有网上商情广告、电子票据交换、网上订购，网上、网上支付结算等多种类型的电子商务形式。电子商务正以其低廉、方便、快捷、安全、可靠、不受时间和空间的限制等突出优点而逐步在全球流行。电子商务是指以Internet网络为载体、利用数字化电子方式开展的商务活动。随着网络技术和数据库技术的飞速发展，电子商务正显示越来越强大的生命力。电子商务的发展促使公司内部收集了大量的数据，并且迫切需要将这些数据转换成有用的信息和知识，为公司创造更多潜在的利润。利用数据挖掘技术可以有效地帮助企业分析从网上获取的大量数据，发现隐藏在其后的规律性，提取出有效信息，进而指导企业调整营销策略，给客户提供动态的个性化的高效率服务

1．2 数据挖掘技术

　数据挖掘(Data Mining)，又称数据库中的知识发现(Knowledge Discovery in Database, KDD)，是从大量的、不完全的、有噪声的、模糊的和随机的数据中，提取隐含在其中的、人们事先不知道的，但又是潜在有用的信息和知识的过程。数据挖掘是一门广义的交叉学科，它汇聚了不同领域尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的知识。数据挖掘技术从一开始就是面向应用领域，它不仅是面向特定数据库的简单检索查询调用，而且，要对数据进行微观、中观乃至宏观的统计、分析、综合和推理，以指定实际问题的求解，企图发现事件间的相互关联，甚至利用已有的数据对未来的活动进行预测。数据挖掘技术在金融、保险、电信、大型超市等积累有大量数据的电子商务行业有着广泛的应用，如信用分析、风险分析、欺诈检验、用户聚类分析、消费者习惯分析等。

　　而电子商务中的数据挖掘是一项综合技术涉及到Internet技术学、人工智能、、信息学、学等多个领域。

1．3. 数据挖掘过程

　挖掘数据过程可以分为3个步骤：确立分析目标，数据预准备，模式分析，挖掘结果的表述和评价。

1. 3. 1 确立目标

清晰地定义业务问题和认清数据挖掘的目标是进行数据挖掘的第一步，也是最重要

步。要想充分发挥数据挖掘的价值，首要的条件是要对用户的目标有一个清晰明确的定义

因此，在挖掘之前要明确业务的目标和需求。

1．3．2 数据准备

实际系统中的数据一般都具有不完全性、冗余性和模糊性。因此，数据挖掘一般不对原始数据进行挖掘，要通过预处理提供准确、简洁的数据。预处理主要完成以下工作：包括合并数据，将多个文件或多个数据库中的数据进行合并处理；选择数据，提取出适合分析的数据集合；数据清洗、过滤，剔除一些无关记录，将文件、图形、图像及多媒体等文件转换成可便于数据挖掘的格式等。

1. 3. 3 模式分析

模式分析是从模式发现阶段获得的模式、规则中过滤掉不感兴趣的规则和模式。通过技术手段，对得到的模式进行数据分析，得出有意义的结论。常用的技术手段有：关联规则、分类、聚类、序列模式等。

电子商务是现代信息技术发展的必然结果，也是未来商业运作模式的必然选择。利用数据挖掘技术来分析大量的数据，可以挖掘出商品的消费规律与客户的访问模式，帮助企业制定有效的营销策略，充分发挥企业的独特优势，促进管理创新和技术创新，提高企业竞争力。在大多数的商业领域中，业务发展的主要指标包括新客户的获取能力。企业的市场部门人员可以采用传统的方法来发展新客户，如开展广告活动；也可以根据所了解的目标客户群，将他们分类，然后进行直销活动。但是，随客户数量不断增长和每位客户的细节因素增多，要得出选择出相关的人口调查属性的筛选条件也会变得很困难。而数据挖掘技术可以帮助完成潜在客户的筛选工作。

算法能够以图形化的形式表现挖掘的结果，从而方便于使用者快速做出决定或预测。决策树实际在各行业应用非常广泛，如客户资源管理（CRM）系统等

。

4．挖掘结果的表述和评价

这个阶段分为结果表述和结果评价两个步骤。将挖掘出的结果以一种易于理解的形表示出来，并进行分析和评价。具体包括消除无关的、多余的模式，过滤出要呈现给用的信息。利用可视化技术将有意义的模式以图形或逻辑可视化的形式表示，转化为用户以理解的语言。成功的应用数据挖掘技术可以把原始数据转换为更简洁、更易理解、可确定义关系的形式，此外还可以解决发现的结果与以前知识的潜在冲突及利用统计方法模式进行评价，从而决定是否需要重复以前的操作，以得到最优、最适合的模式。我们可将分析所得到的知识集成到业务信息系统的组织结构中去，实现知识的同化。

综上所述，数据挖掘是一个多种专家合作的过程，也是一个在资金上和技术上高投的过程，这一过程要反复进行。在反复过程中，不断地趋近事物的本质，不断地优化问的解决方案。

2. 数据挖掘的具体应用场景和意义

2.1决策树分类算法

2.1.1C4.5算法简介

数据挖掘中最常用、最经典的分类算法，是决策树（Decision Tree）用于分类和预测的主要技术，它着眼于从一组无规则的事例推理出决策树表示形式的分类规则，采用自顶向下的递归方式，在决策树的内部节点进行属性值的比较，并根据不同属性判断从该节点向下分支，在决策树的叶节点得到结论。因此，从根节点到叶节点就对应着一条合理规则，整棵树就对应着一组表达式规则。基于决策树算法的一个最大的优点是它在学习过程中不需要使用者了解很多背景知识，只要训练事例能够用属性即结论的方式表达出来，就能使用该算法进行学习。

决策树技术是一种对海量数据集进行分类的非常有效的方法。通过构造决策树模型，提取有价值的分类规则，帮助决策者做出准确的预测已经应用在很多领域。决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。

决策树的典型算法有ID3、C4.5和CART等，基于决策树的分类模型有如下几个特点：

（1）决策树方法结构简单，便于理解；

（2）决策树模型效率高，对训练集较大的情况较为适合；

（3）决策树方法通常不需要接受训练集数据外的知识；

（4）决策树方法具有较高的分类精确度。

本论文主要通过分析C4.5算法来研究决策树算法。在决策树算法中，最常用的、最经典的是C4.5算法，它在决策树算法中的主要优点是：形象直观。该算法通过两个步骤来建立决策树：树的生成阶段和树的剪枝阶段。该算法主要基于信息论中的熵理论。熵在系统学上是表示事物的无序度，是系统混乱程度的统计量。C4.5基于生成的决策树中节点所含的信息熵最小的原理。它把信息增益率作为属性选择的度量标准，可以得出很容易理解的决策规则。

C4.5算法的优点是产生的分类规则易于理解，准确率较高。缺点就是在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。此外，C4.5算法只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时，程序无法运行。

2.1.2 C4.5算法的实现

假设用S代表当前样本集，当前候选属性集用A表示，则C4.5算法C4.5formtree(S,A)的伪代码如下。

算法：Generate_decision_tree由给定的训练数据产生一棵决策树

输入：训练样本samples；候选属性的集合attributelist

输出：一棵决策树

（1）创建根节点N；

（2） IF S都属于同一类C，则返回N为叶节点，标记为类C；

（3） IF attributelist为空 OR S中所剩的样本数少于某给定值

则返回N为叶节点，标记N为S中出现最多的类；

（4） FOR each attributelist中的属性

计算信息增益率information gain ratio；

（5） N的测试属性test.attribute = attributelist具有最高信息增益率的属性；

（6） IF测试属性为连续型

则找到该属性的分割阈值；

（7） For each由节点N一个新的叶子节点{

If该叶子节点对应的样本子集S’为空

则分裂此叶子节点生成新叶节点，将其标记为S中出现最多的类

Else

在该叶子节点上执行C4.5formtree(S’,S’.attributelist)，继续对它分裂；

}

（8）计算每个节点的分类错误，进行剪枝。

2.1.3 C4.5算法的基本原理

设S是s个数据样本的集合。假定类标号Ci(I = 1,……,m)具有m个不同的值，设si是类Ci中的样本数。对一个给定的样本分类所需的期望信息由下式给出：

其中，是任意样本属于的概率，并用si/s来估计。

设属性A具有v个子集,……,;其中，包含S中这样一些样本，它们在A上具有值。如果A选作测试属性，则这些子集对应于由包含集合S的节点生长出来的分枝。设是子集中类的样本数。根据由A划分成子集的熵由下式给出：

其中，项充当第j个子集的权，并且等于子集（即A值为）中的样本个数除以s中的样本总数。熵值越小，子集划分的纯度越高。对于给定的子集有：

其中，=是中的样本属于类的概率。

在A上分枝将获得的编码信息是：

以上和ID3算法的基本原理相同，而C4.5所不同的是在后面使用信息增益比例来取代信息增益。

其中，到是c个值的属性A分割S而形成的c个样本子集。

这时，在属性A上所得到的信息增益比为：

C4.5算法计算每个属性的信息增益比。具有最高信息增益比的属性选作给定集合S的测试属性。创建一个节点，并以该属性标记，对属性的每个值创建分枝，并据此划分样本。当然C4.5算法本身也存在一些不足之处，如处理连续属性比较耗时、计算信息增益率的速度还有待提高等，

2.1.4实例：本论文以C4.5算法计算pa车行的各项指标对其影响

C4.5可以看出不同层级分类，但无法发现其中关键因素所在点，也即无法处理模糊数据的聚类分组，因此我们引入k-means算法。

2.2k-means算法

2.2.1k-means算法简介

k-means算法接受参数k；然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个 “中心对象”（引力中心）来进行计算的。假设要把样本集分为c个类别，算法描述如下：

（1）适当选择c个类的初始中心；

（2）在第k次迭代中，对任意一个样本，求其到c个中心的距离，将该样本归到距离最短的中心所在的类；

（3）利用均值等方法更新该类的中心值；

（4）对于所有的c个聚类中心，如果利用（2）（3）的迭代法更新后，值保持不变，则迭代结束，否则继续迭代。

2.2.2 K-means原理

K-means面对的第一个问题是如何保证收敛，前面的算法中强调结束条件就是收敛，可以证明的是K-means完全可以保证收敛性。下面我们定性的描述一下收敛性，我们定义畸变函数（distortion function）如下：

J函数表示每个样本点到其质心的距离平方和。K-means是要将J调整到最小。假设当前J没有达到最小值，那么首先可以固定每个类的质心，调整每个样例的所属的类别来让J函数减少，同样，固定，调整每个类的质心也可以使J减小。这两个过程就是内循环中使J单调递减的过程。当J递减到最小时，和c也同时收敛。

2.2.3实例：本论文以k-means算法计算pa车行的各项指标聚类结果

k-means聚类分析可以发现不同关键点并找出其关联性，但对于目标函数的实现无法寻找具体的线性关系，因此我们引入贝叶斯分类算法

2.3贝叶斯分类算法

2.3.1贝叶斯分类算法简介

贝叶斯分类算法是统计学分类方法，它是一类利用概率统计知识进行分类的算法。在许多场合，朴素贝叶斯(Naive Bayes，NB)分类算法可以与决策树和神经网络分类算法相媲美，该算法能运用到大型数据库中，且方法简单、分类准确率高、速度快。由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值，而此假设在实际情况中经常是不成立的，因此其分类准确率可能会下降。

贝叶斯公式