数据挖掘技术课程论文

发布时间:2019-10-21 09:48:01   来源:文档文库   
字号:

目  录

[ ] 1

1. 绪论 1

1.1题目背景及目的 1

1.2题目研究方法 1

2. 数据挖掘技术介绍 1

2.1 数据挖掘与电子商务概述 1

2.2 数据挖掘技术 2

2.2.1 统计技术 2

2.2.2 关联规则 2

2.2.3 基于历史的分析MBRMemory-based Reasoning 2

2.2.5 聚集检测 3

2.2.6 连接分析 3

2.2.7 决策树 3

2.2.8 神经网络 3

2.2.9 粗糙集 4

2.2.10 回归分析 4

3. 数据挖掘阶段分析 4

3.1 项目理解阶段 4

3.2 数据理解和数据准备 4

3.3 建立模型阶段 5

3.4 模型评估阶段 5

3.5 模型发布阶段 6

4. 数据挖掘技术在电子商务中的应用 6

4.1电子商务中数据挖掘技术的适用价值 6

4.1.1客户细分 6

4.1.2客户获得 6

4.1.3客户保持 7

4.2数据挖掘技术在电子商务推荐系统的具体应用 7

4.2.1推荐系统在电子商务活动中的作用 7

4.2.2数据挖掘技术应用于推荐系统具体表现 8

5. 结束语 9


数据挖掘技术在电子商务中的应用

[ ] 电子商务在现代商务活动中的正变得日趋重要,随着大数据时代的到来,商务信息显得尤为重要,在电子商务中谁掌握了有利的市场信息,谁就能在这个竞争激烈电商行业中占据绝对的优势。而数据挖掘技术是获取信息的最有效的技术工具。本文讨论了数据挖掘的主要方法,具体阐述了数据挖掘技术在电子商务中的作用及应用。 

1. 绪论

1.1题目背景及目的

随着社会的进一步发展,互联网技术日新月异的发展和政府对信息技术大力扶持,电子商务已进入高速而稳定的增长期。如何在日渐激烈的电商市场竞争中脱颖而出,电商企业从数据挖掘找到突破口。客户是企业得以持续生存的基础,运用数据挖掘技术,掌握客户的未来消费趋势,就可以预见未来,赢得未来。

 1.2题目研究方法

通过对数据挖掘技术的详细介绍,以及以电子商务中的数据挖掘案例分析,体现电子商务中数据挖掘技术的作用和针对性。

2. 数据挖掘技术介绍

2.1 数据挖掘与电子商务概述

数据挖掘(Data Mining)起源于数据库中的知识发现(Knowledge Discover in DatabaseKDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡且最终可理解的及有潜在应用价值的信息或模式。数据挖掘技术是计算机技术发展的热点之一。通过对历史积累的大量数据的有效挖掘,可以发现隐藏的规律或模式,为决策提供支持,而这些规律或模式是不能够依靠简单的数据查询得到,或者是不能在可接受的时间内得到。这些规律或模式可以进一步在专业人员的识别下成为知识,并可以应用到以客户为中心的企业决策分析和管理的各个不同领域和阶段。

电子商务(E-Commerce)是以指利用电子数据交换(Electronic Data InterchangeEDI)、电子邮件(E-mail)、电子资金转账(Electronic Funds TransferEFT)和Internet等主要技术在个人、企业和国家之间进行无纸化的信息交换,包括商品信息及其订购信息、资金信息及其支付信息、安全及其认证信息等,即以现代信息技术为手段,以经济效益为中心的现代化商业运转模式。其最终目标是实现商务活动的网络化、自动化与智能化。

随着Internet的迅速发展,电子商务的应用不断深入。在电子商务应用系统中,相关的用户数据日益增多,数据挖掘技术具有从大量复杂数据中发现特定规律的能力。商业电子化的趋势不仅为客户提供了便利的交易方式和广泛的选择,同时也为商家提供了更加深入了解客户需求信息和购物行为特征的可能性。 

2.2 数据挖掘技术

2.2.1 统计技术

统计技术对数据集进行挖掘的主要思想是:统计的方法对给定的数据集合假定了一个分步或者概率的模型(比如一个正态分布),然后根据模型采用相应的方法进行挖掘。

2.2.2 关联规则

数据关联是数据库中存在的一类很重要的可以发现的知识。若两个或者多个变量的取值之间存在某种规律性,就成为关联。关联可分为简单关联,时序关联,因果关联。关联分析的目的是找出数据库中隐含的关联网,优势并不知道数据库中的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

2.2.3 基于历史的分析MBRMemory-based Reasoning

MBR的本质是:现根据经验知识寻找相似情况,然后再将这些情况的信息应用于当前的例子中。使用的三个问题是:寻找确定的历史数据;决定表示历史数据的最有效方法;决定距离函数、联合函数和邻近的数量。

2.2.4 遗传算法GAGenetic Aigorithms

该算法是基于进化理论,并采用遗传结合、遗传变异及自然选择等方法优化结果。主要思想是:根据适者生存的原则,形成由当前群体中最适合的规则组成新的群体,以及这些规则的后代。规则的适合度(Fitness)是对训练样本分类准确性的评估。

2.2.5 聚集检测

将物理或者抽象对象的集合,分组成为由类似的对象组成的多个类的过程被成为聚类。在由聚类生成的数据对象集合中,这些对象具有相似性,并与其他集合中的对象具有相异性。这种相异度是根据描述对象的属性值来计算的,距离是经常被采用的度量方法。

2.2.6 连接分析

它的基本理论是图论,图论的思想是寻找一个可以得出好的结果但不是完美结果的算法。这种不完美但是可行的思想模式,可以使之运用到更广的用户群中。

2.2.7 决策树

决策树是能够被看成一棵树的预测模型。树的每个分支都是一个分类的问题,内部节点表示在一个属性上的测试,树叶代表类或者分布。

决策树算法是目前应用最广泛的归纳推理算法之一,是一种逼近离散值函数的方法,也可将它看作是一个布尔函数。它是以实例为基础的归纳学习算法,通过对一组训练数据的学习,构造出决策树形式的只是表示,在决策树的内节点进行属性值的比较并根据不同的属性值判断从该节点向下的分枝,从而在决策树叶节点得到结论。所以从根到叶节点的一条路径就对应着一条规则,整棵决策树就对应着一组吸取表达式规则。

2.2.8 神经网络

神经网络是指由大量神经元互联而成的网络,类似于服务器互联而成的因特网。它主要由“神经元”的互联,或按组织的结点构成。通常神经网络模型由三个层次组成:输入层,中间层,输出层。

在神经元求得输入值后,再汇总计算总输入值;由过滤机比较总输出值,确定网络的输出值。可以通过模拟判断,来不断修正计算的“权值”来达到学习的目的,增加判断的正确性。

2.2.9 粗糙集

粗糙值是一种研究不确定性问题的工具,它根据已有的给定问题的知识,对问题论域进行划分,然后对划分后的每个组成部分确定其对某个概念的支持程度。它用于从数据库中发现分类规则的基本思路是将数据库中的属性分为条件属性和结论属性。对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。

2.2.10 回归分析

回归分析分为线性回归、多元回归和非线性回归。线性回归中,数据是用直线建模;多元回归是线性回归的扩展,涉及多个预测变量。非线性回归是在基本线性模型上添加多个项式项形成为线性回归模型。

3. 数据挖掘阶段分析

数据挖掘阶段作为整个项目的重中之重,通常数据挖掘的流程包括项目理解、数据理解、数据准备、建立模型、模型评估和模型发布等。

3.1 项目理解阶段

此阶段主要确定项目目标,订立项目成功的标准,完成项目形势评估及制定项目执行计划等等。项目成功的标准是模型的准确率达到多少、纯度达到多少等,而形式评估则主要对项目实施未来可能遇到的问题作一个简单的评估,业务及行业规则不断变化,模型在应用过程中会遇到各种问题等。至于项目计划则是对整个项目需要的时间,资源作一个整体的规划把控。除此之外,此阶段还需要对相关专业术语进行解释说明等。

3.2 数据理解和数据准备

数据挖掘对数据的依赖性非常高,为了能够实现数据挖掘的目标,要求收集的数据足够全,质量尽量高。通常在这个阶段花费的时间占整个项目的一半还多。原始数据采集完后,还需要对数据进行描述和处理,比如进一步探查已选变量与目标变量之间是否存在关系,各变量数据的基本探查,如空值数目、唯一值数目、最小最大值的统计以及数据质量检验等。

3.3 建立模型阶段

数据挖掘项目的建立模型都要经过三个阶段:建立模型,测试并调整模型,应用模型。建立模型,就得选择相应的建模技术,可能应用到决策树、神经网络及回归分析等统计技术,在项目运营的各个阶段,数据不同,运营宣传方式也不同,这就可能利用模型的组合,各个项目阶段采用不同的模型进行预测分析。

3.4 模型评估阶段

模型的应用通常需要较长周期的检验才能准确的评估其是否满足商业标准,在传统行业,这个评估通常在模型应用一年后作出。此外,对于设计的模型,不但要评估模型的准确性和通用性,还要努力找出相关商业理由解释说明模型的欠缺,把生成的结果与建模初订立的标准进行对比,同时根据目前的状况对数据仓库变量做适当的修正调整,以满足日常数据分析需要。

3.5 模型发布阶段

在模型通过评估满足商业目标情况后,进入模型发布阶段。模型发布阶段的内容主要包括相关模型检测和维护计划(常规调整和适应性的调整<应用于节假日及寒暑假等特殊日期>),以确保模型的准确预测和预警。同时,还要利用模型指导日常运营发布相关数据分析报告。

4. 数据挖掘技术在电子商务的应用

4.1电子商务中数据挖掘技术的适用价值

目前对于数据挖掘的对象和使用的方法层出不穷,随着电子商务的兴起,电子商务将是未来数据挖掘的主要发展方向之一,它在各种商业领域都存在广泛的使用价值。

4.1.1客户细分

随着以客户为中心的经营理念不断深入人心,分析客户、了解客户并引导客户的需求己成为企业经营的重要课题。通过对电子商务系统收集的交易数据进行分析,可以按各种客户指标(如自然属性、收入贡献交易额、价值度等)对客户分类,然后确定不同类型客户的行为模式以便采取相应的营销措施促使企业利润的最大化。

4.1.2客户获得

比如通过数据挖掘可以发现购买某种商品的消费者是男性还是女性,学历、收入如何,有什么爱好,是什么职业等等。甚至可以发现不同的人在购买该种商品的相关商品后多长时间有可能购买该种商品,以及什么样的人会购买什么型号的该种商品等等。也许很多因素表面上看起来和购买该种商品不存在任何联系,但数据挖掘的结果却证明他们之间有联系。在采用了数据挖掘后,针对目标客户发送的广告的有效性和回应率将得到大幅度的提高,推销的成本将大大降低。

4.1.3客户保持

数据挖掘可以把你大量的客户分成不同的类,在每个类里的客户拥有相似的属性,而不同类里的客户的属性也不同。你完全可以做到给不同类的客户提供完全不同的服务来提高客户的满意度。数据挖掘还可以发现具有哪些特征的客户有可能流失,这样挽留客户的措施将具有针对性,挽留客户的费用将下降。

4.2数据挖掘技术在电子商务推荐系统的具体应用  

数据挖掘技术应用于电子商务方方面面,在这里以电子商务活动中推荐系统应用数据挖掘技术为案列进行简单分析。

4.2.1推荐系统在电子商务活动中的作用

一般说来,推荐系统在电子商务活动中的作用可以归纳为以下几点: 

1)把浏览者转变成购买者 

己有明确购物目标的客户也许可以借助检索系统找到自己需要的东西,但对于大多数只是四处逛逛看一看的冲浪者,或是对自己的需要比较模糊的购买者,很难有耐心在几十页长的商品目录逐项查找是否有自己感兴趣的东西。而推荐系统通过合适的推荐,可以将一个浏览者变为购买者。 

2提高电子商务系统的交叉销售能力

电子商务推荐系统在用户购买过程中向用户提供其它有价值的商品推荐,用户能够从提供的推荐列表中购买自己确实需要但在购买过程中没有想到的商品,从而有效提高电子商务系统的交叉销售。例如站点可以根据客户当前购物车中的物品向他们推荐一些和这些己选购的物品相关的物品。如果有一个比较好的推荐系统,则企业的平均定购量就可能增加。 

3提高客户对电子商务网站忠诚度

与传统的商务模式相比,电子商务系统使得用户拥有越来越多的选择,用户更换商家及其方便,只需要一两次鼠标的点击就可以在不同电子商务系统之间跳转。电子商务推荐系统分析用户的购买习惯,根据用户需求向用户提供有价值的商品推荐。如果电子商务推荐系统的推荐质量很高,用户可以很容易找到自己想要的商品,那么用户会再次访问这个网站,并会推荐给其他人,这对于网站来说是一个很大的优势。

4.2.2数据挖掘技术应用于推荐系统具体表现 

数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现先前未知的有用模式。电子商务推荐系统将数据挖掘技术运用到电子商务领域,以数据挖掘为基础衍生出许多算法。 

1)基于关联规则的推荐算法 

关联规则是数据挖掘技术的一种,该技术挖掘发现大量数据中项集之间有趣的关联或相关联系。关联规则挖掘的一个典型例子就是购物篮分析。该过程通过发现顾客放入其购物篮中不同商品之间的联系,分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助商家制定营销策略。   

关联规则的挖掘是一个两步过程: 首先,找出所有频繁项集。这些项集出现的频繁性至少和预定义的最小支持计数一样。其次,由频繁项集产生强关联规则。这些规则必须满足最小支持度和最小置信度。   

关联规则挖掘算法的瓶颈出现在第一步。由于第一步需要反复扫描交易数据库,所以增加了系统的开销,降低了系统性能。例如:Aprior算法是一种最有影响的挖掘关联规则频繁项集的算法。该算法使用一种称为逐层搜索的迭代方法寻找频繁项集,它开创性地使用基于支持度的剪枝技术,系统地控制候选项集指数增长。它缺点就是由于数据库数据的增多,需要多次扫描数据库,这样便影响了系统的性能。 

2基于内同的推荐算法   

基于内容的推荐系统的产生根源于信息检索与信息过滤。其具体是根据项之间的相似性来进行推荐的,先用机器学习等技术分析用户已经评分的项的内容,建立用户档案,然后从项集中选择与用户档案相似的项,再从中根据评分选择一定的项推荐给用户,最后根据用户的反馈信息修正推荐。 

基于内容得推荐技术具有一定的局限性。首先,资源内容必须以机器可以理解的格式表示,而很多信息例如图像、视频等多媒体信息是很难做到这一点的;其次,资源内容的分析范围比较小,不能提供较多的建议;再次,基于内容的推荐不能从质量、样式、审美等角度对项进行过滤。 

3协同过滤推荐算法 

协同过滤是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同,协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。 

5. 结束语 

数据挖掘是指按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。电子商务是现代信息技术发展的必然结果,也是未来商业运作模式的必然选择。企业数据量日益庞大,其中真正有价值的信息却很少,利用数据挖掘技术,从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,发挥企业的独特优势,促进管理创新和技术创新。

  

本文来源:https://www.2haoxitong.net/k/doc/eb42c8a719e8b8f67d1cb914.html

《数据挖掘技术课程论文.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式