文档文库

手机版

投诉建议

首页 > 毕业设计（论文）-基于Web内容的数据挖掘分析

毕业设计（论文）-基于Web内容的数据挖掘分析

发布时间：2018-08-26 04:52:19 来源：文档文库

小中大

字号：

手机查看

学号：

基于Web内容的数据挖掘分析

学院名称：计算机与信息工程学院专业名称：计算机科学与技术专业年级班别： 2012级1班姓名：指导教师：

2016年5月

基于Web内容的数据挖掘分析

摘要二十一世纪以来，互联网技术飞速发展，Web也越来越流行，Web信息资源也是呈现爆炸式增长。基于Web内容的数据挖掘分析，通过收集Web访问者的互联网浏览记录、上网习惯等方式得到原始数据，用来改进互联网用户的操作体验，提升Web服务，也有利于商户开展有关的电子商务活动。本文讲述了从Web挖掘到Web内容挖掘、Web结构挖掘、Web使用挖掘的相关内容，重点简述了Web使用挖掘的过程。表明了Web数据挖掘的主要应用方向，并着重分析相关应用方向的关键技术，然后介绍了Web数据挖掘的技术实现，有关联规则，序列模式挖掘技术，分类、聚类技术，路径分析技术，以及最后的Web挖掘技术的流程。

　　关键词数据挖掘；Web挖掘；信息提取

Data Mining Analysis Based on Web Content

　　Abstract The twenty-first century, the rapid development of Internet technology, Web has become increasingly popular, Web information resources is explosive growth. Data mining analysis based on Web content , browse through the collection of Web visitors Internet records, surfing habits and other ways to get the raw data used to improve the operation of the Internet user experience, enhance the Web services, but also conducive to conduct business-related e-commerce activities. This article describes the mining from the Web to Web content mining, Web structure mining, Web usage mining-related content, focusing briefly on Web usage mining process. It indicates the direction of the main application Web data mining, and analyzes the key technology-related application direction, and then introduced the Web data mining technology, association rules, sequential pattern mining, classification, clustering technology, path analysis, and last Web mining process.

　Keywords Data mining; Web mining; Information extraction

前言

　　近年来，网络以及通信技术不断发展，互联网无疑成为全世界影响最大的信息服务的平台，给人们的生活带来了非常大的变革。如今，信息显得特别重要，互联网上的相关信息资源也无比丰富，人们在对待这么丰富的信息资源时，只有研究出关键相关技术才能从中挖掘出有价值的信息来。Web数据挖掘就这样诞生了，它可以帮助人们挖掘出人们所需要的隐藏在巨大信息资源背后的有效信息，符合人们的预期，这已经成了热门的研究方向。

1 Web挖掘

1.1 概念

在1996年，Oren Etzioni第一次提出了Web挖掘这个概念。Web挖掘就是从海量的Web资源当中通过采用数据挖掘的技术能动的得到需要的信息[1，11]。数据挖掘是有数据库、AI、自然语言等几个方面的汇总[2]。

　　Web数据挖掘的步骤如下：

　　1）发现资源：任务是在Web当中检索数据；

　　2）信息选取和数据预处理：将已经挑选得到的某些原始数据根据相关技术进行预处理[3]；

　　3）发现获取概要模式：利用某些特定技术将藏匿在不同的Web当中的概要模式进行提取；

　　4）概要模式分析：确认已经获得的模式并解释。

1.2 Web数据挖掘的分类

　　Web数据挖掘的通常分类方法是依据挖掘对象的不相同，分类如下：web的内容挖掘；web的结构挖掘；web的使用挖掘。如图1。

1.2.1Web的内容挖掘

　　Web的内容挖掘就是针对Web文档，对于那些可以利用原始数据预处理技术处理的海量数据进行处理得到有价值的信息。Web的内容挖掘是对多媒体文档和文本文档来说的。Web的文本数据挖掘，是对Web进行归纳，总结，分析，最终得出结论的[4,12]。近年来，业内对多媒体数据挖掘技术也是越来越成熟，越来越深入。

图1.1 挖掘分类

　　（1）Web的文本数据挖掘

　　Web的文本数据挖掘是把统计学和计算机语言学作为理论基础，从海量的文本数据中提取有用的信息技术[5,13]。

　　（2）Web的多媒体数据挖掘

　　对Web当中的图片、视频、音频等多媒体信息进行相关技术分析获得有效的模式信息，企图得知事物之间的相关性，得出结论。

　　文本总结就是用较少的话语来归纳已经提取得到的信息。

　　文本分类就是根据不同的性质或主题将文本分门别类。

　　文本聚类就是将某些具有相同的特征的文本集合起来。

　　关联分析就是找到文档中不同部分的内在的关系。

1.2.2 Web的结构挖掘

　　Web的结构挖掘是在Web结构和链接关系当中寻找到隐含的信息和模式的过程。Web内容的结构不相同的网页之间的链接的关系，还有网页页面里的树形的关系，如HTML、XML，以及文档URL的目录路径结构等等[6]。利用Web的结构挖掘分析可以更加深入的对Web文档的内容进行分析，从整体的角度审视文档。结构分析可以采用先分解，再变形，最后归纳总结的方法。通过分类技术和聚类技术，获得最为重要的页面，称之为权威页面，目的是能够使得查找信息更加高效。所谓链接关系指的是某些网页当中存在着彼此分享某些内容，相互引用的关系。

　　Web的结构挖掘有很多的应用，包含以下几个方面：

　　1）对网页的采集有着指导作用：因为链接关系，一个网页可能与其他不同的网页相链接，可以对这些相关联的网页进行质量排序，依据实际需要获得一些有价值的网页。

　　2）网页聚类：当前很多网页的聚类分析是依据文本相似度，但是有些可能会不符合预期目标。此时可以采用Web的结构挖掘分析，利用链接关系进行聚类可能会得到意想不到的结果。

　　3）对社会团体进行识别：在互联网上有许多社会团体构建，运行以及维护的网页，可以对这些社会团体进行识别。

　　4）对资源进行自动分类：日常生活中我们经常使用的搜索引擎基本上都是按照层次来分类的，当前主要有贝叶斯概率方式和SVM方式。有专家曾验证表明，在按照分类的样本的学习机当中采用链接的方式进行分析就能够对分类的细化程度进行提高。

1.2.3 Web的使用挖掘

　　Web使用挖掘就是根据在服务器上的搜索记录进行挖掘，就是对用户访问Web网页时的存取方式进行挖掘，以得到用户有关的访问模式[7,14]。使用挖掘即与日志挖掘相同。

　　Web的使用挖掘分析得到互联网使用者的可能的访问模式，如互联网的某些可能访问习惯。根据实际应用不相同，可以分为两种跟踪模式，属于个人的独有的访问模式跟踪以及普通的大众的访问模式跟踪。个性化的访问模式跟踪就是依据个人用户的喜好和特性，构建合适此人的Web站点。一般的访问模式跟踪就是正常根据整理平时网页日志来了解访问模式以及个人倾向，通过采用这些跟踪模式可以很好的了解Web结构以及资源分配者的遍布情况[8]。

　　Web的使用挖掘可以分为以下几个步骤：采集数据，数据预处理，发现模式，分析模式[9]。如图：

图1.2 Web使用挖掘基本过程

2 Web数据挖掘的主要应用研究方向

2.1智能化搜索引擎

　　进入二十一世纪以来，随着互联网技术的快速发展，网络上的信息量急剧增加，网络信息也是即时更新，网络用户们急切需要符合自己需求的工具，用来快速准确的获取有用的信息，尽量使得检索效率增高。由于现有的搜索引擎，如百度、搜狗，已经能很好的达到搜索信息的目的，所以数据挖掘的工程师们从数据挖掘的角度来提高检索信息的准确度，使得个性化服务更加能够应用到网络互联网使用者的日常生活中。

2.1.1目前的搜索引擎存在的不足：

　　1)逻辑运算符不能满足用户需求

　　目前的搜索引擎诸如百度等，所能够提供的提问函数不能够满足用户的需求，很多的搜索引擎只是能够在关键词的布尔连接之间提供帮助，但是例如SQL语言之类较为复杂的搜索不能提供给相关用户。

　　2）在增量检索方面没有研究

　　目前的搜索引擎在增量检索方面还缺乏发展，只能够对检索信息从新开始，而不能将用户曾经的检索过的信息进一步提炼，以达到更加准确的程度。

　　3）只能提供关键词搜索

　　目前广泛使用的关键词搜索不能更好的满足用户的需求，关键词搜索仅仅只是简单的关键词匹配和检索。不能智能化的用语言交流，来达到检索的目的。

　　4）搜索引擎单一

　　面对当前海量的网络资源，单个搜索引擎的力量以及数据库的容量都对搜索能力的范围有所限制，而且不同的搜索引擎之间存在着许多相同的信息。

2.1.2搜索引擎的关键技术

　　1）排序信息和集成信息

　　目前用户利用搜索引擎检索信息时，一般会反馈得到相关文档的摘要。许多搜索引擎会通过自动摘要的功能选择性抽词。这种方法准确度不高。人们可以利用Web的内容挖掘当中的对文本进行归纳的相关技术，也就是说利用Web文档的内容而不是根据某些词的位置来检索信息。对于PageRank算法，就是搜索引擎首先是检索提问，之后再将检索得到的结果进行页面的分析[15]，得到页面的相关等级，然后依据页面对检索结果的重要性进行输出。全球著名的搜索引擎Google就是采用了这个技术才使得其检索结果准确度高。类似的算法还有AuthorityandHub[16]。

　　2）识别搜索条件

　　对搜索条件进行识别含有以下两个方面：一是对查询条件当中的有效成分进行提取；二是依据知识的数据库对所针对的关键词的相关词，如近义词或同义词进行提取。假设搜索引擎在对一个关系复杂的查询进行检索时，若简单的使用自然语言不做替换或提取有效成分，则很难得到预期的结果。所以说，建立一种有效的检索机制对提高检索准确度至关重要。

　　3）个性化搜索引擎

　　个性是每个人的特征，追求个性是每个人的基本心理。搜索引擎与个性相结合，将更加能够得到用户的青睐。开发个性化的搜索引擎的首要前提就是能够准确的获知用户的兴趣爱好。通常为得知用户的兴趣爱好的方法就是根据用户的检索关键词、浏览的网页、书签文件、以及用户的动态更新等等。

2.2智能化Web浏览器

　　随着互联网的发展，信息资源也越来越丰富，传统的Web浏览器在应对用户需求时，可能难以应对。此时智能化的Web浏览器才能让用户需求得到更好的满足。

2.2.1传统的Web浏览器存在的不足：

　　1)不能满足用户的个性化要求；传统的Web浏览器接受用户的需求之后，机械的与服务器连接，服务器所反馈回来的页面不能与用户的个性相匹配，信息准确度不高。

　　2）用户可能会漫无目的的浏览服务器反馈回来的海量信息，就是因为深度优先的检索，结果极有可能使得用户迷失自我，脱离预期目标。

　　3)由于没有信息过滤机制，查询结果有可能会重复，还会有无关的内容，以及过时的信息。使得互联网使用者浪费时间，搜索引擎的检索效率低。

　　4）不存在能够自动的查找新内容的功能。

2.2.2智能Web浏览器的关键技术

　　1)特征选取

　　特征选取是开发个性化Web浏览器的关键，经常使用的方法有依据某个词语出现的频率来选取特征、依据浏览的的行为特征来选取特征、依据能否增加期望信息来选取特征、依据相互交流的信息量来选取特征。

　　2）用户兴趣模型的学习和更新

　　用户兴趣模型是将互联网使用者所感兴趣的内容的概括。主要使用兴趣相关法、贝叶斯分类器等。

　　3)对信息进行过滤以及对文档进行分类

　　利用信息提取技术和模式发现技术达到Web信息过滤的目的，对文档进行分类依据的原则就是用户兴趣，可以对不感兴趣的文档进行屏蔽。

3 Web的挖掘技术的流程

　　Web挖掘技术实现的流程如下图3所示，其中各步骤如下：

　　第一步：对目标样本进行确定，选择好关于用户的目标文本，当作用户的特征信息来提取；

　　第二步：对特征信息进行提取，依据目标样本的相关词的分布情况，在统计词典当中找到目标的特征向量，然后计算得到所对应的权值；

　　第三步：获取网络信息，首先利用搜索引擎的站点来选择得到等待采集的站点，然后再利用Robot程序对静态Web页面进行采集，之后得到被访问站点的网络数据库中的动态信息，形成万维网的资源索引数据库；

　　第四步：对信息进行特征匹配，对索引数据库当中的源信息的特征向量进行提取，并且和目标样本当中的特征向量也要进行相关的匹配，最后用户将得到符合闭值条件的结果信息。

图3.1 Web信息挖掘流程

4 Web数据挖掘技术实现

　　对于Web数据挖掘的实现一般需要以下两类技术[10]：其一是采用人工智能模型，这种模型主要是根据机器学习来建立的，技术方法有自然法则计算方法、神经网络以及Web所独有的路径分析技术等等。其二是基于统计模型，技术方法有分类、聚类、决策树、关联分析等等。

4.1关联规则

　　对于Web数据挖掘，关联规则就是指用户访问的页面与文件当中所挖掘出来的页面相重合的关联度，当这个关联度达到了某个数值时的页面的合集[17-18]。常用的算法有Aprior，对于事物数据库，当遇到一个最大的访问项集，就会将其挖掘出来，这个项集就是依靠Web数据挖掘技术关联规则实现得到的用户访问模式。

4.2序列模式挖掘技术

　　在关联规则挖掘技术当中增加一项时间属性，可以用了明确事物的先后顺序，预测事物的发展趋势，这就是序列模式挖掘。这种挖掘是页面之间的关系模式，也就是说页面之间有先后的关系。从用户的访问序列当中挖掘出来有关的规则是时序模式发现的目的。一段时间内的用户访问行为会被服务器所记录，数据预处理时，各个事物也会有时间记录。

　　根据时间序列分析，可以达到预测用户访问行为的目的，比如，用户购买了物品A，在一定的时间内，他有百分之七十的可能性会购买物品B，这样的话就可以对其投放特定的广告。

4.3分类技术

　　分类的原则就是根据某些特性，将数据库中的数据进行分类[11]。在Web挖掘技术当中，比如在线购买中，可以得出购买人群主要是20-30岁的青年人群，就可以针对这个年龄段人群的特点展开商务活动。当前，最经典的分类方法就是决策树方法。

4.4聚类技术

　　聚类就是将数据库中的数据根据某个相似性划分为各个不同的类别，对符合某一访问规律特征的用户进行用户特征挖掘。

4.5路径分析技术

　　图是Web数据挖掘时用路径分析技术最常用的。图是指G=，其中V是结点集合，E是边集合，结点之间用有向边连接。对于Web挖掘应用，将页面作为顶点集合，E作为有链接关系的有向边集合，入边是被引用，出边是引用，这样就形成了网站的结构图。对于图中的访问路径，最优访问路径就是指对于已经确定的点之间找到一种符合条件的某个量度最小的访问路径。

5 案例分析

　　近年来，我国房地产市场持续火爆，房价成了我国全民关心的话题。为了防止一些发达国家历史上出现过的房地产泡沫，国家屡次出台有关房价问题的政策，持续加大对房地产的调控的力度。因为房地产关乎民生，所以很多网民都在互联网上发表了自己对政府调控房价政策等方面的看法，这就是房地产网络舆情。对于这些网络舆论情况进行分析，可以对其进行有效的控制和疏导。

　　网络舆情分析的步骤如下：

5.1信息采集

　　有关房地产网络舆情的信息采集主要是通过网络爬虫来对网络内容进行抓取。数据的获取主要从这几个方面着手，对列表页进行抓取、相关链接和对下载的详情页面。可以通过内容获取模块、内容分析模块、数据库操作模块实现，以及分析和分解根。

　　房地产网络舆情的信息选取的时间范围为2015年1月1日到2015年6月30日的有关房价调控的评论。对网上各有关房市讨论的热点话题共计抓取2340篇评论。评论者为社会各个行业的人士，除了国内的老百姓，还有海外人士。首先对这些评论采用分类的方式得到有效评论1800篇，其中正面评论1300篇，负面500篇。举例如下表：

表5.1 正面、反面的评论

5.2数据预处理

　　首先对所提取的信息进行文本提取，也就是要去除除文本外的信息如视频，音频等；然后对文本进行分词的处理；最后对文本采用向量空间等方法进行特征表示，以及进行特征选择，得到有效的文本特征，为分析做准备。

5.3文本内容分类

　　对获得的网络舆论采取情感上的倾向性分析。在这个阶段，首先将数据与现有的网络情感倾向性方法进行对比，这些方法是：基于支持向量机的网络舆论情感分析方法，基于K阶最近邻方法的网络情感分析方法以及基于N-gram方法的网络情感分析方法。通过对比发现，选择基于支持向量机的网络舆论情感分析方法更合适。第一根据之前所得的舆情语科库对SVM进行训练，并将其用于房地产舆情分析预测当中。再对所收集的信息按照一个月分为两次的间隔分成10个时间段。进行分类预测。结果如下：

表5.2 分类评论的结果

　　根据上表，绘制折线图如下：

图5.1 房地产行业网络舆论情况

　　由上图可知，评论数呈现上升趋势。

5.4舆论情感倾向性分析

　　网络舆情反映了事态发展，并且能够引起社会的关注。通过对网络舆情的分析能够增加政府与民众的沟通，知晓民意，了解民情，指定合适的政策。

通过对房地产舆情的分析可知，房地产的评论数量急剧增加，更重要的是，差评率高达78.1%。这些结论能够让政府更好的面对房地产问题，了解百姓的真实意见，以便做出更好的政策意见。

结束语

本文讨论了Web挖掘的相关分类和定义。讲述了Web的内容挖掘、Web的结构挖掘、Web的使用挖掘等以及所涉及的关键技术。对于这些方面的研究还不够完善，仍旧处于初级的阶段，互联网在技术和应用两个方面的不断发展使得数据库技术和数据挖掘技术也在不断的发展，这使得Web的数据挖掘技术理论和应用也同样不断发展。本文不仅讨论了Web的数据挖掘的内容，Web挖掘的步骤，Web挖掘的技术等，还研究了关联规则等算法。讨论了Web信息挖掘的流程。

参考文献

[1]张春明. Web挖掘技术研究[J]. 廊坊师范学院学报(自然科学版),2008,No.3505:35-36.

[2]蒋望东,黄发良. 基于WEB的数据挖掘研究综述[J]. 湖南工程学院学报(自然科学版),2007,No.4301:61-64.

[3]王剑钢,连仁明,邢博. 基于龙格库塔四阶积分的流线可视化方法[J]. 无线互联科技,2015,No.6513:130+136.

[4]刘晓鹏,邢长征. 基于WEB文本数据挖掘的研究[J]. 计算机与数字工程,2005,09:75-79.

[5]黄娟. 基于文本挖掘技术的蛋白质相互作用预测方法研究[D].中南大学,2009.

[6]巫满秀. Web Structure Mining在电子商务网站中的应用[J]. 电脑知识与技术(学术交流),2007,05:1215+1226.

[7]陈修宽,董祥军,石芙芙. Web数据挖掘综述[J]. 山东轻工业学院学报(自然科学版),2009,v.23;No.8903:25-28.

[8]林聪. Web挖掘的研究综述[J]. 现代计算机(专业版),2008,No.28707:89-91.

[9]贾丙静,葛华,王传安,赵海燕. Web日志挖掘在校园网建设中的应用研究[J]. 安徽科技学院学报,2010,v.24;No.9403:38-41.

[10]杨铭. Web数据挖掘综述[J]. 科技展望,2014,No.31219:22.

[11]乌岚. 基于多样约束模型的远程教育数据库优化查询算法[J]. 科技通报,2013,v.29;No.17501:154-156+180.

[11]Zheng Chen,Fan Lin,Huan Liu,Yin Liu,Wei-Ying Ma,Liu Wenyin. User Intention Modeling in Web Applications Using Data Mining[J]. World Wide Web,2002,53:.

[12]Robert Cooley,Bamshad Mobasher,Jaideep Srivastava. Data Preparation for Mining World Wide Web Browsing Patterns[J]. Knowledge and Information Systems,1999,11:.

[13]Richard Khoury. Guest Editorial[J]. Journal of Emerging Technologies in Web Intelligence,2012,43:.

[14]Subhendu kumar pani,Deepak Mohapatra,Bikram Keshari Ratha. Integration of Web mining and web crawler: Relevance and State of Art[J]. International Journal on Computer Science and Engineering,2010,23:.

[15]Yang Tingting,Zeng Deliang,Chang Taihua,Zhang Zhigang,Liu Jizhen. A Data Mining Rule Extraction Method for Thermal Power Unit Operation Optimization[J]. IFAC Proceedings Volumes,2009,4213:.

[16]Bruno Agard,Catherine Morency,Martin Trépanier. MINING PUBLIC TRANSPORT USER BEHAVIOUR FROM SMART CARD DATA[J]. IFAC Proceedings Volumes,2006,393:.

[17]赵英刚,龚垒. 基于行为识别和SVM的短信过滤方法研究[J]. 微计算机信息,2012,v.28;No.31901:176-177.

[18]石岩. Web使用挖掘在用户个性化服务系统中的应用[J]. 情报探索,2012,No.18010:83-85.

致谢

笔者在毕业论文准备和撰写时期，得到了于红斌老师真诚指导和热情帮助。由衷的对于红斌老师表示感谢！于红斌老师在我的论文撰写期间，对我的论文反复修改，奉献了自己的课余时间，为了我们能够完成毕业论文，老师不辞辛苦，衷心感谢老师！祝福老师！

徐渊

2016年5月于河南师范大学

本文来源：https://www.2haoxitong.net/k/doc/cfdbe3feb8d528ea81c758f5f61fb7360a4c2b5b.html