数据挖掘课程论文

发布时间:2018-10-08 02:04:53   来源:文档文库   
字号:

海南大学

数据挖掘论文

目: 股票交易日线数据挖掘

号: 20100602310002

名:

业: 10信管

指导老师:

数:

目录

目录 2

1. 数据挖掘目的 3

2.相关基础知识 3

2.1 股票基础知识 3

2.2 数据挖掘基础知识 4

2.2.2数据挖掘的任务 4

3.数据挖掘方案 6

3.1. 数据挖掘软件简介 6

3.2. 股票数据选择 7

3.3. 待验证的股票规律 7

4. 数据挖掘流 8

4.1数据挖掘流图 8

4.2规律验证 9

4.2.2规律2验证 10

4.2.3规律三验证 12

4.3主要节点说明 14

5.小结 15

1.
数据挖掘目的

数据挖掘的目的就是得出隐藏在数据中的有价值的信息,发现数据之间的内在联系与规律。对于本次数据挖掘来说,其目的就是学会用clementine对股票的历史数据进行挖掘,通过数据的分析,找出存在股票历史数据中的规律,或者验证已存在的股票规律。同时也加深自己对股票知识的了解和对clementine软件的应用能力。为人们决策提供指导性信息,为公司找出其中的客户为公司带来利润的规律,如二八原则、啤酒与尿布的现象等。

2.相关基础知识

2.1 股票基础知识

2.1.1 股票

是一种有价证券, 是股份公司在筹集资本时向出资人公开或私下发行的、用 以证明出资人的股本身份和权利,并根据持有人所持有的股份数享有权益和承担 义务的凭证。股票代表着其持有人(股东)对股份公司的所有权,每一股同类型 股票所代表的公司所有权是相等的,即同股同权。股票可以公开上市,也可以 不上市。在股票市场上,股票也是投资和投机的对象。对股票的某些投机炒作行 为,例如无货沽空,可以造成金融市场的动荡。

2.1.2 开盘价

开盘价又称开市价,是指某种证券在证券交易所每个交易日开市后的第一笔 买卖成交价格。世界上大多数证券交易所都采用成交额最大原则来确定开盘价。

2.1.3 收盘价

收盘价是指某种证券在证券交易所一天交易活动结束前最后一笔交易的成 交价格。如当日没有成交,则采用最近一次的成交价格作为收盘价,因为收盘价 是当日行情的标准,又是下一个交易日开盘价的依据,可据以预测未来证券市场 行情;所以投资者对行情分析时,一般采用收盘价作为计算依据。

2.1.4 最高价

指某种证券在每个交易日从开始到收市的交易过程中所产生的最高价。

2.1.5 最低价

指某种证券在每个交易日从开始到收市的交易过程中所产生的最低价。

2.1.6 成交量

成交量是指一个时间单位内对某项交易成交的数量。一般情况下,成交量大 且价格上涨的股票,趋势向好。成交量持续低迷时,一般出现在熊市或股票整理 阶段,市场交投不活跃。成交量是判断股票走势的重要依据,对分析主力行为提 供了重要的依据。

2.1.7 K 线

K 线图这种图表源处于日本德川幕府时代(16031867 年),被当时日本米 市的商人用来记录米市的行情与价格波动,后因其细腻独到的标画方式而被引入 到股市及期货市场。通过 K 线图,我们能够把每日或某一周期的市况现完全记录 下来,股价经过一段时间的盘档后,在图上即形成一种特殊区域或形态,不同的 形态显示出不同意义。插入线、抱线和利好刺激线这三种 K 线组合是最常见的经 典见底形态。

2.1.8 日线

任何一天的开盘价\收盘价\最高价\最低价,划出的一跟中间粗一些,两端细 一些的线,就是日线,日线是每天一根的 K 线.5PMA10PMA,20PMA。分别代表 5 日、10 日、20 日均线。黄色的是 5PMA 5 日均线;紫色的是 10PMA 10 均线;绿色的是 20PMA 20 日均线。

2.2 数据挖掘基础知识

2.2.1 数据挖掘

数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的 数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的 过程。随着信息 技术的高速发展,人们积累的数据量急剧增长,动辄以 TB 计, 如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需 要应运而生发展起来 的数据处理技术。是知识发现(Knowledge Discovery in Database)的关键步骤。

2.2.2数据挖掘的任务

(1) 关联分析(association analysis)

关联规则挖掘是由 Rakesh Apwal 等人首先提出的。两个或两个以上变量的取 值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、 可被发现的知识。关联分为简 单关联、时序关联和因果关联。关联分析的目的 是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则 的相关性,还不断引入兴趣度、相关 性等参数,使得所挖掘的规则更符合需求。

(2) 聚类分析(clustering)

聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同 类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可 能的数据属性之间的相互关系。

(3) 分类(classification)

分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类 的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是 利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预 测。

(4) 预测(predication

预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种 类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。

(5) 时序模式(time-series pattern

时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一

样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不 同。

(6) 偏差分析(deviation

在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数 据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结 果与参照之间的差别。

2.2.3 数据挖掘方法

(1) 神经网络方法

神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和

高度容错等特性,非常适合解决数据挖掘的问题。

(2) 遗传算法

遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。

(3) 决策树方法

决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别 适合大规模的数据处理。

(4) 统计分析方法

在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性 关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析 可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。

(5) 模糊集方法

即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和

模糊聚类分析。

(6) 粗集方法

粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点: 不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理 的对象是类似二维关系表的信息表。

(7) 覆盖正例排斥反例方法

它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合

中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去, 相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)

3.数据挖掘方案

3.1. 数据挖掘软件简介

本次的数据挖掘所运用的软件是 Clementine 软件。

Clementine SPSS 的数据挖掘应用工具。这种工具可把直观的用户图形界 面与多种分析技术相结合。这些技术包括神经元网络、关联规则和规则归纳技术, 这些分析能力由一个易于使用的可视化编程环境所提供。作为一个数据挖掘平台,Clementine 结合商业技术可以快速建立预测性 模型,进而应用到商业活动中,帮助人们改进决策过程。强大的数据挖掘功 能和显著的投资回报率使得 Clementine 在业界久负盛誉。同那些仅仅着重于 模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据 挖掘工具相比, Clementine 其功能强大的数据挖掘算法,使数据挖掘贯穿业 务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。 Clementinee 所使用的图形表现是在屏幕上拖动、按下和连接功能节点。节 点的类型分为数据访问节点、数据操纵节点、数据可视化节点、机器学习节点和 模型分析节点。模型产生过程由从托盘中选择正确的节点、把它们放到屏幕上和 连接节点组成。Clementinee 提供了丰富的数据访问能力,其中包括对展开文件 和关系数据库(通过 ODBC)的访问。Clementine 具有通过把建模结果写回一个与

ODBC 兼容的 DBMS 而使它们保持一致的能力。Clementine 可在 WindowsNT Intel Penhum 系统运行。Clementine 的数据可视化能力包括分布图、线性图和网 络分析。C1emetine 是一个强大的产品。以公布的用户基推测试来看,它在可伸 缩性、预测准确率和处理的时间方面都表现得很好。总的来说,C1gneBtine 对小 规模和大规模的分析实现都很合适。

3.2. 股票数据选择

股票的选择是随机选择的。用股票代码/67=02(我学号的后两位)计算可得 所要研究的股票(此过程运用 Excel 表格的取余,然后用筛选即可选出符合条件 的股票)。所以根据公式可计算出多支符合条件的股票,从中我选择自己感兴趣的股票深证万科A000002和上证道博股份(600132)。同时用它们的日线作为参考,对股票的数据进行研究。

3.3. 待验证的股票规律

3.3.1 股市的涨跌是呈现周期性变化的且涨幅呈正态分布?

这种现象指的是在股市开盘后的一种周期性的现象,具体表现在股票价格上 上的周期性涨落,当股市达到高潮后,一段时间后又将返回下跌,返回低潮。

3.3.2国家对房地产行业的宏观调控政策对股市中房地产行业是否有影响?房价上涨对地产股有什么影响?

指近10年来,国家为了控制房地产的价格在一个合理的范围内,所出台的 一系列与房地产行业相关的政策,这条规律就是研究在政策出台之后,股市中的房地产行业是否会受其影响而产生波动。

3.3.3不同类型的上市公司由于产业的不同企业发展的经历差异其所表现出的股价涨幅波动也是否是有差异?

4.数据挖掘流

4.1数据挖掘流图

分别做出万科和道博股份的数据流图如图1、图2所示:

1 万科的数据流图

2道博股份的数据流图

3万科道博股份合并后的数据流图

4.2规律验证

4.2.1规律一验证

对于规律一我们可以把两支股票的直方图都做出来进行比较验证分析股票涨幅分布中存在的规律。

4 涨幅直方图(万科)

5 涨幅直方图(道博股份)

由图45可以很清楚的看出两支股票的涨幅直方图都是满足正态分布的由此我们可以判断规律一是正确的。

4.2.2规律2验证

万科是著名的大型房地产企业对于规律2我们可以应用万科的散点图来验证

6万科涨幅日期散点图

7万科时间涨幅散点图

通过两个散点图都可以看出05年以前万科的涨幅波动很小,一直很平稳,05年以后万科的涨幅波动开始变的非常大时高时低。可以看出国家房地产政策的调整对地产企业的股票市场是有影响的。

9万科收盘散点图

从上图的万科收盘散点图可以看出随着房地产市场化的进行由于商品房价格的不断上涨,万科地产的收盘股价上涨明显,近两年由于国家抑制房价地产股的收盘价又开始稍有下降。

4.2.3规律三验证

10万科道博股份合并后的数据流图

11剔出波动大于10后的涨幅时间散点图

12收盘价时间散点图

武汉道博股份有限公司是1992 10 30 日经武汉市经济体制改革委员会武体改[ 1992] 44 号文批准,由海南省高科技开发总公司、三亚市河西城市信用社、海南宏盛实业有限公司等三家单位作为主要发起人,以定向募集方式设立的股份有限公司。万科企业股份有限公司成立于19845月,是目前中国最大的专业住宅开发企业,也是股市里的代表性地产蓝筹股。总部设在广东深圳,至2009年,已在20多个城市设立分公司。从两个公司的介绍上我们不难看出两个公司的差异,再看他们的涨幅散点图和收盘价散点图我们能发现05年之前万科股价一直稳定小幅上涨而道博股份则是整个不断波动,05年后万科进入大涨阶段道博股份则依旧波动不断。我们不难看出不同的上市企业由于其背景不同股市的表现也是不一样的。

4.3主要节点说明

每只股票的数据挖掘流图的基本思路是一致的,挖掘方法也基本一致,所以只需要对一只股票数据挖掘流图进行节点分析即可。

1、下图是导入数据的节点,将TXT格式的股票数据处理后即可导入软件。

2、下图是到处节点,就是过滤掉没有用的数据,对规律1而言,就是过滤掉成交量、成交额等对此次数据挖掘没有用的数据,方便分析。

3、下图分别为直方图与多重菜点图,用于显示数据的规律。

4、下图的节点是对多个数据流进行合并。

5、下图用于新添加字段的图。

6、下图用于选择用于分析的数据。

7、下图用于生成表

8、散点图形/多重散点图

5.小结

5.1学习心得

通过这次股票数据的数据挖掘实验,使自己对于数据挖掘这门学科有了较为广泛的了解。同时,也对实验软件Clementine的操作有了比较熟悉的掌握。这不仅仅是一次论文写作,而是利用软件来解决问题的实践过程,不仅尝到了软件的利用,同时也学会了问题的分析方法与过程。与此同时,也使我对股票的知识有了进一步了解,了解到了一些国家的在地产方面的经济政策。

5.2写作中的出现的问题与解决方案

软件Clementine是一款很实用,同时也是功能庞大的软件,因此在操作过程中,有很多的步骤会操作错误,不过这款软件的错误提示功能很不错。在老师和其他同学的指导帮助下完成了本文非常感谢大家。还有通过互联网上的知识搜索,也学习很多不会不了解的东西,知道了分析股票的方法。随着论文的结束大学的课业生活也接近尾声了我会把这段美好的时光珍藏于脑海中。

本文来源:https://www.2haoxitong.net/k/doc/ffac1818f6ec4afe04a1b0717fd5360cba1a8dec.html

《数据挖掘课程论文.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式