数据挖掘论文

发布时间:2012-08-28 11:02:01   来源:文档文库   
字号:

工程设计中的实验数据挖掘

摘 要

关键词:

一、 问题重述

1.1 问题背景

工程设计的水平和能力是一个国家和地区工业创新能力和竞争能力的决定性因素之一。近些年来,随着我国各项工程的蓬勃发展,使得工程在立项、可研、方案、施工、调测直至开工这些方面都与实验数据挖掘密不可分。数据挖掘,在人工智能领域,习惯上又称为数据库中的知识发现也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等等。

1.2 问题提出

在工业设计中,采集到了如附表中的数据,该数据是可能对19个因变量有影响的所有可以自变量的数据,第19号变量受到了18个自变量的影响(有的可能没有影响)。

建立数学模型分析研究下面的问题:

要求1:提出的自变量中有的是互相相关的,过多的自变量个数和小样本数给数据分析带来了很大的困难,请辨别出因为相关性需要删除的自变量;

要求2:在采集数据的过程中,每一个样本值(每一列)由于人为因素或者是测量因素导致得到的数据误差很大,是不可信的。请从中挑出一个不可信的样本值;

要求3:建立一种以上模型,得到因变量与自变量的关系,并统计这些模型的计算值与理论值的误差平方和;

要求4:从影响因素中找出排在前五位的因素,并分析影响规律基于所做的以上分析,给出制造单位你的建议。

二、 问题的分析

本题主要任务是:根据所给自变量之间的相关性,删除一部分自变量,并分析分析每一组样本值,从中挑选出一组不可信的样本值。通过建立因变量与自变量的关系模型,统计计算值与理论值的误差平方和,再根据影响因素,找出排在前五位的因素,进而得到分析结果,提出意见。

2.1 问题一分析

2.2 问题二分析

2.3 问题三分析

2.4 问题四分析

三、 基本假设

1、

2、

3、

4、

四、 符号说明

五、 模型的建立与求解

5.1 问题一的模型与求解

5.1.1 模型的分析

在分析自变量与因变量之间的关系时,为了避免遗漏某些重要因素,往往一开始选取自变量指标时,尽可能多地考虑所有的相关因素。而题意中给出了18个自变量,过多的自变量,且变量间的相关度高,这样的数据会给系统分析与建模带来很大不便。而且高相关度的自变量对因变量的影响具有一致性,因此,我们可以通过研究变量间的相似关系,按照变量的相似关系把他们聚合成若干类,选取每类中的一个变量,进而达到删除过多自变量的目的

5.1.2 模型的建立与求解

1) 多元分析的方法选用:

根据上述模型分析,我们需要将18个自变量进行分类,因此,我们选用聚类分析法[1]进行定量的数据分析。聚类分析法是对多个样本(或指标)进行定量分类的一种多元统计分析方法。其主要分为两类:对样本进行分类称为Q类聚类分析,对指标进行分类称为R型聚类分析。根据题意得,所分析的数据是以每项指标为单位进行删除,因此,我们选用R型聚类分析法。

2) 变量数学化

设第19个因变量为word/media/image1.gif18个自变量word/media/image2.gif

3) 计算变量相似性度量[1]

在对变量进行聚类分析时,首先要确定变量的相似性度量,常用的变量相似性度量有:

相关系数:记变量word/media/image3.gif的取值word/media/image4.gif任意的选取两个变量word/media/image3.gifword/media/image5.gif,将它们的相关系数word/media/image6.gif作为相似性度量,即

word/media/image7.gif

夹角余弦:直接利用两个变量word/media/image3.gifword/media/image5.gif的夹角余弦word/media/image6.gif来定义它们的相似性度量,即

word/media/image8.gif

其中以上两种相似度量都可以表示:word/media/image9.gif越接近1word/media/image3.gifword/media/image5.gif越相关或越相似。word/media/image9.gif越接近0word/media/image3.gifword/media/image5.gif的相似性越弱。本文选取相关系数矩阵计算。通过SPSS软件计算得出各变量之间的相关系数表如下表1所示。表中为变量word/media/image10.gifword/media/image11.gif的相关性系数值,其他8种见附录一。

1 各变量之间的相关系数表

4) 变量的聚类:

在变量聚类的问题中,常用的方法有最长距离法、最短距离法等。本文采用采用最短距离法计算类间的相似性度量。最短距离法定义两类变量的距离为

word/media/image14.gif

其中:word/media/image15.gifword/media/image16.gif,这时,word/media/image17.gif与两类中相似性最大的两个变量间的相似性度量值有关。运用Matlab软件编程绘制聚类树型下图1所示。

1 指数聚类树型图

根据文献[2]得知,相关系数可划分级:word/media/image19.gif为低度线性相关;word/media/image20.gif为显著性相关;word/media/image21.gif为高度线性相关。我们根据高度相关关系进行聚类分析,从上图1可以看出,word/media/image10.gifword/media/image22.gif聚为一类,word/media/image23.gifword/media/image11.gif聚为一类后与word/media/image24.gif聚为一类,之后word/media/image10.gifword/media/image22.gif又与word/media/image25.gif聚为一类,word/media/image26.gif聚为一类,最后word/media/image27.gifword/media/image28.gif聚为一类。

被划分到一类的变量之间具有高的相关度,可以认为他们对因变量的变化影响是一致的,因此只保留同一类中的一个自变量即可。即从类word/media/image29.gif,类word/media/image30.gif,类word/media/image31.gif中,保留各自类中的一个自变量。

5) 选取类中自变量:

为了达到被选取指标能够反映因变量不同的性质(即各自指标之间相关性较低),因此在保证被划分到一类的变量之间具有较高的相关性的同时,需要使得该类中的变量与不属于该类的所有变量之间相关度均较低。

下面建立模型解决类中自变量选取问题。

假设指标word/media/image32.gif全集word/media/image33.gif聚类得到集合为word/media/image34.gif,在全集word/media/image33.gif中任意的选取两个指标word/media/image35.gif,需要分析类中变量与类外中变量的关系,则有约束条件:

word/media/image36.gif

为使该类中的变量与不属于该类的所有变量之间相关度均较低,假设word/media/image37.gifword/media/image3.gif的相关系数为word/media/image38.gif则有目标函数:

word/media/image39.gif

综上,可建立如下模型:

word/media/image40.gif

word/media/image41.gif

利用Matlab软件,对上述模型进行求解。对于类word/media/image29.gif的求解结果见下表2所示。

2 第一类的求解结果

与上述解法相同,求得第二类word/media/image30.gif第三word/media/image31.gif的结果见下表3、下表4所示。

3第二类的求解结果

4第三类的求解结果

综上所述,我们得到需要删除的自变量有:word/media/image54.gif

5.2 问题二的模型与求解

5.3.1 模型的分析

我们在分析数据时,为了反映各个指标的概貌而引入了平均值。在此我们暂假设各指标的平均值近似等于各指标的真实值。从采集数据中确定一组不可信的样本值实际上是分析每组样本值各指标与其平均值相差的距离。若各指标的相差距离值均较小时,我们可以认为该组的样本值较为可信,若出现相差距离值均较大时,这样会导致累积误差[2],因此可以认为该组的样本值不可信。由此,可以建立比较平均的偏离程度模型进行检验。

5.3.2 模型的准备

1) 自变量编号的重新设定

为了便于模型表述,将所留下的自变量按照标号的大小顺序,分别重新编号为1-11。具体对应关系见表5所示。

表5 自变量编号对应表

2) 自变量的正态分布检验

由于正态分布反映随着与平均水平的偏离程度的增大,事件发生的概率先是缓慢下降,然后比较急剧地下降,最后渐渐趋于零的一种统计规律。因此为了验证引入的平均值相差模型的正确性,我们对各个指标的样本值进行正态分布检验。通过SPSS软件计算得到检验结果如下图2所示(下图只有四个指标的正态分布检验图,其他七种见附表二):

图2 正态分布检验图

通过SPSS软件对指标样本值进行正态分布检验时,得出显著性水平均大于0.05,均显示接受原假设,说明指标的样本值均服从正态分布。因此,我们可以通过建立比较平均的偏离程度模型进行不可信样本值筛选。

5.3.3 模型的建立与求解

1) 数据无量纲化处理

各个指标之间由于计量单位和数量级尽不相同,从而使得各指标间不具有综合性,不能直接进行综合分析,这时就必须采用某种方法对各指标数据进行无量纲化处理,来解决各指标数值不可综合性问题。其中无量纲化的方法有四大类:极值化方法、标准化方法、均值化方法、标准差化方法。根据参考文献[3]、[4]得知,在多变量综合分析中,当原始数据呈正态分布的情况下,利用标准化方法进行数据无量纲化处理是较为合理的。

在上述的模型准备中,我们得到11种指标的样本值均符合正态分布,因此,本问题可以具有采用标准化方法的合理性。标准化方法[1]的基本思想是对数据同时进行中心化压缩处理,即

word/media/image60.gif

其中word/media/image61.gifword/media/image62.gifword/media/image63.gif表示第i指标的第j样本值,word/media/image64.gif表示word/media/image63.gif标准化后处理得到的值。通过Matlab软件编程得到标准化处理后的数据,见下表5所示。

5 标准化处理后的数据

2) 建立比较平均的偏离程度模型

为了比较每一组样本值偏离平均值的程度,就需要计算在该组中所有指标与平均值偏差的平方和word/media/image76.gif,由于对数据进行标准化处理后,使得每一项指标的平均值为0因此j组样本值的平方和表达式为:

word/media/image77.gif

其中word/media/image78.gif

由于定义偏差程度最大的一组样本即是应被挑出的不可信的样本值(即偏差平方和最大的一组),因此通过计算得到结果见下表6所示:

613组样本的偏差平方和

通过上表得出,第13组样本的偏差平方和最大,综上所述,我们认为不可信的样本组即是13组样本。

5.3 问题三的模型与求解

5.4.1 模型的分析

根据题意建立模型得到因变量与自变量的关系,实际上是建立模型去寻找因变量与自变量之间的函数关系。由于因变量是由多个自变量得到的一组数据,,因此该问题可以转化为多元曲线拟合问题。通过建立因变量与自变量之间的回归模型,进而得到两者关系,并求得计算值与理论值的误差平方和

5.4.2 模型的建立与求解

1) 建立多元线性回归模型

为了简化模型,我们假设因变量与自变量之间是线性关系。根据题意,因变量受多个自变量影响,且又由问题一中11自变量之间相关性较弱的结论可以初步建立多元线性回归模型。

假设word/media/image80.gif为与自变量word/media/image81.gif无关的未知参数,即称为回归系数。可得多元线性回归分析的模型为

word/media/image82.gif

假设word/media/image63.gif表示j组样本的i自变量值,word/media/image83.gif表示第j组样本的因变量值。现有12独立测量的样本值数据word/media/image84.gifword/media/image85.gif,有word/media/image86.gif得,

word/media/image87.gif

word/media/image88.gif

word/media/image89.gif

word/media/image90.gif

因此可以将word/media/image86.gif式转化为

word/media/image91.gif

其中word/media/image92.gifword/media/image93.gif阶单位矩阵。

通过Matlab统计工具箱用命令regress实现多元线性回归,其方法是最小二乘法,得到word/media/image80.gif的估计值word/media/image94.gif见下表7所示。

7 回归系数的估计值及置信区间

且由word/media/image96.gifword/media/image107.gif的置信区间分别是:word/media/image108.gifword/media/image109.gifword/media/image110.gifword/media/image111.gifword/media/image112.gifword/media/image113.gifword/media/image114.gifword/media/image115.gifword/media/image116.gifword/media/image117.gifword/media/image118.gif

残差分析:根据模型求解中所求得的word/media/image119.gif置信区间,将其两端区间端点减去word/media/image119.gif得到残差的置信区间,做出残差图像。见下图3

3 残差图像

根据上图分析,12组样本值数据的残差离原点均较近,且残差置信区间均包含零点,因此,我们可以确定线性回归模型

word/media/image121.gif

word/media/image122.gif

word/media/image123.gif

能够较好的符合原始数据,所建立的模型具有一定的准确性。

2) 计算理论值与计算值的误差平方和word/media/image124.gif,即

word/media/image125.gif

经过计算得到,word/media/image126.gif

5.4.3 模型进一步修正

1) 建立逐步回归模型

本问题在问题一所筛选的自变量基础上进行线性回归,虽然这些自变量之间不具有高度相关性,但是我们不能保证这些变量之间完全相互独立,或者默写自变量对因变量的影响不是很大。因此,基于11个自变量的线性回归模型不是最优的回归模型。进而,在这种情况下,可用逐步回归分析[5],通过假设检验筛选出有显著影响的因子作为自变量,并建立更优的回归模型。

逐步回归基本思路先确定一初始子集,然后每次从子集外影响显著的变量中引入一个对y影响最大的,再对原来子集中的变量进行检验,变得不显著的变量中剔除一个影响最小的,直到不能引入和剔除为止。

Matlab统计工具箱中逐步回归命令stepwise进行统计分析,通过选择变量确定最终模型为

word/media/image127.gif

word/media/image128.gif

word/media/image129.gifword/media/image130.gifword/media/image131.gif,可知上述模型word/media/image132.gif成立。

2) 计算理论值与计算值的误差平方和word/media/image124.gif,计算得到word/media/image133.gif

5.4 问题四的模型与求解

5.4.1 模型的分析

我们在讨论影响因素的影响力排名时是按聚类分析后所得类指标变量进行讨论的,因为每个类所包含的不同变量表达的都是同一个指标信息,所以用类指标变量对因变量的影响力大小程度,来进行排名,认为每类指标变量所包含的不同变量对因变量的影响程度处于同等水平。

5.4.2 从影响因素中找出排在前五位的因素

对于第四道题,要求得到影响因素中排在前五位的因素。第三问中我们已经得到,自变量和因变量的多元线性回归方程,但在回归方程中,其自变量因素的系数绝对值的大小,不能表明该因素对因变量的重要程度。在回归分析中,标准化回归系数恰好具有此项功能,可以反应自变量对因变量的影响力大小。因此,我们考虑用标准化回归系数来找出影响因素中排名前五的因素。

标准化回归系数的意义是,当其他自变量取值保持不变时,自变量每改变一个标准差,因变量改变b个标准差。标准化回归系数的作用是,比较自变量对因变量变化的贡献大小,系数的绝对值越大该自变量对因变量的影响力越大,消除原始变量单位不同的影响。

标准化回归系数的求解步骤

(1) 首先对变量做标准差标准化量化处理,标准化变量的样本均值为0,标准差为1

(2) 再对标准化后的样本值做回归分析,求出的回归系数即为标准化回归系数。

我们通过SPSS软件,求得的各指标变量的标准化回归系数见下表8所示

8 各指标变量的标准化回归系数表

对表格数据进行说明:

1word/media/image134.gif表明指标变量与因变量成正影响关系,word/media/image135.gif表明各指标变量与因变量成负影响关系;

2)标准化回归系数绝对值越大表明该指标变量对因变量的影响力越大。

因此,由以上表格数据可得出影响因素排名前五的自变量排序是(按影响力从大到小排序)17,13,18,16,3

5.4.3 分析影响规律

由表格中的各指标变量的标准化回归系数与各指标变量与因变量的相关关系进行对比,可以得出

(1) 指标变量与因变量的相关关系越大,并不能说明该指标变量对因变量的影响力越大。由表格中的1713项指标对比,215项指标对比等都可以看出,17指标变量对因变量的影响力大于13

(2) 指标变量与因变量成正相关,但该指标变量与因变量不一定成正影响关系,反之,指标变量与因变量成负相关,该指标变量与因变量不一定成负影响关系。15号指标变量的标准化回归系数是正值,但其与因变量的相关关系是负相关;9号指标变量的标准化回归系数是负值,但其与因变量的相关关系是负相关;

(3) 由表格数据可以看出因变量与各类指标变量的相关关系程度,除1311号指标与因变量是显著相关关系外,其余指标与因变量呈低相关关系;

(4) 对表格数据分析可以看出,这组11类指标变量,大多数对因变量成负影响关系,只有极少数,即16315号类指标变量对因变量成正影响关系,而且这三个指标比变量对因变量的影响力排名都比较靠后。由此可以看出,该组自变量体系对因变量的整体影响效果成负影响关系;

(5) 该组类指标变量与因变量的相关关系,大多数呈负相关关系,只有1639号指标变量与因变量呈正相关,且169指标变量与因变量的相关系数特别小(小于0.1)。3号指标变量与因变量的相关关系程度也是呈低相关的;

(6) 如果要提高因变量的值,则增加与因变量成正影响关系的自变量因素;如果要降低因变量的值,则可通过减少与因变量成负影响关系的自变量因素。

六、 模型的评价

6.1 模型的优缺点

1. 模型优点:

2. 模型缺点:

6.2 模型的应用及推广

七、 参考文献

[1] 司守奎,孙玺菁,数学建模算法与应用,北京:国防工业出版社,2012。

[2] 嵇玮玮,刘中,递增式传感器节点定位方法的累积误差分析及其改进,自然科学版,第32卷第4期:497-498,2008

[3] 叶宗裕,关于多指标综合评价中指标正向化和无量纲化方法的选择[J].浙江统计,2003,(4):24-25

[4] 马立平,统计数据标准化——无量纲化方法[J],北京统计,2000,3:34-35

[5] 骆福添,胡孟璇,Cox模型标准回归系数的探讨,卫生统计,9卷第6,5-7,1992。

八、 附录

附录一

附录二

本文来源:https://www.2haoxitong.net/k/doc/65772830f111f18583d05ad0.html

《数据挖掘论文.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式