数据挖掘期末论文

发布时间:2016-10-19 19:54:52   来源:文档文库   
字号:

医学数据挖掘期末论文

数据挖掘技术在中医方剂研究应用的探讨

学生姓名________

专业_________________

学院__________________

20166
数据挖掘技术在中医方剂研究应用的探讨

湛薇

摘要:现有中医方剂数据存在冗余大不一致的、无效的噪声数据,降低了中医方剂数据的利用,且其方剂数据需要更加高效的存储查询以及共享数据库技术融汇了人工智能模式识别、模糊数学、数据库数理统计等多种技术方法专门用于海量数据的处理[1]从而解决中医方剂研究中所存在的问题,提高利用效率并且发掘潜在信息。本文利用关联规则、聚类分析分类模式等数据挖掘方法揭示方剂配伍规律研究,对中医方剂信息的问题进行探讨。

关键词:中医方剂数据挖掘技术关联规则;聚类分析分类模式

Data mining technology applied in the study of prescription of traditional Chinese medicine

Zhan Wei

Absract:Existing in traditional Chinese medicine prescription data redundancy, big noise, inconsistent, invalid data, reduces the use of traditional Chinese medicine prescription data, and the prescription data need to be more efficient storage, query and sharing. And the database technology of artificial intelligence, pattern recognition, fuzzy mathematics, database, mathematical statistics and so on the many kinds of technical methods specifically for mass data processing [1], so as to solve the problems in the research of TCM prescriptions and improve the utilization efficiency and explore potential information. Based on association rule, clustering analysis and data mining methods such as classification model, reveals the law of herbal research, discusses the problem of prescription of traditional Chinese medicine information.

Key wordsPrescriptions of traditional Chinese medicine; Data mining technology; Association rules; Clustering analysis; Classification model

1引言

中医学信息化在这几年来发展迅速,大量中医方剂数据库已被构建与完善但中医方剂的数据挖掘方面依然有很多亟待解决的问题。虽然众多已经构建的方剂数据库都是经过一系列的校正结构化数据库,但由于在浩瀚的中医历史之中,其年代跨度实在太大、朝代变更下使用的文字、记叙方式与特点的差异悬殊,使得方剂信息依然不可避免的会出现方剂数据不一致、错误、冗余等问题。

数据挖掘技术在数据中正规发现有效的新颖的、潜在有用的,并且最终可以被读懂的模式的过程。具有善于挖掘超大型数据库、非手工地发现隐含知识、增进人类知识的特点[2],因此,数据挖掘技术对于中医方剂研究所存在冗余、不一致、错误等一系列噪声数据的解决具有重大意义。另一方面而中医方剂配伍从本质上来说表现在方与方、药与药、方与药、药与剂量,以及与病症之间的交叉错综的关联与对应。数据挖掘正是通过数据特征、关系、聚类、趋向、偏差特例现象深层的多维分析来揭示数据间复杂特殊的关系发现隐含规则模式规律。

2方剂配伍研究中的数据挖掘方法

2.1关联规则

关联规则是数据挖掘中的一项重要技术,反映大量数据项目集之间的关联相关联系。关联规则也是目前用于中医方剂配伍研究中最经典的一种方法,一般通过维处理复杂的病症、、药关系分解研究药与药、方与方、药与症状等两者之间的关系。

基于关联规则的研究呈现如下特点:主要研究药与药之间的关联关系其他病症、病方之间的关系研究得较少,研究对象包括某一类方或者治疗某一病症的方剂。研究方法不能证明具有普遍适用关联规则的算法参数,即最小支持度大部分10%左右,支持度偏小使得发现的关联关系的可信度不高。

2.2聚类分析

聚类分析即按照相似性和差异性的分布,将数据对象按照不同的属性特征聚集为不同的类,然后结合领域知识对方剂的配伍规律进行分析聚类分析的算法有很多种,如基于划分的聚类算法基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法,不同算法在不同领域以及数据集得到应用。在方剂配伍规律分析领域,使用较多的事层次聚类方法,也可采用模糊聚类方法建立模糊相似矩阵类分析药物之间的相似度。

模糊聚类方法以模糊数学中的聚类方法为理论基础,通过建立模糊矩阵最终获得聚类结果,其方法简单易行,在处理小数据量上可以收到较好效果。

层次聚类算法可以对给定的数据集进行层次的分解,直到某种条件满足为止,具体分为凝聚和分裂两种方法。该算法简单快捷而且能有效地处理大数据集,但是合并或者分裂点的选择至关重要,直接决定了聚类结果的质量。

采用模糊聚类的研究对象多古代经典名方,研究内容是具体方剂的组成原则,即方中君臣佐使药物的确定,验证结果的方法是中医方剂的传统理论,此种研究尚处于探索阶段。而结果准确性未被广泛验证,但是该方法对于方剂配伍规律的理解以及配伍规范化具有重要作用层次聚类算法的研究对为治疗某一病症的复方,依据单味药功效进行聚类,获得若干个药物组合类别,结合病临床症状推断证型和用药,这种研究方法在一定程度上研究了药证之间的关系,并对临床治疗疾病具有指导意义。

2.3分类模式

分类模式是根据数据集的特点构造一个分类器,利用分类器对未知的样本赋予类别的一种技术。分类算法主要有决策树、人工神经网络贝叶斯网络。不同分类方法会产生不同的分类器,分类器的优劣直接影响数据挖掘的效率与准确性。通过分类模式可以实现多角度的方剂分类方剂功效的判定

方剂分类模式研究当中目前常用的分类算法有人工神经网和支持向量机方法。运用这些方法基于已知方剂分类标准,可以将大量方剂按照组方药物的功效性味或归经等众多维度、多角度分成若干类或判定单个方剂的功效,从而对理解方剂中药与药、药与法、药与证等之间的关系奠定研究基础。着方面的研究虽然取得某些成果,形成了多个方剂分析系统,但是涉及的训练集仅是治疗某些病症或者一部著作记载的方剂,缺乏选取大量数据对这些系统的分析结果进行验证。因此分类模式研究方剂配伍规律选择多种算法开展深入研究。

2.4研究方法的分析

首先,从采取的数据来源看,主要有类。一类以现有的中医文献数据库或者辞典为基础选取治疗某类疾病的方剂作为研究的数据一类某段时期的文献为基础选取治疗某类疾病的方剂作为研究的数据还有一类是一些名医的临床治疗处方作为研究数据总体来看,方剂文献的来源趋向于多样性,这给方法的有效性和深入地研究带来了难度。

其次基于当前的文献研究,可以依据拟解决的问题对面提到的三种数据挖掘方法的适用范围归类关联规则所解决的问题包括:治疗某一病症的用药规律药物间的关系;症状的关系药和症状关系;药和证关系。聚类分析所解决的问题包括:方剂中药物君臣佐使的配伍关系;治疗某一病或证的基础方法分类模式所解决的问题包括:方剂的功效归纳,方剂的属性归纳。

最后,从挖掘对象来看,呈现多样性。从单味药到一类药;从单个复方剂治疗某一病症的复方。其中关联规则挖掘的对象包括治疗某一病症的复方某一类复方、某一类药等,分类模式挖掘的对象包括某一类方[3]

3数据挖掘

分类关联规则为例,分类关联规则挖掘中,支持度和置信度是描述分类关联规则兴趣度的两项重要指标。支持度反映规则的普遍性,置信度反映规则的可靠性[4]最小支持度阈值取2%,犹豫《伤寒杂病论的方剂数量为286首286×2%>5,意味着要选择频次大于5 的要不进行分析综合仲景标准DB数据库,认为此最小支持度阈值的取值对研究可行。置信度公式Confidence(A->B)=P(AB),揭示了A出现时,B是否也会出现或有多大的概率出现。如果置信度100%说明A出现时B必定会出现;如果置信度太低,则说明A的出现于B是否出现关系不大,故最小置信度阈值为50%。

数据挖掘部分结果如表1至3所示

通过数据挖掘发现以下规律

按病性归类时,多选用麻黄、桂枝、生姜、大葱等辛之品来治疗寒证多选用黄苓与其他补虚或泻火实药配伍来治疗热证;多用茯苓、甘草、附子、白术等来治疗虚证多用甘草、麻黄、杏仁等来治疗在表的疾病;病位在的疾病,如治疗病位脾胃疾病则多选用细辛、五味子、半夏、干姜等;治疗病位在胆的则多选用柴胡、黄苓等。按病势归类时,发现治疗太阳病时一般选用桂枝、生姜、甘草、大枣、大黄治疗阳明病一般选用黄连、柴胡等;治疗少阳一般选用桂枝、白芍、大枣、甘草、厚朴治疗少阴病一般选川乌、人参白芍、黄芪等

综上得出伤寒杂病论的条文在治疗疾病时。多根据所治疾病的病性、病位和病势的不同来选择、搭配使用不同药物。

4总结

本文分析了数据挖掘技术在中医方剂研究中应用的探讨几种方剂配伍研究中数据挖掘方法进行详细的分析也利用数据挖掘技术究《伤寒杂病论的方剂药物配伍规律,通过数学计算的新方法对《伤寒杂病论的方剂进行挖掘研究,未来完善此项课题努力的方向之一。

参考文献:

[1]王静,崔.数据挖掘技术在中医方剂学研究中的应用[J].中国中医院信息杂志.2008(15103-104

[2]崔雷刘建炜,马敬东.医学数据挖掘[M].北京高等教育出版社.20114-5

[3]张林,梁茂新,宫俊等.基于数据挖掘技术的方剂配伍规律研究述评[J].现代诗生物信息进展.2010(203945-3955

[4]林端宜.基于分类关联规则的仲景方剂挖掘研究 [J].福建中医药大学,2008,8(1)24-26

本文来源:https://www.2haoxitong.net/k/doc/2eaaf802910ef12d2bf9e720.html

《数据挖掘期末论文.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式