基于关联规则的医生诊疗数据挖掘系统的实现

2014-01-26 11:28 来源:电子信息网 作者:蒲公英

0 引言

数据挖掘从20世纪80年代提出到现在,不过短短20多年的时间,但其应用已非常广泛,不仅用于科研领域,在商业领域的应用也毫不逊色,尤其是用于银行、电信、保险、交通、零售(如超级市场)等领域。数据挖掘在医学领域的应用也有着广泛的前景。在医学领域存在着大量的数据,包括病人病史、诊断、检验、和治疗的临床信息,药品管理信息,医院管理信息等。数据挖掘应用到医学领域,对医学数据进行分析,提取隐含的有价值的信息能够促进医院管理者作出明智决策、医生对病人的正确诊断和治疗。这对促进人类健康、保持健康的生活质量都有积极的意义。

1 基于关联规则数据挖掘技术分析

1.1 数据挖掘概述

1.1.1 数据挖掘的定义

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。这个定义包含几层含义,数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海而皆准的知识,仅需支持特定的发现问题。

1.1.2 数据挖掘的过程

数据挖掘过程一般需要经历数据准备、数据开采、结果表述和解释三个主要步骤。

(1)数据准备。数据准备是数据挖掘中的一个重要步骤,数据准备是否做好将直接影响到数据挖掘的效率、准确度以及最终模式的有效性。这个阶段又可以进一步分为三个子步骤:数据集成、数据选择、数据预处理。

(2)数据开采。数据开采阶段选定某个特定的数据挖掘算法(如关联规则、分类、回归、聚类等算法),用于搜索数据中的模式。这是数据挖掘过程中最关键的一步,也是技术难点。

(3)结果表述和解释。根据最终用户的决策目的,对提取的信息进行分析,把最有价值的信息区分出来,并且通过决策支持工具提交给决策者。因此,这一步骤的任务不仅是把结果表达出来,还要对信息进行过滤处理。如果不能令决策者满意,需要重复以上的数据挖掘过程。

1.2 关联规则概述

给定一个事务(交易)数据库,人们往往希望发现事务中的关联事实,即事务中一些项目的出现必定隐含着同次事务中其他项目的出现,这是关联规则的一个简单的描述。

设I ={t1,t2 ,-,tm} 是由m 个不同项目组成的集合,D 是交易数据库(交易数据库又称事务数据库),其中每一个交易或事务T 是I 中一些项目的集合,即T- I.每一个交易或事务T 都与一个惟一的标识符TID相联。

对于项目集X-I,如果X-T,则交易或事务T 支持X.

如果X 中有k 个项目,则又称X 为k- 项目集,或X 的长度为k.

关联规则是指形式如下的一种数据隐含关系:X -Y,其中X - I,Y-I,且X-Y = -.

关联规则挖掘的任务是:在给定的交易或事务数据库D 中,发现D 中所有的频繁关联规则。所谓频繁关联规则是指这些规则的支持度、置信度分别不低于用户给定的最小支持度和最小置信度。

1 2 3 > 
数据挖掘系统

相关阅读

暂无数据

一周热门