基于关联规则的医生诊疗数据挖掘系统的实现

2014-01-26 11:28 来源:电子信息网 作者:蒲公英


2 ARFDW 系统设计与实现

2.1 ARFDW系统框架需求分析

作为通用的数据挖掘框架,ARFDW 要提供对不同操作系统、不同处理平台的支持;对异构数据源的支持;支持多样化、可插拔、可组合的数据转换功能;提供统一的管理和调度功能;处理程序的继承和开放性;要有清晰的框架处理层次以及对元数据的管理等。下面对框架的关键需求进行描述。

2.1.1 建立挖掘主题

系统应该支持挖掘主题的建立。在对被挖掘对象进行充分分析并确定挖掘主题及数据来源后,系统能够通过挖掘主题配置工具来创建挖掘主题及关联维度,并生成相应数据库表及数据记录映射对象。

2.1.2 异构数据源数据抽取

作为通用框架,系统应该支持尽可能多的异构数据源,异构数据源包括不同厂商、不同版本的数据库,不同格式的文本等。如ODBC 数据源、(非ODBC)各种关系型数据库数据源、应用数据、电子商务数据、各种文件格式中数据等;同时提供通用数据访问接口:该接口能够跨平台、网络访问数据,支持在不同类型数据源间建立连接,通过它可以屏蔽各种数据源之间的差异,为后序工作提供一个统一的数据视图。

2.1.3 建立转换规则

由于业务系统的开发一般会有一个较长的时间跨度,这就造成同一种数据在业务系统中可能会有多种完全不同的存储格式。这就要求ETL工具必须对抽取到的数据能进行灵活的计算、合并、拆分等转换操作,系统要能够不断地以插件形式添加转换节点的种类,就可以不断地增强ETL工具的功能,以应付各种各样的数据不一致的问题。

2.1.4 执行定时任务

针对数据源的多样性和可变性,ETL通过对从数据源到目标数据仓库间的映射规则进行元数据级别上的建模,使得整个抽取、转换、装载过程在元数据驱动下能完全自动调度执行,同时也便于维护和扩展。

2.2 ARFDW总体框架设计

ARFDW 系统架构模型如图1 所示。首先,对被挖掘对象进行充分分析,确定挖掘主题及数据来源,通过挖掘主题配置工具创建挖掘主题及关联维度,并生成相应数据库表及数据记录映射对象;其次,通过数据源配置工具对等待抽取的数据源数据的相关连接格式参数进行配置,数据源配置好后系统会将输入的数据通过数据对象化工具转换为统一的XML 描述数据格式,并根据映射在基础数据库中创建数据保存表记录;再次,通过转换任务元数据配置工具生成数据转换规则及对应目标主题,该部分实现需要用到功能节点以及设定任务中各个功能节点的执行流程。配置好的任务将在任务列表中列出,可以手动执行,也可以通过总控调度配置自动执行。数据经过ETL处理后会加载到挖掘库对应的主题中去。最后,通过基于关联规则的挖掘算法对目标数据进行挖掘,并将条件的规则保存到规则库。

1


< 1 2 3 > 
数据挖掘系统

相关阅读

暂无数据

一周热门