3)关联规则
在两个或多个变量之间存在着某种规律性,就称其为关联(association)。关联规则(association rule)是指在同一事件中出现不同项的相关性。关联分析(association analysis)就是用于发现隐藏在大型数据集中的令人感兴趣的联系。所发现的联系可以用关联规则或者频繁项集的形式表示。关联规则挖掘就是从大量的数据中挖掘出描述数据项之间相互联系的有价值的有关知识。
应用关联规则的很常用的一个例子是关于有个购物篮的分析。
(1)用于DNA 序列间相似搜索与比较:在基因分析中一个重要的搜索问题是DNA序列中的相似搜索和比较。对分别来自带病和健康组织的基因序列进行比较以识别两类基因间的差异。通常在带病样本中出现的频度超过健康样本的序列,可认为是致病因素;另一方面,在健康样本中出现频度超出带病样本的序列,则认为是抗疾病因素。
(2)用于识别同时出现的基因序列:目前许多研究关注的是一个基因与另一个基因的比较。大部分疾病不是由单一基因引起的,而是基因组合共同作用的结果。关联分析方法可用于帮助确定在目标样本中同时出现的基因的种类,此类分析将有助于发现基因组和对基因间的交叉和联系的研究。
(3)在患者生理参数分析中的作用:生理参数数据是医学诊断最基本也是最主要的依据。例如上海同济大学附属医院冯波等人用关联分析研究糖尿病患者肌肉组织和脂肪组织含量与骨密度之间的联系,得出高肌肉和高脂肪组织含量可降低患者髋骨骨折危险性的结论。
(4)用于疾病相关因素分析:在病案信息库中存有大量关于患者病情和患者个人的信息,包括年龄,性别,居住地,职业,生活情况等,对数据库中的信息进行关联规则分析可以发现有意义的关系及模式,某种疾病的相关发病危险因素分析可以指导患者如何预防该疾病。
(5)用于疾病预测:确定某些疾病的发展模式,根据患者的病史和以往病例归纳出诊断,规则预测疾病的发展趋势,从而有针对性地预防疾病的发生。
4)OLAP 联机规则
数据仓库中包含了大量的、有价值的历史数据,现代的信息应用需要方便的工具对其中的数据进行分析处理。OLAP(on‐line analytical processing,即联机分析处理)可较好地实现数据汇总/聚集,建立多维度的分析,查询和报表,同时还提供切片、切块、钻取和旋转等数据分析功能,使人们从交互方式中获得信息并为预测业务发展提供辅助。OLAP的功能特征包括快速分析,共享性和多维特性。
OLAP 的基本涵义及特性。
OLAP 访问来自数据源(如数据仓库)经过聚合的多维数据集数据。利用OLAP 技术,分析人员、管理人员或执行人员能够针对同一个主题,从多个角度对数据进行分析,从而快速、交互地得出决策支持的分析结论。OLAP 技术核心是维的概念,因此,OLAP 也被称为多维数据分析。OLAP 技术主要是针对海量数据的查询,通常不对数据做修改。这种数据访问有别于OLTP(online transaction processing,在线事务处理)中对数据进行增删改操作。
“维”是OLAP 的关键技术。“维”通常是指人们观察事物的角度,如时间,地理位置,产品等,多维性是OLAP 的关键属性,OLAP 系统能够提供对数据分析的多维视图和分析。OLAP 能快速响应用户的查询请求,并实现数据的共享。
按照数据的存储结构基本上又分为MOLAP(多维multidimensional OLAP),ROLAP(关系relational OLAP)和HOLAP(混合hybrid OLAP)。
利用OLAP 数据维的概念,不同的用户可以根据需要从不同的角度去分析同样的数据。切片和切块的概念就是其中的一个应用实例。选定多维数据集中的一个二维子集的动作称为切片,选定多维数据集的一个三维子集的动作称为切块。
5)粗糙集理论
粗糙集是波兰理工大学Z.Pawlak 教授提出用来研究不完整数据,不精确知识的表达、学习,归纳等的一套理论。从数学的角度看,粗糙集是研究集合的;从编程的角度看,粗糙集的研究对象是一些特殊的矩阵;从人工智能的角度来看,粗糙集研究的是决策表。
粗糙集是建立在分类机制的基础上,它将分类理解成为在特定空间上的等价关系,而等价关系构成了对该空间的划分。粗糙集理论的主要思想是利用已知的知识库,将不精确或不确定的知识用已知的知识库中的知识来(近似)刻画。有关粗糙集和OLAP 理论及其在数据挖掘中的应用读者可阅读附录的参考文献。
6)传统统计方法
数据挖掘来源于统计分析,而又不同于统计分析。数据挖掘不是为了替代传统的统计分析技术,相反,数据挖掘是统计分析方法的扩展和延伸。大多数的统计分析技术都基于完善的数学理论和高超的技巧,其预测的准确程度还是令人满意的,但对于使用者的知识要求比较高。而随着计算机能力的不断发展,数据挖掘可以利用相对简单和固定程序完成同样的功能。新的计算算法的产生如神经网络、决策树使人们不需了解到其内部复杂的原理也可以通过这些方法获得良好的分析和预测效果。
由于数据挖掘和统计分析根深蒂固的联系,通常的数据挖掘工具都能够通过可选件或自身提供统计分析功能。这些功能对于数据挖掘的前期数据探索和数据挖掘之后对数据进行总结和分析都是十分必要的。统计分析所提供的诸如方差分析、假设检验、相关性分析、线性预测、时间序列分析等功能都有助于数据挖掘前期对数据进行探索,发现数据挖掘的题目,找出数据挖掘的目标,确定数据挖掘所需涉及的变量,对数据源进行抽样等等。所有这些前期工作对数据挖掘的效果产生重大影响。而数据挖掘的结果也需要统计分析的描述功能(最大值、最小值、平均值、方差、四分位、个数、概率分配)进行具体描述,使数据挖掘的结果能够被用户了解。因此,统计分析和数据挖掘是相辅相成的过程,两者的合理配合是数据挖掘成功的重要条件。
事实上,传统的统计方法也是一个非常主要的数据挖掘方法。诸如方差分析、假设检验、相关性分析、线性预测、时间序列分析等方法依然在医学数据挖掘中发挥着重要的作用。本节仅以时间序列数据挖掘为例加以说明。
随着信息技术的飞速发展,数据库应用的规模、范围和深度不断扩大,计算机系统中存储的带有时间序列性质的信息越来越多,例如医院信息系统中积累了多年的门诊人次、住院人次、药品消耗量等与时间序列有关的资料。在时间序列问题中,对序列的分析通常是以时间为轴进行分析的。具体又可以分为以下4种方法:①时间序列数据挖掘;②时间序列的趋势分析;③时间序列的相似性搜索;④时间序列模式和周期模式挖掘。
时间序列预测模型已在医学中广泛应用。比如季节性时间序列医院月门诊量的预测研究可以准确地把握今后一段时间门诊、急诊动向。因此国内在该领域的研究比较活跃,提出了若干预测算法。
(1)举例说明你所理解的信息概念。举例说明信息的特征。说明信息和数据的关系。
(2)就你所知道的实例说明医学信息所涵盖的范围。
(3)举例说明你所理解的医学信息管理的内容和功能。
(4)当你第一次听到“数据挖掘”的说法时,你是怎么猜想它的实际含义的?通过本章学习,你对于“数据挖掘”又有了怎样的新的理解?
(冯正永)