登陆注册
48552800000009

第9章 医学信息的管理(5)

3)关联规则

在两个或多个变量之间存在着某种规律性,就称其为关联(association)。关联规则(association rule)是指在同一事件中出现不同项的相关性。关联分析(association analysis)就是用于发现隐藏在大型数据集中的令人感兴趣的联系。所发现的联系可以用关联规则或者频繁项集的形式表示。关联规则挖掘就是从大量的数据中挖掘出描述数据项之间相互联系的有价值的有关知识。

应用关联规则的很常用的一个例子是关于有个购物篮的分析。

(1)用于DNA 序列间相似搜索与比较:在基因分析中一个重要的搜索问题是DNA序列中的相似搜索和比较。对分别来自带病和健康组织的基因序列进行比较以识别两类基因间的差异。通常在带病样本中出现的频度超过健康样本的序列,可认为是致病因素;另一方面,在健康样本中出现频度超出带病样本的序列,则认为是抗疾病因素。

(2)用于识别同时出现的基因序列:目前许多研究关注的是一个基因与另一个基因的比较。大部分疾病不是由单一基因引起的,而是基因组合共同作用的结果。关联分析方法可用于帮助确定在目标样本中同时出现的基因的种类,此类分析将有助于发现基因组和对基因间的交叉和联系的研究。

(3)在患者生理参数分析中的作用:生理参数数据是医学诊断最基本也是最主要的依据。例如上海同济大学附属医院冯波等人用关联分析研究糖尿病患者肌肉组织和脂肪组织含量与骨密度之间的联系,得出高肌肉和高脂肪组织含量可降低患者髋骨骨折危险性的结论。

(4)用于疾病相关因素分析:在病案信息库中存有大量关于患者病情和患者个人的信息,包括年龄,性别,居住地,职业,生活情况等,对数据库中的信息进行关联规则分析可以发现有意义的关系及模式,某种疾病的相关发病危险因素分析可以指导患者如何预防该疾病。

(5)用于疾病预测:确定某些疾病的发展模式,根据患者的病史和以往病例归纳出诊断,规则预测疾病的发展趋势,从而有针对性地预防疾病的发生。

4)OLAP 联机规则

数据仓库中包含了大量的、有价值的历史数据,现代的信息应用需要方便的工具对其中的数据进行分析处理。OLAP(on‐line analytical processing,即联机分析处理)可较好地实现数据汇总/聚集,建立多维度的分析,查询和报表,同时还提供切片、切块、钻取和旋转等数据分析功能,使人们从交互方式中获得信息并为预测业务发展提供辅助。OLAP的功能特征包括快速分析,共享性和多维特性。

OLAP 的基本涵义及特性。

OLAP 访问来自数据源(如数据仓库)经过聚合的多维数据集数据。利用OLAP 技术,分析人员、管理人员或执行人员能够针对同一个主题,从多个角度对数据进行分析,从而快速、交互地得出决策支持的分析结论。OLAP 技术核心是维的概念,因此,OLAP 也被称为多维数据分析。OLAP 技术主要是针对海量数据的查询,通常不对数据做修改。这种数据访问有别于OLTP(online transaction processing,在线事务处理)中对数据进行增删改操作。

“维”是OLAP 的关键技术。“维”通常是指人们观察事物的角度,如时间,地理位置,产品等,多维性是OLAP 的关键属性,OLAP 系统能够提供对数据分析的多维视图和分析。OLAP 能快速响应用户的查询请求,并实现数据的共享。

按照数据的存储结构基本上又分为MOLAP(多维multidimensional OLAP),ROLAP(关系relational OLAP)和HOLAP(混合hybrid OLAP)。

利用OLAP 数据维的概念,不同的用户可以根据需要从不同的角度去分析同样的数据。切片和切块的概念就是其中的一个应用实例。选定多维数据集中的一个二维子集的动作称为切片,选定多维数据集的一个三维子集的动作称为切块。

5)粗糙集理论

粗糙集是波兰理工大学Z.Pawlak 教授提出用来研究不完整数据,不精确知识的表达、学习,归纳等的一套理论。从数学的角度看,粗糙集是研究集合的;从编程的角度看,粗糙集的研究对象是一些特殊的矩阵;从人工智能的角度来看,粗糙集研究的是决策表。

粗糙集是建立在分类机制的基础上,它将分类理解成为在特定空间上的等价关系,而等价关系构成了对该空间的划分。粗糙集理论的主要思想是利用已知的知识库,将不精确或不确定的知识用已知的知识库中的知识来(近似)刻画。有关粗糙集和OLAP 理论及其在数据挖掘中的应用读者可阅读附录的参考文献。

6)传统统计方法

数据挖掘来源于统计分析,而又不同于统计分析。数据挖掘不是为了替代传统的统计分析技术,相反,数据挖掘是统计分析方法的扩展和延伸。大多数的统计分析技术都基于完善的数学理论和高超的技巧,其预测的准确程度还是令人满意的,但对于使用者的知识要求比较高。而随着计算机能力的不断发展,数据挖掘可以利用相对简单和固定程序完成同样的功能。新的计算算法的产生如神经网络、决策树使人们不需了解到其内部复杂的原理也可以通过这些方法获得良好的分析和预测效果。

由于数据挖掘和统计分析根深蒂固的联系,通常的数据挖掘工具都能够通过可选件或自身提供统计分析功能。这些功能对于数据挖掘的前期数据探索和数据挖掘之后对数据进行总结和分析都是十分必要的。统计分析所提供的诸如方差分析、假设检验、相关性分析、线性预测、时间序列分析等功能都有助于数据挖掘前期对数据进行探索,发现数据挖掘的题目,找出数据挖掘的目标,确定数据挖掘所需涉及的变量,对数据源进行抽样等等。所有这些前期工作对数据挖掘的效果产生重大影响。而数据挖掘的结果也需要统计分析的描述功能(最大值、最小值、平均值、方差、四分位、个数、概率分配)进行具体描述,使数据挖掘的结果能够被用户了解。因此,统计分析和数据挖掘是相辅相成的过程,两者的合理配合是数据挖掘成功的重要条件。

事实上,传统的统计方法也是一个非常主要的数据挖掘方法。诸如方差分析、假设检验、相关性分析、线性预测、时间序列分析等方法依然在医学数据挖掘中发挥着重要的作用。本节仅以时间序列数据挖掘为例加以说明。

随着信息技术的飞速发展,数据库应用的规模、范围和深度不断扩大,计算机系统中存储的带有时间序列性质的信息越来越多,例如医院信息系统中积累了多年的门诊人次、住院人次、药品消耗量等与时间序列有关的资料。在时间序列问题中,对序列的分析通常是以时间为轴进行分析的。具体又可以分为以下4种方法:①时间序列数据挖掘;②时间序列的趋势分析;③时间序列的相似性搜索;④时间序列模式和周期模式挖掘。

时间序列预测模型已在医学中广泛应用。比如季节性时间序列医院月门诊量的预测研究可以准确地把握今后一段时间门诊、急诊动向。因此国内在该领域的研究比较活跃,提出了若干预测算法。

(1)举例说明你所理解的信息概念。举例说明信息的特征。说明信息和数据的关系。

(2)就你所知道的实例说明医学信息所涵盖的范围。

(3)举例说明你所理解的医学信息管理的内容和功能。

(4)当你第一次听到“数据挖掘”的说法时,你是怎么猜想它的实际含义的?通过本章学习,你对于“数据挖掘”又有了怎样的新的理解?

(冯正永)

同类推荐
  • 培养学生心灵成长的经典故事——敞开心扉拥抱生活

    培养学生心灵成长的经典故事——敞开心扉拥抱生活

    在这套丛书里,我们针对青少年的心理特点,专门选择了一些特殊的故事,分别对他们在这一时期将会遭遇的情感问题、生活问题、学习问题、交友问题以及各种心理健康问题,从心理学的角度进行剖析和讲解,并提出了解决问题的方法和措施,以供同学们参考借鉴。
  • 美洲寓言(语文新课标必读书目)

    美洲寓言(语文新课标必读书目)

    国家教育部颁布了最新《语文课程标准》,统称新课标,对中、小学语文教学指定了阅读书目,对阅读的数量、内容、质量以及速度都提出了明确的要求,这对于提高学生的阅读能力,培养语文素养,陶冶情操,促进学生终身学习和终身可持续发展,对于提高广大人民的文学素养具有极大的意义。中、小学生是未来的主人,必须适应现代竞争激烈和交际广泛的社会生活,在心理、性格、思维、修养等内在素质铸造方面必须做好充分准备,同时在语言表达、社会交往等才能方面也必须打下良好的基础,这样才能顺应未来社会的发展潮流。
  • 世界历史经典故事300

    世界历史经典故事300

    它的特点一个是用一连串的故事将世界几千年的历史串在一起,既有细节描写,又有人物刻画,读起来生动有趣;另一个是文笔简洁,用不长的篇幅就囊括了历史上所有的重要事件,让广大中小学生对世界历史有一个基本的把握。很显然,如果想为中小学生挑一本历史读物的话,本书就是首选。
  • 伊索寓言精选

    伊索寓言精选

    古希腊民间流传的讽喻故事,经后人加工,成为现在流传的《伊索寓言》。《伊索寓言》是一部世界上最早的寓言故事集。而本书《伊索寓言精选》即在《伊索寓言》基础之上精选而出。
  • 中华国学语文课本趣读本

    中华国学语文课本趣读本

    博大精深的汉语,是中华民族的文化瑰宝,闪烁着璀璨夺目的光辉。而流传于民间最为精彩经典的语言。就像埋没于泥土中的金子,在拂去尘埃后方显出其光芒和价值。本书中这些活生生的语言文字故事,都是直接从古往今来的语文实践中采撷、提炼、概括、总结而来,它关照社会语文现象,注重人们的日常生活、工作劳动、社会交往和娱乐活动,是鲜活的原生态语文。这些故事篇幅短小,形式活泼,幽默诙谐,富有人文气息,是引人人胜的文字魔方,凭借巧妙智慧的形式。叙事、讲理传神,彰显中国语言文字的魅力,凸显传统文化中丰富的生活情趣和人生智慧,所以代代相传,历久不衰。
热门推荐
  • 文人墨客智慧谋略全书

    文人墨客智慧谋略全书

    这时的曾国藩已经把主要的兵将都派到前线作战,身边所剩无几。祁门名为湘军屯兵重地,实际上只不过是一座空营。所以曾国藩手下的幕僚属员十分惊慌,有人还把自己的行李放在船上,准备随时逃走。
  • 黑少恋上腹黑调皮小姐

    黑少恋上腹黑调皮小姐

    他是闻风丧胆的顶尖杀手,只因厌倦杀手生涯而背叛所属组织。她是千金二小姐,和他有婚约,有点腹黑调皮,喜欢用美貌迷倒无数粉丝服从自己,却无法迷倒他,反而被他牵着鼻子走,成为可怜女仆,失去千金小姐的尊严,可恶,你给我记住,本小姐总有一天一定要讨回来!
  • 穿越时空朕的皇后不一般

    穿越时空朕的皇后不一般

    21世纪的国际化杀手组织的头牌杀手伊苏,因一次意外的任务而魂穿了,魂穿之后她变成了将军府内的一个不受宠的四小姐,而她用自己的本事赢得了大家的称赞,一个小小的身体里变了一个主人之后,将会演变着怎样不平凡的故事呢?他,大祁王朝的主宰者,拥有天下的一切,却在一个不好的地方,遇见了不平凡的她,一眼望去,殊不知这九生九世的爱恋纠缠是上天注定了的,但这一次他们将会演变着怎样的人生?是悲?是喜?敬请观看!
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 温柔非懦弱之大学生活

    温柔非懦弱之大学生活

    形形色色的人群中匆匆插肩有多少,风风火火的报道里猜不透真真假假,我是否能真正的挽回那少年,了解到那片温柔非懦弱
  • 亲历文坛

    亲历文坛

    《亲历文坛》系回忆类文章选集。作者是词苑常青树,文坛掌故家,与文坛大家大多有交往。本册选取作者关于钱锺书、朱光潜、冰心、巴金、叶圣陶、陈学昭、艾青、袁鹰、柯灵、杨绛、陈忠实、鲁彦周等文坛大家的文章。这些文章侧重叙述与文坛大家的交往,以第一手资料解读文坛前辈和师友,对其人其文其事加以描叙,实际上是为文坛大家们勾勒出一幅幅独特的剪影。
  • 吞天大道

    吞天大道

    天地轮回变,每一次天地之间有异人出现,那么标示着将进入一个新的纪元,将出现新的秩序,新的铁律,以及新的规则!天下道法三千万!但,我便是今后的秩序,新的铁律,以及新的规则!——陆萧然
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 星海小虾传

    星海小虾传

    总的来说,这是一部带着玄幻色彩的科幻小说,也可以看作有着科幻色彩的玄幻小说,没有什么沉重话题,有的只是星空的冒险之旅,想让大家在工作之余轻松一下,看完忘了也无所谓,里面的科幻部分大家不要太较真,只希望大家喜欢!
  • 爱你一场荒凉

    爱你一场荒凉

    沈之喃十八岁的心动,死在了二十三岁的婚姻里。她跪在他的车前,卑微乞求:“慕景沉,我活不久了啊,你别这么残忍。”车窗缓缓往下,露出男人一张冷漠的脸。他冷声道:“哦,沈之喃,可我更希望你现在就去死啊。”一腔孤勇,错付情深。