本章将逐步讲解临床决策支持的理论基础、设计实施以及临床评估的内容,并介绍一些相对成功的临床决策支持系统。学习本章之后,读者可以了解以下问题答案:
临床决策支持系统的概念。
为什么需要计算机参与进行决策?
知识和经验的区别以及如何使计算机模仿人类进行相应学习?
决策支持系统的核心。
决策支持系统主要构成。
决策支持系统面临的主要难点。
12.1临床决策支持系统导论
12.1.1定义
临床决策支持系统(clinical decision support system,CDSS)是一类辅助临床工作人员、患者以及其他潜在用户智能化地获取或筛选临床医学数据和知识,进行专项问题的辅助判断,达到改善医疗服务和提高医疗质量目的的系统,而在患者的诊断过程中为临床医生提供不同程度知识和辅助作用的计算机系统,被称之为临床诊断决策支持系统(clinical diagnostic decision support system,CDDSS)。
1974年由斯坦福大学Shortliffe 博士开发完成的MYCIN专家系统是CDSS 领域的代表,许多类似系统都是在其基础上研制而成的。MYCIN系统不但具有较高的性能,而且具有解释功能和知识获取功能,可以用英语与用户对话,回答用户提出的问题,还可以在专家指导下学习医疗知识。该系统基于规则化推理机制,使用了知识库的概念和模糊推理技术,并具备人工智能的特征。该系统主要用于识别会导致严重感染的菌群,如脑膜炎球菌等。限于当时整合技术的原因,MYCIN未能充分利用临床关联数据,其核心知识库的规则条目也未得到应有的扩充维护,因此,没能应用于临床实际。但是,MYCIN对计算机医学决策支持的理论和实践,都具有划时代的意义。
12.1.2CDSS 出现的必然性和其构成特点
在数据存储以及逻辑计算处理方面与人脑相比,计算机具有显着的速度和容量扩展的优势。面对海量且快速增长的医学知识,医生难以及时掌握所有与疾病相关的信息。
计算机专家系统的出现满足了大量相关临床数据智能化整合关联的需求,帮助临床医生系统化地组织分析疾病数据,使其从重复性较高且耗费精力的日常决策中逐渐解放出来,从而把更多的时间投入接触患者和积极思索中。大量的科学研究证明了CDSS 不仅提高了工作效率,降低了治疗成本,而且显着减少了医疗差错。
准确的疾病诊治决策源于两个方面:(1)临床工作者丰富的医学科学知识;(2)多年临床工作经验的积累。前者可以从文献、图书中获取,后者则需要亲身经历并不断总结归纳。与人的学习过程相仿,计算机决策支持程序也很难从一开始就实现医学领域内的自主学习。它同样需要训练和调整,以便遵循医疗的工作逻辑。以疾病种类和症状之间的关联为例,科研人员通过科学实验对疾病进行观察,得到尽可能全面的临床表现,再通过编程方法使计算机程序实现从疾病类别到临床表现之间的一对多关系;另一方面,医生在诊断的过程中所体现出的综合能力,包括逻辑推理、理论知识、临床经验甚至直觉,计算机系统有效地模仿,构建决策模型,使系统能在特定方面提供可与高年资医生相媲美的决策支持能力。最终实现辅助医生诊疗,减少医疗差错的目的。
决策支持系统的推理基础是由决策模型的逻辑演绎和知识案例两部分组成。此外,在决策规则之下,由基础知识数据构成的数据仓库是决策支持系统的最核心部分,被称之为知识库(Knowledge Base,KB)。知识库可以系统化地组织收集医学知识并能够经由计算机存取和解释。它拥有详细说明术语之间关联的医学术语词典,包含了所有推理程序相关的知识和经验数据,为程序提供决策建议。在知识库中医学知识内容的质量很大程度上决定了决策建议的水平高低。
12.1.3CDSS 的现状与困难
准确充分的临床信息往往会带来更好的诊断结果,并能帮助提供更多的治疗备选方案。根据Osheroff 等人的研究,临床医护人员的信息需求可以分为三个部分:第一是主动要求得到且已得到的信息;第二是主动要求得到但尚未获得到的信息;第三则是未意识到其重要性同时也未得到的信息。尽管CDSS 无法最终代替医生进行临床决策,但它可以为医护人员提供及时全面的临床信息和智能化的辅助功能,对临床医疗和教学质量的提高产生积极影响。
按照功能模块划分的方法,CDSS 可以简单地划分为三个主要部分:患者病症信息输入部分、医学知识分析处理部分和病例决策支持建议部分。
CDSS 工作的流程也基本依照同样的先后次序:输入→ 处理→ 输出。但是早期的系统数据整合技术、录入技术相对落后,医疗业务异常繁忙的医生护士难以完成并排斥极度耗时的数据录入任务,因此患者数据和医学知识的缺乏很大程度上阻碍了CDSS 系统的使用和普及。随着计算机科学的发展,如今的信息采集录入障碍已得到逐步解决。
另一方面,由于目前临床医学仍然存有大量科学无法论证的不确定性,CDSS 难以进行有效的辅助推理。比如在急诊抢救新病种或突发事件情况下,临床医生可以凭借丰富的医学经验,依据不完整不够精确的临床信息进行推理,确定临床诊断并提出治疗方案。
但CDSS 却在这方面无法与医生相比,在数据不充分或不确定的情况下难以进行准确的分析和推理。
从1950年CDSS 开始诞生,到70年代颇具代表性的MYCIN、HELP,再到随后研发的第二代CDSS EON 系统,各个系统针对的医疗领域、工作方式各不相同。有的可以独立运行,用户直接参与输入输出全过程,有的仅仅作为模块嵌入到一体化的临床信息系统中发挥提示指导的作用,如电子病历。但至今为止,面对多方面的局限,CDSS 还远没有达到普及应用的程度,本章中稍后的部分会对普及受限的原因做详细讲解。
12.2CDSS 的方法——概率推理
12.2.1从临床检验看概率的基础特征
临床治疗和临床数据充斥着大量的不确定性和不完整性。举例来说,在一个大型血站,献血者在采血之前需要进行人体免疫病毒(HIV)检测,如果使用聚合酶的方法(PCR),统计结果表明98%的PCR 检测结果呈阳性的客体带有艾滋病毒,而99%的PCR检测结果呈阴性的客体没有艾滋病毒。但余下的2%和1%意味着,对于某个体而言,无论结果是阴性还是阳性都无法确定受试者是否携带艾滋病毒。
通过直觉医生或许可以确定最终结果,但直觉既不充分也不可靠。它所带来的负面风险和结果也许对于血库来说是可以承受的,但如果导致大量的人因此感染艾滋病毒就是一场灾难。
由此可见,正确的临床决策是医生应具备的最基础的专业能力之一,这种能力是相当复杂的并且不易获得的。在决策过程中,有时可以单纯凭借演绎推理的方法得到结果,但更多情况是要借助医学知识以及在实际工作中长期积累经验,判断症状与疾病间的关联,得出诊断结果并决定治疗方案。这就是概率方法存在,并经过验证得到了普遍应用的原因。
尽管概率医学推理并非适用于所有的医疗决策领域,而且有可能造成负面作用,对于大多数的决策过程而言,概率医学推理起到了积极深远的影响。描述临床不确定性内容的词汇存在或大或小的差异,产生这种差异的原因是由于人与人认知感受的不同,不同的医生对同一词汇的理解未必相同。比如“非常严重”一词,不同的医生有着不同的理解。
在这种情况下,概率方法的出现可以帮助限定不确定性和量化程度的高低,为群体在交流和进行医疗决策的过程中提供一个较为客观的参考基准。
12.2.2临床观察和检验
临床的诊断过程通常可以分为以下三个阶段:
(1)通过初步观察判断确认患者是否生病。
(2)依据医学文献知识和个人经验初步判断疾病的类型。
(3)尽可能消除疑点,缩小判断误差,得到较为精确的疾病类型和相应概率。
在没有进一步的检验实施之前确定的疾病概率,被称之为先验概率(pretest probability)。通常在得到疾病的先验概率之后,检验方法可以提供更充分客观的数据,降低诊断过程的不确定性。在得到一系列的检验结果之后对疾病诊断重新进行判断所得到的概率,我们称之为后验概率(posttest probability)。
对于患者和健康人群来说,理想化的检验结果分布应是分界清晰没有重叠的。正常结果对应健康人群而异常结果对应患病人群。但实际上,呈正态分布的检验结果通常会出现交叠的部分。两类人群检验结果区间的交叠以及正常异常临界值。值得注意的是,某些健康人群检验得到的是超出“标准值”(criterion value)的“异常”结果,而某些患者的检验结果却恰恰相反。图中受测人员的结果分为如下四种情况:
(1)真阳性(TP)——患有疾病且结果呈阳性异常状态。
(2)真阴性(TN)——无疾病且检验结果呈阴性正常状态。
(3)假阳性(FP)——无疾病但结果呈阳性异常状态。
(4)假阴性(FN)——患有疾病但检验结果呈阴性正常状态。
在选定分界临界值之后,用2×2的列联表(contingency table)可以展示检验与诊断之间的关系。
(1)敏感度(sensitivity,TP rate):TPR=TP/(TP+FN)
(2)特异度(specificity,TN rate):TNR=TN/(FP+TN)
(3)患病率(prevalence):(TP+FN)/(TP+FN+TN+FP)= 患者/人口基数(4)阳性预测率(positive predictive value),得到患病人群检验呈阳性的概率:PV +=TP/(TP+FP)
(5)阴性预测率(negative predictive value),健康人群检验呈阴性的概率:PV-=TN/(TN+FN)
除此之外,检验的决策效能T还可以通过三个公式进行表达,T的值越接近于0,该检验的鉴别力也越趋近于0。
(1)T(0,1)=(TP+TN)/(TP+FN+TN+FP)
(2)T(0,1)=(TPR+TNR)/2
(3)T(-1,1)=TPR+TNR-1(-1<T<1)
12.2.3ROC 曲线评价方法
ROC 曲线的全名为receiver operating characteristic curve,在临床检验统计学中称之为受试者分析曲线。ROC 起初是为了增进军事雷达的敌我侦测能力而提出的。举例说明,雷达接收的无线电波可能是带有干扰杂音的真正电磁波,也有可能只是干扰杂音。
如果把杂音判为敌机,或把敌机信号误判为杂音,都会造成损失。因此选择一个合理的指标作为判断标准是极具价值的。1954年哈佛大学的Meter 及Middleton和密西根大学的Peterson、Birdsall 及Fox 提出了应用概算比(likelihood ratio)作为决策规则的报告,随后,这项决策规则被整合为ROC 曲线。1971年,Lusted 把ROC 曲线的概念应用到医学领域,并指出ROC 曲线是以X 轴和Y 轴分别代表假阳性诊断和真阳性诊断的点状图。
1973年,Simpson 及Fitter 提出以ROC 曲线下的面积作为诊断方法分辨能力的指标。根据此方法,只要比较多个检验诊断手段的ROC 曲线面积就可以得出方法的优劣。1975年,Bamber 指出ROC 的曲线下面积值应介于0与1之间。
ROC 曲线是一条凸向左上方的曲线,而且越偏离45度对角线越好。如图123所示,粗细不等的三条曲线由不同检验模型的连续阀值点连接而成,检验工具的有效性从高至低的排列为点线(excellent)>细线(good)>粗线(worthless),点线代表两类人群——患者与健康人员的检验结果的交叠部分很少,发现的区分度较大。45度对角线(粗线)被称为无信息线(line of no information)。这条线代表诊断工具对于帮助医生判断患者是否有病没有提供任何有效的信息。可以把这项检验的效用比作通过抛硬币(正反面出现几率相同)来判断受试者有无疾病。
12.2.4贝叶斯(Bayesian)定理
通过流行病学方法,可以得到在某个人口基数下,某疾病的影响范围。假如糖尿病的发病概率是10%,那么随机选定的受试人患有糖尿病的可能性则为0.1。同理,如果高血压的对应数字是35%,那随机样本的高血压罹患可能性则为0.35。这个数字也就是前文所述的患病率(prevalence)。