基于数据挖掘技术的辅助医疗诊断研究
医疗质量管理是医院管理工作的核心和实质所在,推进与落实医疗质量管理是减少医疗安全隐患、遏制医患纠纷发生的重要举措。医学科学的特性决定医疗风险必然存在,医疗服务不可能像其他商品生产行业实现零缺陷? ,但其中的人为因素是可控和可避免的。以2008年山东省3个地级市的医疗事故鉴定档案的数据统计为例,其中72.66% 的事故原因可控或可避免 j。医方对病情未做全面考虑,过分依赖经验或辅助检查结果,造成漏诊、误诊或诊断不及时延误治疗;或对某些潜在危险估计不足、医疗记录不完整、不全面甚至出现错误,是影响医疗质量的最直接原因如何避免诊断疏忽及错误,是医疗管理必须考虑的重要问题。在医务人员的诊断过程中,通常以患者的口述或症状表现,辅助以检查结果作为诊断的依据,但诊断的正确程度基本上依赖于医务人员的临床经验及专业素质。对已知症状未能做出正确的诊断,而导致病情延误治疗或恶化是常见的医疗质量缺陷。随着信息技术的发展,记录相关诊断信的载体已逐渐从传统纸本病历转变为电子病历 ]。如何从电子病历数据库中找出诊断项目与诊断结果之间的关联性,以最简洁有效的几个因素辅助医务人员做出准确判断,减少误诊及疏忽,已成为利用电子病历来提高医疗质量的重要研究课题。
1 数据挖掘技术研究现状
1。1 概述
数据挖掘泛指从海量的数据中分析萃取,以探索得到非显然的、未知的、潜在的、可能有用的未知信息为主要目的的复杂活动,最初在1992年由Frawley等人首次提出 ]。Reinschmidt则认为,数据挖掘是从数据库中提取有效的、有用的、未知的、可理解的、能作为决策依据的信息 j。1996年Fayyad等人对流程进一步细化为5个步骤 。同
年,Brachman与Anand在Fayyad的研究基础上将流程细分为9个步骤 。通常来说,在确定研究方向或要解决的问题后,数据挖掘的工作流程为:原始数据资料的搜集;将数据资料分组,转换有意义的信息;在信息中甄选出有用的知识,从而实现“数据——信息——知识”的转变。
目前数据挖掘的各种技术已被广泛应用在经营辅助决策、消费行为分析等多个领域。针对特定疾病的诊断与预测也在国内外得到一定的应用,例如以线性判别分析、主成分分析,结合类神经网络以鉴别青光眼;利用多群判别分析,结合血清检验与放射性治疗产生的线性函数,透过ROC曲线分析预测C型肝炎病变为肝硬化的概率。本文提出以数据挖掘技术为基础,结合统计分析与规则推导理论,对电子病历应用数据挖掘以实现医疗诊断辅助的研究。
1.2 数据预处理
1.2.1 数据修剪 由于数据挖掘通常面对的是数量庞大的数据,为提高知识挖掘效率,通常会对数据进行预处理,有效地简化或修剪数据但不失去原本数据中可能隐含的知识。数据修剪的理论依据主要是删除与预计挖掘结果较不相关,或可能误导挖掘结果的数据,以减少整体的数据量与计算量,并增加挖掘结果的精确度。数据修剪也是数据挖掘技术中一个重要的研究方向,本文中不做深人探讨。针对布尔型(Boolean)的数据项,通常可以直接修剪。针对数值型(Numeric)的数据项,采用相关系数法 来做数据修剪,通过衡量两数值变量的线性关系强度及正负偏离的参数,来决定数据是否保留。
1.2.2 空白数据补齐 原始数据中通常会存在一部分被标示为“BLANK”、“NULL” 的空白数据。为确保所分析数据的完整性,对此类数据必须予以补齐。处理空白数据的方法大致上有以下5种:接忽略:该方法操作简单,但是当空白数据量太多时,数据挖掘结果不具说服力; 以手动方式填人数值:该方法过于主观,数据挖掘的结果不具公信
力;取同属性数据的平均值:该方法在数据中有离群点存在时,数据挖掘的结果可能不具合理性;利用回归分析或者决策树 等方法预测:该方法只能针对出现过的数据进行预测,否则数据挖掘的结果可能会不具精确性;寻找最佳分布配对,并以该分布与其机率密度函数产生随机数值:该方法需先求出分布及机率密度函数,运算过程比较复杂,但预测数据的质量较好。
1.3 规则推导
1.3.1 规则推导方法数据分类是数据挖掘工作的重要信息处理步骤,依据所要挖掘知识的目的及数据的性质不同,通常的分类方法有:摘要、分群、回归分析、依赖度模型、关联规则、相似性搜索等。依据决策规则的信息确定性测量理论 ,对一般不确定性信息H (N)的定义如下:kH(Ⅳ) = 一P(n)log P(n)以P (n)为n=8的机率,k为数据集N内数
据的数量,针对某个问题提问的可能回答结果的集合为Q= {q ,q ,?q。}时,对8所剩余的不确定性(即平均离散条件信息)的定义如下:
qcH(NI Q)=Σ ΣP(q)P(n I q)log P(n I g)g ql 1两者的差值就代表针对某个问题的某个提问能得到的有价值的信息,对某问题的提问就是“规则(Rule)”,而“规则推导” 则是从数据集中寻找出最佳的、正确的、可了解的分类方法的规则 。较常见的规则推导方法有:以C4.5算法为代表的决策树推导,基于自学习演算的类神经网络推导,以及应用互斥原理测算问题不确定性的J—Measure算法 。 等。
1.3.2 决策树推导 是一种使用树状结构的方法来做分类的推导方法,以节点代表不同的预期推导特征,树枝为推导特征的值,而树叶则是不同的分类类别。决策树的生成方法为:确定一个最佳的特征作为根节点,所有的数据以此根节点为判断根据,进行分类,分类在每一个分支的数据再选出最佳的特征作为根节点,再进行分类,形成一棵子
树,如此的过程一直重复,直到在一个分支内的所有数据都属于同一个类别,推导过程结束。
1.3.3 类神经网络推导 是一种并行计算系统,其原理为模仿生物神经网络,将整个网络大致分为3个部分:神经元(又称处理单元,Processing Ele.ment)、层(Layer)、网络(Network)。多个相同作用的处理单元可集合形成一个层,多个层进行堆栈集合,就成为了网络。倒传递类神经网络是目前类神经网络模式中具有代表性,应用较广泛的类神经网络之一,对于每一条输入的数据都有一个对应的期望输出值,来监督网络的学习,学习的目标为调整处理单元间的连接权值以降低网络推论输出值与期望值之间的差距。学习过程通常以一次一个训练范例的方式进行,一个网络可以训练范例反复学习,直到网络的学习达到收敛。由于类神经网络需要不断学习与调整,可适于应用在诊断、预测等问
题的实验分析与探讨。
1.3.4 L]一Mea S u Fe 运用信息互斥的原理,J—Measure算法将数据集N中数据区分为数个类别,再以各类别中的区域计算某信息对于问题的“熵值” 能够降低多少,而不是单纯将数据集N视为一个类别来处理。因此,该算法可以计算单一规则(即某一类别中的某个区域)所获得的信息,获得更好的推导结果。
以上几种规则推导方法均有其优劣势,本文将重点对决策树、J—Measure两种规则推导方法分别应用实验方法予以对比验证。
2 基于数据挖掘技术的辅助医疗诊断实验设计
2.1 概述
本次实验选择澳洲研究机构的甲状腺诊断资料为测试样本,其实验流程主要分成3个阶段:资料搜集,从资料服务器或数据库服务器取得原始数据;将原始数据进行预处理,然后分别应用不同的分类及规则推导产生决策规则;将预处理后的数据与决策规则进行运算,提取出对诊断有辅助的知识。为提高数据统计应用分析的可信度,本次实验使用了Easy Fit 5.0软件工具计算各分组属性的最佳分布图及参数估计值,并以此产生随机数来取代遗失的数据值。
2.2 实验数据预处理
本次选择的数据集共有23项属性,其中目标属性为“Diagnoses”。使用相关系数法进行数据修剪。以 ,l,为两数值的变数,i取{1,2,3,??n},X、y为X与y的平均数,相关系数的计算公式如下:
计算得到各屙『生与目标屙I生的相关系数,见表1。
取相关系数大于0.1的属性,并直接删减布尔型的属性,对数据集中的属性精简为4项,TSH、Tr4、FTI与TBG。为精简后续的运算量,以直方的使用组数代替对某属性的数据进行分组的动作,将A属性的数值在第1组区问的数据编号为A1,在第2组区间的数据编号为A2,以此类推,将5 000条记录精简为16组,并统计其各属性数据组
的最大最小值、组间距、遗失数据量,然后依据最佳分布与参数估计值,对属性TSH、TT4、丌I、TBG产生随机数值取代遗失数据。精简后的4项属性分组统计情况,见表2。
2.3 实验数据的规则产生
2.3.1 决策树推导 取diagnoses属性为根节点,参考现有的诊断信息,以各属性的最佳分布与分组参数的值为推导特征判断条件,得到不同的分类类别,最后产生的决策树模式,见图1。整个决策树即表示了全部的推导规则。
2.3.2 J—Me8 s u re规则推导 主要用于推导关于自身所属于的类别(Cm)及其互补类(NOTCm)的信息。本次实验以AND运算来产生规则,假设对于经过数据修剪后的属性分别以A、B、C、D、F表示,其中F为目标属性,则其规则表集合,见表3。
依据表2、表3,可以枚举出可用于本次实验数据集的全部J—Measure规则。
应用J—Measure中的规则匹配度公式,计算每条规则的J—info值,得到全部的规则推导表。挑选其中J—info值较大的规则作为主要规则,从而建立适合本次实验数据集的J—Measure规则集合。J—Measure的规则匹配度公式如下:
下面是一条J—Measure规则的例子及说明:“规则描述:IF(TSH=1 AND TBG=5)THEN diagnoses= 1(J—info =0.008739)”
该规则表示通过TSH属性与TBG属性来推导属性diagnoses=1成立,即:若符合TSH与TBG属性的特征值则推导为患病。而该规则的J—info值表示此规则与本次实验的数据集的适合程度较低,那么此规则不适用作为本次实验数据集的推导规则。
2.4 推导规则的应用
以产生候选规则及用于预测计算的规则推导表。从整体资料的5 000条记录中随机抽取80% 的记录为基础数据,其余的20% 为测试验证数据。对基础数据应用规则计算后,以预测得到的数据与验证数据比较得到预测准确率,并重复实验10次。实验结果显示,使用决策树模型所得到的前lO次平均预测准确率为88.33% ,使用J—Measure算法
的前10次实验平均预测准确率为94.74%,有效地 3验证了本课题的研究价值。
3 结语
因医务人员的失误导致漏诊、误诊是影响医疗质量的最直接因素,如何避免及降低医疗诊断的失误是医疗质量管理工作中必须思考的问题。本次实验研究表明,应用所定义的模块运算与规则推导,针对甲状腺肿瘤的预测正确率在80%以上,最高可达95% 。由此可见,应用数据挖掘技术从大量的电子病历资料中萃取出有效的诊断知识,对于医疗人员避免问诊过程中的失误,降低疾病诊断过程中的疏忽,可以提供非常有用的参考信息。在本实验中,因模块运算后的规则数量庞大,规则计算所花费的时间平均为20分钟,对算法的改善优化,缩短规则信息是后续的重要研究之一。此外,本次研究未对其他大型数据库做完整测试,验证本模型的正确程度还需以多种大型数据库样本测试。
参考文献
1 杨克虎,马彬,田金徽,等.美国医疗风险监管体系的循环评价及其对我国医疗风险管理的启示:关注病人安
全,预防医疗差错,提高医疗质量[J].中国循证医学杂志,2006,6(7):514—522.
2 刘岩,程艳敏,刘亚民.医疗事故鉴定案例251例分析讨论与对策[J].中华医院管理杂志,2008,24(4):273.
3Markle Foundmion. Connecting for Health:a public—pri—vate collaborative[EB/OL]. [2010—1—5].http://www.conneetingforhealth.or#resources/final—phwg—repo~1.pdf.
4 Frawley,W.J.,Pinatetsky—shopim,G.,Matheus,C.J..et a1.Knowledge Discovery in Database — an overview[J].AI Magazine,1992,13(3):57—70.
5 Reinschmidt,J.,Gottschalk, H.,Kim,H.. IntelligentMiner for Data:enhance your business intelligence [J].IBM Internation Technical Suppo~ Organization, 1999, 15(4):9.
6 Fayyad,U. M.,Piatetsky—Shapiro G.,Smyth. P.FromData Mining to Knowledge Discovery:an overview,advancesin knowledge discovery and data mining[M].Menlo Park,Calif.:AAAI/MIT Press,1996:1—34.
7 Brachman,R. and Anand,T. The Process of KnowledgeDiscovery in Database: a human — centered approach. InAdvances in Knowledge Discovery and Data Mining[M].Menlo Park,Calif.:AAAI Press,1996:37—58.
8 Clark,P.Machine learning:techniques and recent develop—ments[J].Artificial Intelligence:concepts and applica—tions in engineering,1990,(8):65—93.
9 Berthold,M.M .Intelligent Data Analysis:an introduction[M].2nd Editien.New York:Springer,2007.
10 Smyth,P.G..An Information Theoretic Approach to RuleInduction from Databases[J].IEEE Transactions on Knowl—edge and Data Engineering,1992,4 (4):301—306.
- 1电子病历归档系统研究
- 2医院电子病历系统应用的研究
- 32010年10月公司成功中标五原县妇幼保健院HIS项目
- 4医院信息系统建设
- 5结构化电子病历系统应用与体会
- 6对电子病历应用存在问题的思考
- 7卫生部:推进以电子病历为核心医院信息化建设
- 8电子病历标准化之争
- 9临床路径在电子病历中的设计与实现
- 10我院电子病历系统的应用促使医疗质控发生了
- 11北京居民健康档案5年建立完成
- 122008年4月成功实施磴口县妇幼保健院
- 13医院更换HIS系统过程中的重点注意事项
- 14适用中小型门诊诊所收费管理软件有哪些?
- 15医院建设区域医疗信息共享平台
- 16电子病历与病人健康档案数据交换的研究
- 17基于数字化的虚拟医院构建
- 18医院门诊收费管理系统主要功能模块特点
- 19让电子病历“活” 起来
- 20浅谈电子病历应用下医疗纠纷的法医学鉴定
- 21his系统在医院临床及管理中的应用
- 22O racle X M L D B和D B 2 p ure X M L在
- 23浅析结构化电子病历系统的应用和体会
- 24电子病历在临床应用中常见问题
- 25我院监控电子病历质量的实效与经验
- 26浅谈电子病历对诊断学教学的影响及对策
- 27电子打印病历对病案质量的影响
- 28美医疗信息市场规模两年内预计将达500亿美元
- 29医院HIS系统与LIS系统的集成研究与实现
- 30在电子病历中医疗及护理动态表格的设计
成都公司:成都市成华区建设南路160号1层9号
重庆公司:重庆市江北区红旗河沟华创商务大厦18楼