浅析数据挖掘技术在电子病历中的应用
在建设数字医疗的基础之上,电子病历应运而生,其短暂的历史和迅速的崛起形成鲜明对比,在社会信息建设进程中担当了重要角色,并回应了强烈的社会医疗诉求,将医疗服务的手段和模式推向纵深。在这一短暂的本土化发展进程中,电子病历由简单文字纪录载体,迅速进化为多样式的健康信息体系,其集成能力日益强大,其交换整合能力使医疗信息流通得到加强。在当前医疗信息化需求的驱动之下,电子病历完成了系统搭建,使信息化渗透到临床工作中。
反观电子病历的技术发展史,立足于眼前需求的功能实现已经完成:最早进行电子病历实践的地区和单位,都已拥有固定的运作经验,基于电子病历的诊疗新流程得到确立。进一步地,如何挖掘长远价值、发挥长期效益,成为电子病历发展的下一个主题。笔者认为,数字化医疗建设的真正意义,在于如何利用好这些长期积累的数据。对数据资源的开发利用,将使电子病历的意义得到淋漓尽致的展现,使其可交换性、可用性得到充分发挥。由此,电子病历后续发展的主题,明确指向“如何进行数据挖掘”。
1 广义数据挖掘
1.1 数据挖掘的含义
数据挖掘是揭示存在于数据里的模式及数据问的关系的学科,它强调对大量观测到的数据的处理。数据挖掘能够从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的、最终可理解的模式。它是一门涉及面很广的交叉学科,涉及机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等学科。数据挖掘的成果可以用在信息管理、过程控制、科学研究、决策支持等许多方面。
1.2 数据挖掘的产生与发展
数据挖掘最初脱胎于统计学,通过计算机,对大量复杂的数据集自动进行探索性分析。尽管数据挖掘和统计分析之间有明显的联系,迄今为止大部分的数据挖掘方法并不产生于统计学科。正因为数据挖掘工作对商业、工业及科学研究具有极大的影响,在有需求的领域里,关于数据挖掘的研究总有可观的成绩。
1.3 被挖掘数据源的形式
被挖掘的数据源有多种形式,目前可归纳的主要有:关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产(1egacy)数据库,以及Web数据源。简言之,大量数据库技术的发展,令数据存量大量增加,“数据爆炸但知识贫乏”,由此催生了数据挖掘技术,以获得海量数据背后隐藏着的知识。
2 特殊语境下的数据挖掘
数据挖掘总是在某一特定知识领域内进行,具有普遍适用性的数据挖掘技术尚未出现。这由数据挖掘本身的难点决定。首先,巨量数据集的性质非常复杂,非线性、时序性与噪音普遍存在;其次,数据分析的目标具有多样性,而复杂目标无论在表述还是在处理上均与领域知识有关;第三,在复杂目标下,对巨量数据集的分析,目前还没有现成的且满足可计算条件的一般性理论与方法。在实际应用中,特定知识领域的确认,有效回避了数据挖掘的瓶颈问题。电子病历的应用就是这样一个明证。作为特殊法律文书,病历本身是严肃而确定的:知识领域的专注使数据噪音大量削减,使数据源形式简化,使分析目标明确,使语义指代明显,语义强度能够有序排列。另一方面,病历固有的格式要求和行文习惯,很好地解决了非线性问题和时序性问题。
在特定知识库、特殊语言环境下,广义数据挖掘的难点被一一回避。因此,尽管广义数据挖掘还有很长的道路,还有诸多的分歧,但在电子病历中,专注于临床知识的数据挖掘应用是合理可行的,是符合现实的。
3 基于结构化采集的数据挖掘
3.1 预结构化
预结构化电子病历是继“WORD电子病历”之后的一大飞跃。最初,一些医院采用WORD存储电子病历,将病历文本予以电子存储,除去存储和书写方式的变化,病历本身没有发生任何变化。其功能展开、数据交换、数据挖掘完全无法进行。随着社会信息建设要求的提高,数据应用的意义得到重视。以WORD存储电子病历,无法对病历数据进行开采和利用,只是数据垃圾的堆积。于是,电子病历结构化的理念在业界达成了高度一致。基于当时的技术水平,开发了“预结构化”模式:在病历中,按照医学专业要求,将知识点提炼,并逐一罗列,使用医学规范用语和诊断专业术语书写。所生成的电子病历,能够被识别,从而实现病历的检索、分析和质量控制,能够为专家系统所理解,从而为教学科研提供依据。预结构化模式的典型特征是病历模板的应用。病历模板的原型是纸质病历中的表格病历。借鉴表格病历的逻辑,病历模板提炼出了病历记录的必须项目,必须内容, 以及必须形式。在固定的形式下,将项目和内容尽数罗列,提供单选、多选的录人形式。
由于知识库的支持,电子病历模板相对灵活方便。根据前文选择录入的内容,内部逻辑自动进行选择性地显示,过滤无关项目。其次,病案首页、检验报告等文书的格式固定,内容明确,预结构化的模板完全能够使之功能得到最大发挥。最后,病历模板分离了存储,实现了“动态模板”,以方便临床工作者重复不断地修改和完善模板,尽管如此,在实际使用中,预结构化的模板带有决定性的缺失。模板本身是对自然语言的解构,借助于医学的确定范畴和固定形式,这一过程确实能够圆满实现。但它同时也肢解了自然语言的流畅性和灵活性。当医生需要以独立完整的语言进行描述时,他们便抛弃了病历模板。绕过病历模板的录入方式,使预结构化丧失了用武之地。
3.2 后结构化
实践表明,自由文本和预结构化病历的使用,难以满足临床科研数据管理与统计的要求,而严格的表格化病历限制了临床描述能力,为了准确表述临床行为,甚至需要另外撰写手工病历,遭到临床医生的反对。
为了兼顾临床和科研,后结构化应运而生。后结构化的语义分析模型,最终是将语义元素的固有关系进行遍历,结合语义强度等因素,对自然语言进行处理。基于这一模型,得以对纯文本的病历内容进行结构化采集。在首页、医嘱、各类检查化验报告、病程记录、护理记录等良好的结构化文书之外,病历的主观描述部分也实现了完全结构化。解析自然语言的过程称为“后结构化”。与预结构化不同,后结构化并没有设定采集范式,没有设定数据的抓取结构,因而并不要求细致的填充。后结构化技术维护了病历描述的自然语境。后结构化有两大关键难点。首先是机器学习还相当幼稚。在预结构化中,由于抓取和采集的框架已经确定,解析和计算的逻辑相对固定,因而基本不需涉及机器学习。但在后结构化模式中,各种挖掘模式都有应用(如回归模式、聚类模式、关联模式、序列模式等), 因而其规则抽取也更为复杂。作为一种机器学习方法,神经网络规则抽取的重要指标:泛化精度、保真度、可理解性,目前仍处于较低水平。其次,汉语言不同于依附语范畴的语言(诸如英语),其转格及形式缺乏显著标志,给结构化处理带来了难度。此外,汉语言的词性词义只在特定语境中才能确定,同一词语可支持多种表义,多种词性,有很大的机会令算法进入死循环。因此,关于汉语言的结构化研究进度迟缓。综上所述,数据挖掘是电子病历发展到相当程度的必然要求。而在电子病历的应用中,实现数据挖掘的关键,即结构化采集。尽管存在着大量难点,但在强大的需求面前,结构化研究拥有良好的发展环境,必然能获得长远的发展。
参考文献
1 俞文敏.电子病历应用中存在的问题及解决方案探讨[J].东南国防医药,2006,8(1):66—67.
2 刘静,沈蓓,黄学宁,等.电子病历中结构化描述内容与专科病历模板[J].现代医学,2005,33(6):4]7—419.
- 1cMS将在201 1年5月启动有效应用奖励
- 2武汉启动“智慧医疗工程”
- 32008年5月五原县医院2期工程成功签约
- 4带来医疗安全等方面的问题,这方面工作的滞后必然
- 5电子病历的法律证据价值初探
- 6手外科电子病历的设计与实现
- 72008年4月成功实施磴口县妇幼保健院
- 8电子病历系统利用无线网络有了新的应用模式
- 9试论门诊医生工作站上线
- 10区域医疗信息共享平台研究与实现
- 11建立专家评审制度提高电子病历内涵质量的实践
- 12临床信息系统与电子病历
- 13电子病历系统及其数据集成的研究
- 14基于循证医学本体论的临床元数据设计方法研究
- 15医院信息管理系统在医院管理中的作用
- 16电子病历在医院信息系统中的探讨
- 17无纸化电子病历存储模式在门诊收费管理系统化中的研究与实践
- 18海南省推行电子病历
- 19中国HIS企业发展思考与展望
- 20l以电子病历为核心,东软助推盛京医院数字化医疗新鼹 模式
- 21电子病历“有效使用”的概念及对推广应用的意义
- 22卫生法教学案例素材的收集与应用
- 231065份护理电子病历书写缺陷分析与对策
- 24基于UM L 的电子病历设计
- 25医院船电子病历系统构建方法探讨
- 26结构化电子病历系统应用与体会
- 27基于电子病历系统的临床路径管理应用研究
- 28社区医疗电子病历可行性技术探讨
- 29电子病历监控数据失实原因分析及对策
- 30电子病历无纸化归档存储研究与应用
成都公司:成都市成华区建设南路160号1层9号
重庆公司:重庆市江北区红旗河沟华创商务大厦18楼