监理公司管理系统 | 工程企业管理系统 | OA系统 | ERP系统 | 造价咨询管理系统 | 工程设计管理系统 | 甲方项目管理系统 | 签约案例 | 客户案例 | 在线试用
X 关闭
门诊收费管理系统

当前位置:工程项目OA系统 > 领域应用 > 医院管理OA系统 > 门诊收费管理系统

中文电子病历的信息抽取研究

申请免费试用、咨询电话:400-8352-114

 

 

 

 

 

 

引言
    信息抽取作为一种文本处理技术n],通过利用机器的计算能力、计算的精确度和准确度为枯燥的信息搜索、分析和识别工作提供了理想的方法。信息抽取的主要功能是从文本中抽取特定的事实信息,被抽取出来的信息以结构化的形式描述,可以直接存人数据库中,供用户查询以及进一步分析使用。在医院信息系统的电子病历(electronic medical re-cords,EMR)中蕴含着丰富的信息和知识。本研究利用文本工程通用框架(GATE)进行中文EMR信息抽取研究,目的是加强自然语言理解和本体方法在中文医学文本语义标注和内容分析中的应用,为建立计算机可读的EMR提供技术支持。
1 病种选择和EMR文本的预处理
     本文将病种选定为神经内科疾病脑梗死。在医院信息系统中,以“《国际疾病分类》(ICD9)编码=434.9”为检索条件,选择2008年1~6月问诊断为脑梗死的住院病人电子病历83份,将其转存为纯文本格式并以此作为EMR文档集。采用基于词典的双向最大匹配切词法对EMR进行分词处理。将经过分词的EMR文档集导入GATE平台。

2 基于GATE的EMR语义标注和信息抽取
2.1 GATE基本架构
      GATE是英国谢菲尔德大学研究开发的Java开源项目,为用户提供了图形化的开发环境,被许多自然语言处理项目尤其是信息抽取的项目采用,例如,美国匹兹堡大学建立癌症文本信息抽取系统(cancer text information extraction system ,caT—IES)[2]。caTIES具有从临床自由文本中抽取编码信息的功能,可以利用受控词表从临床自由文本如
外科病理报告中抽取编码信息并生成caBIG兼容的数据格式。
      为简化语言工程系统开发流程,GATE设计了“算法+数据+图形用户界面一应用”基本结构口]。按照此结构,GATE选用面向对象的编程语言和基于JavaBean组件的软件开发方式,开发出一个核心库和一系列可重用语言工程组件(a collection of re—usable objects for language engineering, CRE-OLE)。每个CREOLE组件包括语言资源(LRs)、处理资源(PRs)和可视化资源(VRs)三类资源,资源参数存储于creole.xml文件中。用户可根据应用快速灵活定制、修改、扩展各组件。GATE中的所有可重用资源的集合,被整体地用在了基于规则方法的英文信息抽取系统(a nearly—new information ex—traction system,ANNIES)中]。GATE 4.0提供了中文信息抽取组件,可以在语料分词的前提下,实现人名、地名、机构名、时间、日期等命名实体的自动标识和抽取。
2.2 命名实体识别规则的构建
2.2.1 JAPE规则定义语言基于词典识别实体的方法尽管简单,但无法有效处理新词、变体词等[5]。因此,GATE提供基于规则的实体识别引擎(java annotation patterns engine,JAPE)。JAPE的功能是建立规则库,用正则表达式匹配文本中的信息并作好标注,用于实现分词、分句和较准确的命名实体识别。JAPE表现为一组规则语法文件,这个语法文件可以经过GATE里提供的一个JAPECompiler转换成一个标准的PR。一个JAPE语法文件包括若干个片(Phase),每个Phase由若干个模式/行为规则(rule)组成。系统运行时,这些片段顺次作用,针对标注形成级联的有限状态转换器。每条rule由左侧和右侧两部分组成。左侧部分(1efthand side,LHS)是一个包含正则表达式操作符的标注模式。每条规则的右侧部分(right hand side,RHS)包含了标注集操作描述。与左侧部分匹配上的标注集将会按照右侧的操作执行。
2.2.2 JAPE规则实例构建命名实体是文本中基本的信息元素,是正确理解文本的基础。命名实体识别就是要判断一个文本串是否代表一个命名实体,并确定它的类别。在信息抽取研究中,命名实体识别是目前最有实用价值的一项技术。GATE提供了一些中文信息抽取中的时间、地点、称谓、货币、URL和Email等识别规则。本文建立EMR患者性
别和年龄识别规则如下:
//性别识别规则
Rule:Sex
(
(Lookup.majorType一一sex}
):tag
一>
:tag.Sex一(kind— sex,rule— Sex)
//年龄识别规则
Rule:Age
(
{Token.kind一一number)
{Lookup.majorType= 一age)
):tag
~ >
:tag.Age一(kind— age,rule— Age)
    对于新的类型的命名实体,都可以通过规则的建立来进行识别。在JAPE语法组织文件(main.jape)中增加新片段定义名,可以显著提高标注效率。
2.3 专业分类词表构建
      GATE中的Gazetteer是由一系列包含时问、地点等基础实体名称的列表集合。GATE借助Gazet—teer完成部分语义标注工作。为了更为专业、精确地识别命名实体,本文对Gazetteer进行扩展。本文构建1O个神经内科常用药物表、7个冠心病治疗常用药物表、1个神经解剖名词表和1个中药名词表
(见表1)

2.4 中文医学本体的导入
     20世纪90年代以来,语义网技术的兴起和发展促进了知识本体研究的不断深入。知识工程中的本体是共享的、概念化的、明确的、形式化的规范说明嘲。其中,“共享”指所建立的概念可以在专业领域范围内共同接受;“概念化”指对领域中的现象和事物进行抽象建模;“规范”是对领域中概念或知识第4期李毅等:中文电子病历的信息抽取研究进行限制与约束;“明确”指概念的类型、概念问的关联与约束是显性的、确定的;“形式化”指描述本体
的、无歧义的自然语言和人工语言具有一定的表达形式。根据本体的定义,可以用概念、关系、函数、公理进行限制与约束;“明确”指概念的类型、概念问的关联与约束是显性的、确定的;“形式化”指描述本体的、无歧义的自然语言和人工语言具有一定的表达形式。根据本体的定义,可以用概念、关系、函数、公理和实例等5个基本的建模元语(Modeling Primitive) 描述特定的领域本体。将已有的神经信息学本体导人GATE平台。该本体符合W3C OWL
(Web Ontology Language)规范,包括神经科学、神经疾病和中医脑病的概念、关系和实例(见图1、2)。

2.5 语义标注和信息抽取结果
       通过构建命名实体识别规则,建立分类词表和导人中文医学领域本体,可以完成EMR文档集的自动语义标注(见图3),也可以进行新的标识或已有标识的修正,从而在语义标识基础上实现语义信息抽取,并对结构化的信息抽取结果进行统计分析。

2.5.1 患者性别和年龄特征信息抽取通过对患、者性别和年龄特征的抽取可以得出EMR文档集中脑梗死患者的性别和年龄分布状况。信息抽取和统计分析结果(见图4)显示,82例患者中,男性59例,女性23例(男女比例为2.6:1);
H 8 6 4年龄最大87岁,最小1岁,平均值为64.76岁,标准差一15.702;5O岁以上73例(占全部病历数的89.O2 ),5O 岁以下9例(占全部病历数的1O.88 )。2 O

2.5.2 脑梗死疾病治疗用药特征信息抽取本文以神经系统解剖结构、神经系统疾病治疗用药、冠心病治疗用药以及中医用药为主题,进行EMR文本特征提取。提取的特征项的主要类型或次要类型包括:
minorType=NeuSysAna(:~O经系统解剖)
majorType=neurodrugs(神经疾病治疗用药)
majorType=heartdrugs(冠心病治疗用药)
m inorType= TCM — Drug(中医用药)。
    对抽取结果进行分析,可以得到82份EMR的用药情况。

    其中,脑梗死治疗用药有7类:① 解热镇痛抗炎药(阿司匹林);② 影响脑血管、脑代谢及促智药(奥拉西坦、奥扎格雷钠、丁苯酞、金纳多、血塞通、银杏叶提取物、恩必普、阿米三嗪萝巴新、克林澳、尼莫地平、鼠神经生长因子、依达拉奉、阿魏酸钠、吡拉西坦、氟桂利嗪、葛根素、桂哌齐特);③抗癫痫药(卡马西平、妥泰);④ 抗抑郁症药(阿米替林、西酞普兰);⑤ 抗精神病药(奥氮平、氟哌啶醇、奋乃静);⑥镇静、催眠及抗惊厥药(鲁米那、苯巴比妥);⑦ 中枢兴奋药(洛贝林、尼可刹米)。冠心病治疗用药有5类:① 钙通道阻滞剂(硝苯地平、地尔硫卓);② 调整血脂药物
(辛伐他汀、洛伐他汀);③ 硝酸酯制剂(硝酸甘油);④ 溶血栓药物(尿激酶、肝素、华法令);⑤ 抗血小板药物(阿斯匹林)。在82份病历中,中药银杏叶和丹参用得最多;有两份被诊断为中风(中经络)并结合中药治疗的病历,分别用到了17种中药和14种中药。
2.6 讨论
        为了全面掌握疾病发生、发展和预后的规律性,临床上需要对患者的病历进行统计分析。但是通过人工阅读和统计的病历分析费时费力。本文通过基于GATE的EMR信息抽取,得到了有关脑梗死患者性别和年龄分布情况以及治疗用药一般性规律的知识。信息抽取的整个过程是经计算机“阅读”而完成的。虽然这些从82篇EMR文档中得到的知识
需要领域专家的审定,然而对于计算机来说,这些知识确实是新的知识。如果文档集数量足够大,在领域专家的参与下,通过基于本体的EMR信息抽取进行知识发现是可行的。而且,利用本体就可以根据用户的需求,在EMR未经任何标引的情况下进行面向主题的文本特征提取。例如,针对82篇EMR文档集,可以将主题确定为脑梗死发生的危险性分析、脑梗死的定位诊断、脑梗死合并其它病症时的联合用药等。
3 结束语
    自然语言理解和本体的理论和技术手段有效地改善了计算机对文本的“理解”能力。在此基础上,医务人员可以根据需要在计算机的辅助下对EMR进行信息抽取和统计分析,从而提高知识挖掘的效率。
参考文献
[1] SIEFKES C,SINIAKOV P.An overview and classification of adaptive approaches to information extraction[J].Journal on Data Semantics IV.2005,3730(4):171-212.
[2] CROWLEY R,CHAVAN G,MITCHELL K,et a1.cATIE end User manual(Phase 2 Version 2.O).https://eabig.nci.nih.gov/tools/caties.(2009—8—24)
[3] CUNNINGHAM H,MAYNARD D,BONTCHEVA K,et a1.GATE:A framework and graphical development environ—ment for robust NLP tools and applications[c].Philadelphia:Proceedings of the 40th Anniversary Meeting of the Assoeia—tion for Computational Linguistics.2002:168—175.
[4] cuNNINGHAM H,MAYNARD D,B0NTcHEVA K。et a1.Developing language processing components with GATE Version 5(a User Guide).http://gate.ac.uk/sale/ta0/tao.pdf.(2009—8—24)

[5]KRAUTHAM M ER M . NENADIC G.TerTn identm catiOn in the biomedical literature[J].Journal of Biomedical Informat—ies,2004,37(6):512-526.

[6]STUDER R,BENJAMINS V R。FENSEL D.Knowledge engi—neering,principles and methods[J].Data and Knowledge En—gineering,1998,25(1—2):16卜197.

[7]PEREZ A G,BENJAMINS V R.Overview of knowledge sha-ring and reuse com ponents: ontologies and problem solving methods[c].In:Benjamins V R,Chandrasekaran B,Gomez-Perez A,et a1.Proceedings of the IJCAI 99 workshop on On·tologies and Problem Solving M ethods (KRR5),Stockholm ,Sweden。1999,1—15.http://ftp.informatik.rwth-aachen.de/Pub1ications/CEUR—W S/Vol一18/1-gomez.pdf.(2009-8—24)
                                                                                                             (收稿:2009-09—03 修回:2009—10—30)

发布:2007-04-09 11:21    编辑:泛普软件 · xiaona    [打印此页]    [关闭]
相关文章:

泛普门诊收费管理系统其他应用

医院行业管理系统 医院信息管理系统 医药管理软件 病案管理系统 药店管理系统 医院his系统 医院预约软件 住院收费管理系统 区域医疗卫生信息化平台 社区医疗管理系统 门诊收费管理系统 医疗卫生软件 新农合软件 医院管理系统免费版 免费医院信息管理系统 医药管理软件免费版 免费药店管理系统 医院管理系统下载 医院信息管理系统下载 医药管理软件下载 病案管理系统下载 药店管理系统下载 医院his系统下载 医疗一体化管理系统下载 新农合软件下载 药品管理系统下载