-
电子病历用于临床研究的元数据概念及语义建构
摘要为了揭示电子病历用于临床研究的元数据系统语义建构的关键因素,首先归纳了l临床信息元数据的三种概念,即面向数据的元数据、面向文档的元数据和面向资源整体的元数据,并明确了电子病历用于临床研究的元数据概念,然后对电子病历用于『临床研究的元数据从体系框架、宏观与微观的语义结构进行分析。在研究中发现必须同时利用电子病历标准和I l台i床研究标准的语义结构,并结合元数据标准,才能很好地建立电子病历用于临床研究的元数据体系框架以及宏观与微观的语义结构。
关键词 元数据 电子病历 临床研究
1引言
元数据最广义的概念为“关于数据的数据”,它与各专业领域结合后,就形成了各专业领域特定的对元数据的定义,并具有了解决特定问题的结构和功能。国际上电子文件元数据的研究已日趋成熟,而且也越来越被我国的档案与文件管理领域所重视。
《I S O 2 3 0 8 1—1信息与文件一文件管理过程一文件元数据一第1部分:原则》中认为,元数据应具备六项功能:确保文件的真实性功能,确保文件的可靠性功能,确保文件的可利用性功能,确保文件的完整性功能,确保文件的管理功能和确保文件的可理解功能…。可以说,元数据对电子文件的管理至关重要。电子病历作为电子文件的一种类型,要进行有效的管理和利用,也必然涉及如何引人元数据概念和如何利用元数据的重要问题。在国内,电子病历元数据的研究还未展开;在国外,元数据对电子病历标准化和电子病历系统设计都产生重要影响,但对电子病历元数据的认识还不完全统一。本文将对国际上有关电子病历元数据概念研究做一详细梳理,揭示电子病历用于临床研究的元数据系统语义建构的关键因素。
2临床信息领域对元数据的认识
目前,元数据广泛应用于医学信息学领域,如网络医学资源、门户网站、医学文献以及临床信息等。其中网络医学资源、门户网站、医学文献范围的元数据概念与都柏林核心元数据集中定义的元数据概念一致j,意指描述信息资源的数据。而应用于临床信息,如电子病历和临床研究数据库的元数据却有几种不同的理解。
2.1面向数据的元数据
通过P u b me d数据库检索“元数据”一词发现,元数据在电子病历及临床研究领域最早出现在1 9 8 6年,其定义为:用于定义、保存、检索、排序、归纳、分析和表达数据值的数据r 3。该定义源于计算机领域对元数据概念的理解。早在1 9 8 4年,I E E E计算机学会技术委员会就意识到元数据管理在统计数据库中应用的重要性,并对其产生极大的关注。2 0世纪9 0年代末,N a d k a r n i等研究人员就将元数据理论引入电子病历领域并成功应用于E A V(实体一属性一属性值)电子病历系统。在E A V模式中,元数据被定义为数据字典,即描述数据元素以及数据元素间关系的数据。
2.2面向文档的元数据
这一类型的元数据与信息领域对元数据的定义一致,即元数据是描述、说明、定位信息资源的结构化数据,它有助于管理、检索和利用信息¨。这里的信息指的是一组表达特定内容的相关数据集合,而非单个数据。在电子病历系统中,这类面向文档的元数据也是非常常见的,如病案首页、病历摘要等。在电子病历环境下,这类元数据的结构化和标准化日益重要,因为其不仅能提高医疗质量、实现语义共享,还能为临床研究和教学提供有效数据。目前,仅澳大利亚就出台了两项临床信息元数据标准。一项标准是南澳大利亚政府H e a h h C o n n e e t计划下的临床信息项目,它包括电子病历的事件摘要(e v e n t s u m ma r y)、电子病历列表(E HR l i s t)、电子病历视窗(E H R v i e w)以及出院摘要(h o s p i t a l d i s c h a r g es u mm a r y)元数据框架和数据元素标准。另一项标准是澳大利亚国家电子医疗交易机构(N E H T A)开发的临床数据标准,它主要是有关事件摘要(e v e n t s u mm a r y)的元数据框架和数据元素标准。由于两项标准都是致力于实现电子病历的共享,而N E H T A的临床数据标准面向更广泛的医疗信息管理与共享,目前He a h h C o n n e c t计划下的临床信息项目已加入到N E H T A项目中。在我国最近颁布的《电子病历基本架构与数据标准(试行版)》中,临床文档的文档头也属于这类元数据。
2.3面向资源整体的元数据
对整个数据集或整个数据库的信息进行描述的数据就是面向资源整体的元数据。对这类元数据的研究并不多见。在《电子病历基本架构与数据标准(试行版)》的附录中,数据集元数据就是面向资源整体的元数据。
以上三种不同的定义对应于国际标准《I S O1 4 7 2 1:2 0 0 3空间数据和信息传输系统一开放档案信息系统一参考模型》(简称O A I S参考模型)中的三层元数据框架,即关于数据对象的元数据框架、关于信息对象的元数据框架以及关于信息包的元数据框架¨。三种元数据定义是针对描述不同级次的信息对象而形成的。电子病历属于特殊类型的电子文件,与大多数电子文件不同的是它以数据为中心而非文档为中心。不仅如此,它从临床数据、临床文件、医学语言以及利用需求上,都呈多样性和复杂性。因此面向数据的元数据是最普遍认同的一种定义。由于电子病历的多样性和复杂性,对电子病历元数据的研究就应当根据不同的研究领域和方向,界定好元数据的研究背景和范围。
3电子病历用于临床研究的元数据建构
电子病历用于临床研究是电子病历二次利用的一个重要方面。在这里,我们将电子病历用于临床研究的元数据定义为:描述电子病历中用于临床研究的数据定义、属性、值以及数据问关系的数据。
3.1电子病历用于临床研究的元数据体系框架
通常临床研究被分为两大类:试验性研究和观察性研究。而在电子病历用于临床研究这一领域,则将临床研究分为前瞻性研究和回顾性研究。这样区分有利于临床元数据的收集与提取。对于前瞻性研究来说,部分元数据可以从电子病历数据中提取,部分元数据需要在前瞻性研究进行的同时甚至前瞻性研究进行之前与电子病历的数据一起进行采集。而回顾性研究中,元数据主要来自电子病历数据(图1)。
理想的元数据体系框架中包含临床研究元数据注册库,它是有关临床研究元数据的标识信息、定义信息、置标方案、转换规则、著录规则、应用指南等规范进行登记管理和检索的系统¨。元数据注册库能够保证临床研究元数据统一化和标准化,使元数据易于重用和交换。研究人员自定义元数据模块主要用于前瞻性研究,这类元数据主要是针对某个特定前瞻性研究的专用元数据,如研究协议、研究对象和研究者标识等。而且这类元数据也会根据需要补充到元数据注册库中。前瞻性研究元数据模块分为特定前瞻性研究专用元数据模块和通用前瞻性研究元数据模块。与回顾性研究元数据均来自电子病历数据不同,前赡性研究模块中的专用元数据模块可以通过模块生成工具预先制定,通用元数据模块中的元数据因为来自于电子病历,这时就有几种方式进行采集。在电子病历数据结构化程度不高,大部分临床信息为文本信息时,可将前瞻性研究通用元数据模块嵌入电子病历系统,与电子病历数据一起收集,也可利用自然语言处理系统对电子病历中所需的数据进行提取。另一种理想的方式是在电子病历系统设计时就考虑到电子病历用于临床研究的策略,对临床研究所需的元数据进行结构化,这样通用元数据就可以自动从电子病历中提取。由于电子病历是以数据为中心的文件,目前电子病历的标准化中很重要的内容就是数据的结构化,而且电子病历标准在制定之初也考虑到电子病历二次利用的可能。这使电子病历直接用于临床研究成为可能。开放电子病历框架(o p e n E H R)就是这样一个电子病历项目。
通过前瞻性研究专用元数据模块和前瞻性研究通用元数据模块收集的元数据,以及回顾性研究元数据模块收集的元数据,最终都分别输入前瞻性研究数据库和回顾性研究数据库进行数据分析。在目前电子病历标准还没有普遍统一,很多医疗机构采用的电子病历系统各异的情况下,电子病历用于临床研究的元数据模块设计研究就显得非常重要。
3.2电子病历用于临床试验研究的元数据模块宏观内容
目前国际上将电子病历用于临床研究的元数据研究重点放在前瞻性研究上。应该说,它涵盖了回顾性研究元数据的研究内容。而临床试验研究又是前瞻性研究中很重要的一种研究类型。我们首先研究电子病历用于临床试验研究元数据模块的宏观内容。前瞻性研究元数据不仅需要电子病历中的数据作支撑,还需要采集前瞻性研究标准中提出的元数据。因此在设计前瞻性研究元数据内容时,需要同时研究电子病历标准、前瞻性研究标准以及医学术语标准。前瞻性研究中的临床试验研究在国际上有着严格标准规范的管理,在实施过程中有一系列相应的标准来保证。例如,国际组织临床数据交换标准协会(C D I S C)就发布了在研究数据收集形成病例报告表(C R F)的过程中的《临床数据收集统一标准》(C D A S H),以及在研究数据表向管理机构提交时的《研究数据表模板标准》(S D T M)1 4]。如何实现电子病历数据与临床研究数据的融合和共享,目前已成为国际上研究的一个热点。H L 7组织目前发布了《电子病历/I j岛床研究执行框架标准》”,它在H L 7《电子病历系统功能模型标准》(E H R SF u n c t i o n a l M o d e 1)的基础上,结合临床研究标准C D A S H,形成了一项电子病历直接用于临床研究的功能模型。虽然这一标准还没有完全应用于实际系统,但我们的研究秉承了它的思路和方法,并且元数据的框架结构与之一致,从而保证临床研究元数据的标准化和共享性。
我们以临床试验研究(c l i n i c a l t r i a 1)为例,采用以C D A S H标准中的数据元素为元数据的主要研究内容,并与我国近期发布的《电子病历基本架构与数据标准(试行)》相应部分作出映射,形成电子病历用于临床试验研究的元数据宏观内容模块(图2)。在C D A S H标准中包含1个通用标识变量表和l 6个数据域表。通用标识变量表适用于所有数据域表,它包括研究对象标识、研究者标识和就诊标识。1 6个数据域表中也包括更详细的数据项。C D A S H标准数据内容中的数据元素:不良时间、伴随药物、人口学、E C G结果、暴露、检验结果、疾病史、体格检查、物质使用、生命特征等,可从电子病历文件中获取,我们将这部分内容映射到我国电子病历临床文档数据组。数据元素:通用标识、注释说明、处置事件、研究用药说明、研究方案偏差、研究对象特征等,需要在临床试验研究的过程中收集。其中,入选/排除可在电子病历系统中设计成自动提示菜单,如果电子病历数据符合入选试验条件,则系统可弹出提示菜单供研究者判断和选择研究对象。
3.3电子病历用于临床试验研究的元数据语义结构
电子病历用于临床试验研究的元数据语义结构同电子文件管理元数据语义结构一样,是从宏观结构到微观结构的层层细化。目前电子病历用于临床研究的两个项目:美国的i 2 b 2项目(i n f o r m a t i c sf o r i n t e g r a t i n g b i o l o g y a n d t h e b e d s i d e)1 8 1和荷兰的o p e n S D E项目(o p e n s t r u c t u r e d d a t a e n t r y),其元数据的宏观语义结构都采用树型等级结构,与大多数电子病历标准所采用的语义结构一致(图3)。处于元数据宏观语义结构各层的数据元素均有属性对其进行限定和描述,这就构成了元数据的微观语义结构。在l临床信息领域,元数据的微观语义结构尤其重要,因为临床数据、临床文件、医学语言呈多样性和复杂性。对临床数据而言,描述临床数据的属性,从取值范围、数据的确定性和精确度,到图3 o p e n S DE的宏观元数据树型结构片断数据类型等,可以非常丰富。而临床文件纵向上包括不同时间段的临床文件,横向上包括来自管理、实验室、放射科、药房的文件或数据,以及护理记录、病程记录、医嘱等各种临床诊治文件或数据。医学语言标准体系庞大、类型较多,而且医学概念以及概念问关系也非常复杂,只有定义好元数据的微观语义结构,才有助于处理纷繁复杂的医学数据。
目前,在电子病历用于临床研究的领域,也开始引入元数据数据元素和属性标准来开展研究,如美国国立癌症研究所研发的通用数据元素标准(c o m mo n d a t a e l e me n t s,C D E)的设计就受到《I S O/I E C 1 1 1 7 9信息技术一元数据注册》¨的影晌。<(I S 0/I E C l 1 1 7 9信息技术一元数据注册》标准中规定了6个功能领域(管理和标识、名称和定义、分类、数据元素概念、概念域和值域、数据元素)的元数据模型,定义了9类4 5个基本属性,为各专业元数据的建立提供了良好的研究理念和基础。C D E在《I S O/I E C 1 1 1 7 9信息技术一元数据注册》的基础上设立了4个重要类别:数据元素概念(c o n c e p t s)、值域(v a l u e d o m a i n s)、数据元素(d a t a e l e m e n t s)和取值(c h o i c e s),以及背景信息(c o n t e x t s)和分类表(c l a s s i f i c a t i o n s)来共同表达和描述数据元素,使数据有了完整和清晰的展示,并充分揭示宏观等级结构难以表达的数据元素间的各种关系。
4结语
电子病历的二次利用,特别是在临床研究中的利用,已经成为国际医学信息领域的研究热点。元数据在电子病历用于临床研究中发挥着重要的作用。必须同时利用电子病历标准和临床研究标准的语义结构,并结合元数据标准,才能建立电子病历用于临床研究的元数据体系框架以及宏观与微观的语义结构,这是电子病历用于临床研究的元数据系统建构的关键因