-
胃癌外科临床数据挖掘系统的构建与实现
胃癌外科临床数据挖掘系统的构建与实现
【摘要】目的开发一款符合国际标准和临床应用习惯、适合回顾性及前瞻性临床研究、科学
合理地进行肿瘤外科临床数据管理并能进行临床数据挖掘的软件系统,以满足胃癌外科多中心、大样本临床数据分析需要。方法结合日本胃癌规约(J G C A)第1 3、1 4版及U I C C分期系统.确定临床核心数据项目,根据数据挖掘理论和临床工作思路合理设计数据结构和控制逻辑.采用M i。r 0。。f tV i s u a l B a s i c、V i s t a D B等进行编程。结果历时近1年的开发和完善.南方医科大学南方医院使用该软件系统回顾性录入6 0 0余例胃癌临床数据资料,建立起包含近4 0 0 0项临床指标的、内置数据挖掘功能的数据库系统,各项功能指标经实践检验达到设计要求该软件作为中国腹腔镜胃癌外科研究组的数据平台.已在全国内地和香港地区3 0家医院参与的第一期临床研究项目“腹腔镜胃癌手术可行性的回顾性多中心研究”中成功运行数据挖掘功能达到预期目标。能可视化地进行复杂搜索,统计分析功能可对数据进行描述性分析。记录和数据的导入、导出满足了进行交流的需要.导出数据格式与所有统计软件兼容.无数据传输错误。结论本软件系统在胃癌外科临床研究领域具有广泛的应用前景和网络化升级扩展的潜能
【关键词】胃肿瘤;外科;数据库,软件;临床数据挖掘
近年来.我国胃癌外科发展迅速.但由于长期以来缺乏有效的数据管理手段.科研数据往往缺乏说服力,多中心、大样本临床研究更是奢望…。导致我们尽管在腹腔镜胃癌手术技术方面已达到国际一流水平.但在国际上进行学术交流存在较大弱势.纵观日本、美国等国家,都有全国性或区域性的数据库,能够满足全国性大规模普查、记录和分析的需求而国内目前绝大多数医院仅有纸质病历装订保存.无专科数据的标准化电子录入.专业核心数据极不完整和规范.数据存储交流的信息化程度很低。临床数据挖掘困难重重.医院之间的数据无
法横向交流。基于此.我们决定开发“胃癌外科临床数据管理与分析系统”。制作单机版系统.提供记录和数据的导人、导出功能,以满足本学科临床据挖掘和多家医院同步使用.回顾性录入无需联网,各医院有便携数据,方便交流和协作的需要。
资料与方法
一、系统的计算机基础
1.编程语言:M i c r o s o f t V i s u a l B a s i c S P 6:采用嵌入式数据库V i s t a D B 2.1。使用与S Q L 9 2兼容的V.S Q L来做自定义搜索引擎.能够满足未来扩充到T S Q L等标准的需要。为了更好地进行复杂搜索。我们开发了自定义搜索引擎(L S 0 1)。
2.电脑最低配置:2 5 6 M B内存,简体中文Wi n d o w s 2 0 0 0以上操作系统(不支持Wi n d o W s 9 8、M e),1 2 0 MB空闲磁盘空间.3 0 M B额外磁盘空间做临时文件用,1 0 2 4 x 6 0 0及以上分辨率,1 6位色-露-基本信息检查结果1 J r术前干预临床分期深。小字体模式,至少1个空闲U S B端口。
二、主要功能
1.临床数据电子化:能进行近4 0 0 0项胃癌相关临床指标的管理.包括录入、修改、删除等功能。绝大部分指标已实例化.手动录入的工作量减至最低。
2.任意搜索:能进行任意复杂条件的查询。所定制的搜索条件可以保存.方便随时使用。
3.记录交流:每个病例的所有数据可导出为1个文件(.d r f),方便不同录入单位之间交流;具有记录的批量导入和导出功能,内置同步性检查;支持将任意记录、组合的数据导出为E x c e l或T e x t文件;支持直接拷贝。
三、关键技术
1.符合临床数据挖掘标准的数据结构:为满足分析胃癌外科临床数据的需要.我们按照如下临床流程设计了1 2类、约3 5 0 0项指标。加上预留扩展和内部控制指标.共近4 0 0 0项,比较全面地覆盖了与胃癌外科临床数据相关的各个方面见图1。为了将这l 2类数据设计到3 8个数据表之中.数据库中的字段按照统一的命名.分4个层级进行组织和显示见图2和图3
2.定制搜索引擎(L S 0 1):国内大部分同类软件搜索功能最多只能做到二级组合搜索在开发之初,我们考察了能实脱任意搜索、分组、排序和常规运算的技术底层.例如A u t o m a t e d S Q L B u i l d e r.A c t i v e Q u e r y B u i l d e r。d b F o r g e Q u e r y B u i l d e等。但发
现在中文支持、接口控制能力、分组逻辑、扩展性、
运行效率等方面不能完全满足我们的要求因此.我们开发了全新的定制搜索引擎(I_S 0 1)。见图4。利用该搜索引擎.用户可在B区设置任意层级组合的条件表达式.在“选择字段”中设置需要呈现的指标:可以使用分组条件和排序进行高级呈现控制搜索条件的选取通过A区的选择即可.无需用户了解相关指标在数据库中的名称和位置点击“生成/检查/预览”.可在C区生成符合S Q L 9 2标准的查询表达式.D区显示查询细节.“数据预览”中以电子表格显示目标数据3.数据挖掘功能:作为支持数据挖掘的软件。我们最大程度地发掘和实现了使用S Q L语句进行任意复杂层次的自定义搜索系统引擎支持S Q L9 2、S Q L 9 9、T.S Q L和V.S Q L,暂不支持O r a c l e和E n t e r p r i s e D B的P L/S Q L支持2 2种操作符和5种限定词,用户无需记忆数据库、表和字段的名字.即可生成各种复杂的S Q L搜索表达式。见图5我们在数据库内嵌入了常见的数据挖掘基本功能。包括:(1)聚合;(2)分组;(3)数据内联;(4)计算:平均值、频数、最大值、最小值、求和等:(5)多因素排序等这些功能可满足可视化的数据挖掘功能包括趋势和行为预测、关联分析、聚类、概念描述和偏差检测。可将定制搜索的结果送人其他商业智能挖掘系统(b u s i n e s s i n t e l l i g e n c e,B I)或者数据可视化系统(d a t a v i s u a l i z a t i o n)进行二次数据挖掘
4.自动单因素描述性统计:经过选择总体、单因素、设置数据类型和参数即可进行全自动的描述性统计分析,包括字符型、文本型、日期型和选项型数据。见图6。统计图表表达类型超过4 0种.可以直接导出到P o w e r P o i n t、Wo r d,或者存为常见图片格式
结果
本系统自2 0 0 9年5月开发.历时近1年时间.8易文字底稿。包含近4 0 0 0项与胃癌外科相关指标.超过1 7万行源程序目前.已取得国家软件著作版权南方医科大学南方医院已使用该系统录入近年来行腹腔镜与开腹手术治疗的6 0 0余例胃癌患者临床资料.针对日本胃癌规约(J G C A)第l 3、l 4版及U I C C分期系统.实现了肿瘤分期的自动计算与转换.为病例资料的规范化存储、电子化管理及临床研究提供了重要的数据资料.使用本系统进行了多项析因和循证科研分析.达到了预期效果。
2 0 0 9年l 2月.由南方医科大学南方医院发起成立了内地和香港地区3 O家医院合作研究组织.即中国腹腔镜胃肠外科研究组f C h i n e s e L a p a r o s c o p i cGa s t r o i n t e s t i n a l S u r g e r yS t u d y G r o u p,C L A S S),在第1期“腹腔镜胃癌手术可行性的多中心回顾性研究”中.3 0家医院基于此系统平台的支持.异地进行了高效率的数据录入、汇总工作。
案例:分析2 0 0 9年底之前进行腹腔镜胃癌手术且居住地为广东省的病例.观察术后病理分期情况。设置搜索条件和呈现字段.见图7。在数图8自动描述分析结果据库中得到9 0条匹配记录.自动描述分析显示术后病理分期的分布和比例情况,见图8如将此定制搜索数据导出后.进行简单的聚类分析.我们可以直观看到.在5 9~6 5岁之间.会形成一个年龄与D T N M分期的数量集中聚集区域.这提示在此段范围内年龄与胃癌的进展程度存在某些关系.值得我们关注或者深入研究见图9。这些数据挖掘功能产生的潜在信息是传统的统计分析(图8)所难以察觉的在完整的临床数据挖掘过程中.包括多项步骤。见图1 0本系统已经能够实现选择、预处理、转换和初步数据挖掘的功能。
讨论
东西方的差异.客观上决定了需要国人自己的数据以指导临床治疗与科学研究。因此,以统一的标准建立、能满足全国多中心和大样本录入需求、采用网络化管理并同时具备任意搜索、数据挖掘功能的数据库系统迫在眉睫文献报道.一些医疗单位已开发出单病种数据库.如使用A c c e s s建立的肝内胆管结石、脊柱畸形、人工膝关节置换、子宫内膜异位症、结直肠癌和原发性肝癌等数据库[z一]又如以F i l e m a k e r软件制作的“多功能胃癌临床病理资料专业数据库”以及国外报道的妇产科疾病、头颈部肿瘤电子数据库[s。日本在1 0年前已着手建设全国胃癌临床资料登记网络.然而其仅为部分书面文字资料的电子版.无任意搜索和数据挖掘功能临床数据挖掘是我们开发的目标.不仅仅是一个简单的数据库软件数据挖掘(d a t a m i n i n g)的定义就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。我们开发该系统的目的是建立一个大而全的临床资料库.从大量与胃癌外科临床实践有关的指标中挖掘、分
析出与我们各种研究目的相关的、有潜在临床价值和研究价值的内容要实现数据挖掘的目的.仅具有基本搜索功能是不够的我们的系统目前已经能够实现常见数据挖掘分析的方法如分类、聚类、关联规则等基本功能.同时从临床使用的角出发,设计了全自动的描述性分析。我们将在后期的版本中,考虑特征、变化和双因素显著性分析.实现模式定制和定制的评
估模块.以更好地满足临床和科研分析的需要目前.市场上有不少成熟的商业数据挖掘系统,例如S P S S C l e m e n t i n e、S A S E n t e r p r i s e M i n e r、I B M C o g n o s等.这些商业应用级统计软件和B I软件需要提前提取出数据.然后在此基础上进行数据挖掘本系统的数据挖掘是在自定义搜索的基础上实现的,而且随时可以进行调整和修改,并非无逻辑、无针对性地进行挖掘分析.这对于特定聚类分析有很大的不同。另外.本系统的搜索查询体系是
51 5按照临床病例报告表(C R F)的四级结构合理构建的.充分考虑了用户使用时的一致性结构需求,增强了搜索的逻辑性和习惯性,通俗、易懂、操作简单.并可以按照用户意愿,将数据内容以任意定制的方式导出到格式化文本文件,开放性很好。
小结“胃癌外科临床数据管理与分析系统”通过信息化技术为胃癌外科建立标准化、结构化数据平台本系统可对临床数据及随访信息进行电子化管理.提供前瞻性或回顾性临床研究的C R F平台.内置强大的搜索及初步的统计分析功能.并在此基础上可以进行临床数据的挖掘.为进行与胃癌外科相关的临床诊断、综合治疗(手术、化疗、放疗等)、预后因素的研究提供循证医学依据。本系统使跨区域、多中心的大规模数据收集和交流成为可能.在胃癌外科临床研究领域具有广阔的应用前景。