
-
基于领域本体的中医知识获取方法
基于领域本体的中医知识获取方法
摘 要 :中医知识获取是计算机 自动实现知识管理、知识 重组 的前提 。中医领 域存在大量非结构化知识 ,难以被深入获取 。该文提 出一种基于领 域本体 的知识获取方法 ,对选取的单一医案中蕴含 的知识进行形 式化表示 ,构造中医领域的语义 网络 ,对其进行 定量分析 ,抽取中医领域的概念语义场 。实验结果表 明,该方法可在一定程度实现 中医领域的知识获取 。
关健词 :本体 ;中医;语义场 ;知识获取
中医是通过传承、实践和创新而形成 的独特知识体系。在 中医辨证施治过程和医案中 ,蕴含 了丰 富的、独具特色的学术 思想、诊断经验和治疗 方法 。从 中医知识的形式化表示中获取领域知识 ,是实现计算机 自 动 完成知识重组、知识管理及重现中医专家诊疗规律 的关键 。
1 领域本体及其构建技术
本体论是客观存在 的一个系统的解释或说明,关 心的是客观现实的抽象本质 。 在 人工智能界 , N e c h e s 等人最 早对本体论定义 如下 : 给 出构成相关领域词 汇的基 本术语和关系 ,以及利用这些术语和关系构成的规定这些词 汇外延 的规则 的定义 [1]。
根据 本体论观点 ,中医是 由 概 念及概念之 间的关系构成的知识体 系。因此 ,可以为中医构造一个形式化 的领域本体系统。
1 . 1 本体楚模原语
P e r e z 用分类法组织本体归纳出如下 5 个基本建模元语 :
( 1 ) 类或概念 。指任何事务,如工作描述、功能、行为、策 略和推理过程。从语义 上讲 ,它表示 的是对象的集合 ,其定义一般采用框架结构,包括概念 的名称 ,与其他概念之 间的关系的集合 ,以及 用 自 然语言对概念 的描述 。
( 4 ) 公理 。代表永真 断言 ,如概念 乙属于概 念甲的范 围。
( 5 ) 实例 。代表元 素,从语义上讲实例表示的就是对象 。
按照 T o m G r u b e r 给出的评价本体设计的基本原则 , 还须满足客观性、完全性、一致性、最大单调可扩展性 、最小承诺和最小编码承诺 。
1 . 2 本体建模语言
图 1 表现了一个中医领 域的有 向概念 。
本体有两个基本要素 : 概念 和概念之 间的关系 。可以用一个二元组 O n t o ( O , R) 来表示本体,其 中,0表示领 域的概念集 ,它包括领域内的类、类的属性及类 的实例,类 是概念的核心 ,类属性及 实例都是类 的扩展 ; R 表示领域内概 念的关系集合。
可以使用一个 有向的概念 图来表示 本体 ,其 中的顶点表示概 念,有向边表示概念问 的关系[2]。
1 . 3 中医领域本体 的构建方法
由于对各 自 学科领 域和具体工程 的不 同,因此构建 知识本体的方法各 不相同。 目 前 尚没有一套标准 的知识本体构建方法,但是构造 本体时必须遵守一 些原则 。本文构建 的中医领域本体符合 G r u b e r 于 1 9 9 5 年提 出的以下 5 条规则 :
( 1 ) 明确性和客观性。使用 自然语言对术语 给出明确、客观的语义定义 。
( 2 ) 完整 性。 给 出的定义 是完整 的, 能表达 特定术语含义 。
( 3 ) 一致性 。知识推 理产 生的结论与术语本身 的含义不会产 生矛 盾 。
( 4 ) 最大单项 可扩展性 。向本体 中添加通用或专用 的术语时,通常无须修改 已有内容 。
( 5 ) 最少约束。尽可能少对建模对象列出约束 限定条件 。中医领域存在大量的非结构化知识 ,本文建立中医领域本体 的过程 ,使用图 2进行描述。并 使用了 p r o t d g 6 3 . 2工具完成构建 中医本体。
2 中医知识获取
知识获取就是把用于求解专 门领域问题 的知识从拥有这些知识 的知识源中抽取 出来 , 并转换为一特定的计 算机 表示。
2 . 1 知识获取的难点
获取 中医领域专家的启发性 知识难度 很大 ,原 因如下 :
( 1 ) 知识表 示不一致 。专家通常 陈述知识 的方法与专家系统采 用的知识表示方法不一 致。
( 2 ) 专家的启发性知识不够精确 。 专家 的启发性知识往往隐含着近似、不确 定、不充分、不完全,甚 至产生矛盾 。
( 3 ) 有些启发性知识表示 的不可能性。领域专家凭借多年总结和积累的实践经验 , 采 用独特的方法和有效的手段 去解决 困难问题 , 但难以把这些经验 和策 略方法显 式地表达 出来 。
( 4 ) 缺 乏开发专家系统的现代技术。现行系统采 用的表示方法限制了它 的表达能力 。
( 5 ) 知识测试与调试 的困难性 。 知识的正确性 需要经过 反复测试与调试 , 为 了孤立 出形成 问题解答 的错误 ,可能需 要跟踪包含着数百个事实的几十种 推理。为 了使 观察 到的错误与它 的真实原 因联 系起来 ,必须弄清知识与推 理机控制策 略之 间的相互作用。而且 ,除非知识各 部分之 问相互依 赖关系是非常明了的 ,否则 , 在 修正一个观察到的错 误时,在 知识库 中的修改都可能引起新的错误 , 这 些错误有 可能 降低 系统的性能。
2 . 2 语义 网
语义 网将人 的记忆模 型画为一个联系 网,将其 中的节点用来表示实体、概念 , 而连接则表示概念问的联系 J 。根据中医理论体系知识结构 的特点 ,为 了完成 中医专家系统的构造 ,本文采 用语义 网络来表示 中医诊疗 知识 ,并用于构建 中医知识库 。
( 1 ) 常用语义 网
在语义 网表示 中,节点可 以划分为实例节点和类节点两种类型 ,节点 问的弧 用于表示节点之 问的联系 。在表达事实性知识和事实之问联系的知识 时 , 语义 网采 用统一 的形式 。
1 ) I S A类型 ,用于表示实例—— 类属 关系 。
2 ) A K O 类型 ,全称 为 A — K I N D — O F ,用于表示具体类一一抽象类关系。 1 S A将某个具体实例与一个一 般类联系起来 ,A K O则将类与类联系起来 。
3 ) 1 S类型 ,I S 弧用于 表示某一节点是另一节点 的属性 。
4 ) P A R T — O F类 型 ,这种 类型 用于 表示部分 与整体 的关系。 它基于概念 的分解, 通常将高层 次的概念分解为若干低层次概念的集 合。
( 2 ) 事件知识 的表示
设 有 n 元谓词 或关系 R ( X l , X 2 , …, X n ) , 其 中 的取值为a i ( 1 ≤ ≤n ) 。可以将 R转化 为等价 的一组 n 个二元关系:
X1( R , a 1 )
X2(R , a 2 )
Xn( R , a n )
将 R和具体值 日 作 为语义节点, 将 x 作为节点 R和节点口 之问的弧。这样就 可以用语义 网表示事件知识 。比如 “ 手太阴肺经循行 由胸走手” , 谓词形 式为经络循行( 手太阴肺经,胸 , 手 ) ,即可 以表示为如 图 3 所示 的语义 网。
( 3 ) 联结词在语义 网中的表示 方法
语义 网具有与谓词逻辑等 同的表达能力 ,它不仅可以表示基本命题 ,还可以表示与、或、非以及蕴涵关系。
在表示各种基本命题 的组合方式时 ,只需要引入相应 的组合节点就可以 了,比如 “ 与” 、“ 或”节点 。
对于否定类型的关系 ,可以直接采用带有否定标 志的弧来表示 , 比如 , 为表示事实 “ 当归不是泻下药” , 可以在节点“ 当归”和节点 “ 泻下药”之问使用~ A K O弧来表示 。
对 于蕴涵关系 ,本文引入一个新的蕴涵节点 表示规则 中前提条件和结论之间的 因果关系。从蕴涵节点引出两条弧。一条记为 A N T E ,指向前提条件 ,另一条记为 C O N S E , 指 向结 论 。
( 4 ) 存在量词和全称量词在语义 网中的表示
对于存在量词可以直接使用 I S A类型语义 网来表示 。假设存在某种 药物可以治愈失眠,可以表示为如图 5 所示的中医语义 网。
3 语义 网深度分析
中医语义 网络可以用图表示 出来 。在此基 础上,可 以使用图论、矩阵代 数作深入 的定量分析 。同时,在表达关系数据 的时候 ,还可 引用社会 网络科学中的社群 图 概 念[5-6]。
社群 图是 由莫雷诺最早使用的 , 现在 已在社会 网络中得到广泛使用。用来表达一种关系的矩阵叫做社群矩 阵。而作为对中医理论 中关 系的研究 ,也将图作 为一种重要 的手段 。图论作为数学 的一个分支 ,为描述 网络及其特点提供 了一种形式化 的语言 ,利用图论 可以把 网络数据转化成形式化 的表达 方式 , 从而对 中医语义 网络分析 的实际特征进行量化处理。
图可以有多种类 型,网络分析者可以 自 行 定义 ,点代表行动者 ,线代表行动者之 间的关系 。根据这种 思想得到 的图叫社群 图。这样 ,一 个群体成员之问的关系 就可 以用一个 由点和线组成的图表示 。
而中医理论图则 的点则代表方药、病症 和性味 归经等概念 ,而线则代表 各种概念之 间的关系。对于拥有很多点以及关系复杂的联系模型来说 ,很难画出界限清 楚的全面 图形 。尽管如此,完全可 以利用 图论方法表达 、分析抽象结构。计算机技术可 以对复杂 的图形进 行操作 ,如分析图的每个点 的度 数、 图的密度 、分析子图等。
( 1 ) 密度
密度是社会 网络分析最常 用的一种测度 , 是 图论 中的另一个被广泛应用 的 概 念。密度是一个 图中各个点之 问联络 的紧密程度 。一个 团体可以有紧密关 系,也可以有疏 离关系 。
一个图形的密度 ,即在 图形 中实际存在 的线和可能数量的线 的比例 。简单图中的密度可以直接计算出来 ,而在复杂图中必须通过 图的相关理论来计算 ,公式如下:
社会 网络分析有两类 研究。一种是围绕特定参考点展开的社会 网,即 “ 个体一 中心网”研究。从这种视角 出发 , 密 度分析 关注 的是与某 些行动者 有直接 关系 的其 他行 动者 的个数 。另一种是 “ 整体 网”研究 ,也 叫社会中心网。从这一观点出发 ,密度不再是局部行动者 的 “ 个体网”密度 ,而是整体 网络的密度。社会 中心 网网络对成员的限制力量不仅通过与该成员有直接关系 的成员起作用, 间接联系也有很大作 用。
本文从 个体一 中心的角度出发 ,分析 中医知识 网络中各个概 念的密 度大小 ,可以称 之为概念 的密度。
( 2 ) 概 念的密 度
概念 的密度= △× 概念 的度数
在有向图中点的度数等于出度与入度 之和 。通过计算可以得到每个概念 的度数 。为了画出规范的图形 ,这里采用了归一的方法。在每个类别中去最大值作为此类 的基数 ,其他值 除以这个数 ,可得到归一化 的数据 。
4 实验结果
本文 选 用的医案来 源为 中医 研究 院的实际病例 。使用p r o t 6 g 6 3 2 工具选 用医案构建本体系统 , 然后,用 n e t d r a w工具对构建的本体语义 网络 图作了形象的绘制,如图 6所示 。对该医案进行知识获取 ,得到了医案的语义网络关系。
根据两个概念之 间的二元关系 ,就可以建立资源 的语义链。利用语义链结构可以构造中医知识 语义 网络模型 ,其中节点表示概念 ,有 向边表示类型化 的语义链。而语义链 的集成构成了语义 网络 图。这样就可以用语义 网络的形式表示所需的领域 知识 。邻接链表表示语义 网络如图 7 所示 。
利用中医本体和语义链结构可以构建一定主题的中医语义场 。例如 , 对某一 味药材构造语义场 ,可 以形成与 药材有归经、药物功效、药病、药证 、味、性和药毒关系得 本体概念 。这里构造聚合场 ,由概 念之 间的类聚关系形成。对某一概念以及与这个相关的概 念用特定 的关系描述 出来。例如 ,对某一味药材构造语 义场 ,可以形成与药材有归经、药物功效、药病 、药证、味、性和药毒关系得本体概念 。用语义场表示所需的中医领域 知识 。按照前面的建立 图的数据结构方法 ,构造本体的语义场 。以 “ 药病”关系建立语义场见表 2 。
5 结束语
本文从 中医理论出发 ,利用本体知识 获取技 术得到蕴含于 中医临床用药诊治过程 中的隐性知识及规律,从 构建 医案的本体知识库着手 ,对语义网络进行定量的深度分析 ,提出了概念密度的计算方法 , 为进一步构建 中医领域 的本体系统、挖 掘整理 中医临证经验与学术思想及建立基于信息检索技术的中医知识库打下了基础 。