-
多特征融合技术应用于中医舌象分析的初步研究
多特征融合技术应用于中医舌象分析的初步研究
【摘 要】本文对中医舌象信息的融合方案进行了初步探讨.对于舌象多特征融合,通常认为町采片I特征层、决策层或特征层与决策层联合融合等不同方案.本义进行有关算法实验的结果表明,由于诸多因素影响,这些方案对于舌象多特征融合难以获得理想的效果.我们认为基于粗糙集理论的方法在舌象多特征确定中医证候方面可以获得比较好的结果,并进行了初步探讨.采用粗糙集理论可根据舌象特征确定部分证候,对于不能确定证候的样本可获得可能的结果,这在一定程度卜避免了误判,对于中医辅助诊断是非常重要的.
【关键词】舌象;信息融合;特征层;决策层;粗糙集理论;中医证候
1引言
近年来,中医舌象的自动分析取得了可喜的进展,对一些重要舌象指标如舌色、苔色、苔厚、裂纹、润燥、舌苔的腐腻、舌体的歪斜、舌体胖瘦等已经实现了自动定量分析,这些指标的分析结果与临床应用达到丁8 0%以上的符合率“,这充分证明了基于信息处理技术研究中医舌象分析的可行性,同时给中医诊断提供r比较客观的依据.众所周知,辨证沦治是中医诊疗的主要方法,是中医学最具特色、最富精华的内容.中医在观察舌象时,综合舌象的各
个特征得出结论.但到日前为止,虽然舌象分析在方法学I取得r很大的进展,但是对于舌象信息融合还未见文献报道.巾医认为:证候是机体在疾病发展过程中的某一阶段的病理概括,反映_r疾病的病因、病机、病性以及疾病的发展趋势,也反映了机体自身的调节能力与外界环境的关系,为治疗提供了正确的方向.因此研究舌象特征与证候的对应关系是非常重要的.信息融合技术应用于中医舌象分析是一个全新的研究课题,这也是对现有舌象分析研究的延伸.本文将初步探讨舌象多特征同体质类型(中医证候的一种划分方法)之间的关系,2舌象信息融合技术分析巾医认为,仅仅靠单一的舌象特征难以确定证候,但是中医的这种观点是停留在定性分析基础卜的.将舌象特征量化之后,是否也如此呢?我们采用4 8 8个训练样本,3 7 1个测试样本(数据的具体说明请见本文第2部分)做单一特征识别实验.实验所用分类器选择为支撑向最机(S V M)分类器,这是因为S V M是基于结构风险最小化原
理的一种统计学习方法,具有比较好的推广能力.采_}丰j各项指标(如表1)分别设计S V M分类器,核函数采用释向基核蛹数K(,x)=e x p{一g J—,核蛹数参数采用5-f o l d交叉验法获得,惩罚项C=5 0 0.结果女I 1表l
由此町以看出,即使是采用能较好的S V M分类器,测试样本和训练样小正确牢也很低,验证r中认为仅凭单一舌象特征难以确定证候的认识.显然,进一步的思路是将舌象的多个特征进行融合分析.舌象多特征融合自‘三个方案:一是将多个分类器的结果进行融合,利用不同特征、分类器之间的互补性米提高舌象多特融合的确识别率,这就是决策层融合川题;二足将舌象多个特征融合为一个特征矢量进行分析,利用r同特征之间的互补忡,这就是特征层融合的n题;是先将多个特l-z-融合为一个特征,利用特征之的吐补性,然后计多个分类器,利用分类器之闸的补性.F面刈。这点种方案逐一分析:
2.1方案1:舌象信息的决策层融合分析
通过舌象一特征没计的分类器是弱分类器,通常l I J将多个弱分类器融合得剑一个比较好的合结果.决策层融合一般可分为二个级别:抽象级、排序级和度节级.一般而占,抽象级融合比较容易操作,度级融合结果比较好,但融合难度较大.决策层融合主要有和、最大值、最小值、q 1值、投票等决策规则,在身份认证、义本分类、文宁识别等领域取得了比较好的效果.类似地,这些方法也可心用于舌象多特征融合.本文采用的一特征分类器为性能较好的S V M分类器,其输出为类别标号,对相应实验结l粜町以采用投票法_米进行决策融合实验.
2.2方案2:舌象信息特征层融合分析
文献[5]列举了特征层融合的阿种典型方法:加权和(w e i g h t e d s u m ma t i o n)和串连(c o n c a t e n a t i o n)方法,特征层融合后分类器的设计方法如最近邻法、神经网络法、S V M方法等.舌色、色、厚、舌静积指数、裂纹指数、湿度等舌象特征因次不同,各个特征数值大小相差比较大,在特征层显然不能采用简单的加权和方法,我们将各个特征串连增大特征空的维数,以组成一个多维特征矢量,然后设计S V M分类器,来达到提高分类器邱角识别率的的.
2.3方案3:特征层与决策层联合分析
特征层融合利用各个特征提供不同侧而的信息,对于¨一特征,小同的分类器错误"1 1别区域不同,因此可以将融合特征进行多个分类器的设计,首先融合特征利用了特征之间的互补性,f J J时融合多个分类器义利用了分类器之问的补件.舌象特征层与决策层联合分析框图如图3.大最义献表明a d a b o o s t方法是一种性能较好的融合方法.
图3舌象特征层与决策层联合融合方案
舌象多特征融合结果的优劣取决于特征以及通过特征设计的分类器之间的互补性,下面通过仿真实验来研究以I个方案的融合性能.
3舌象多特征融合初步实验结果及其分析
仿真实验主蛰研究不同性别、年龄的人群的舌象特征与体质类捌之间的荚系.我们采用北京中医药大学与同仁院对J匕京市干部例行体榆所获得的数据,融合目标(体质类)由北京中医约大学结合F 1本体质问卷确定,体质类型为中医证候的一种划分方法,有实证、虚证、阳实证、阴实证、阳虚证、阴虚证、5 H巾问证、阴中间证、中问汪、平和I l E 1 0种类型,由于阳虚证、阴虚、阴实汪、平和证类型张新峰:多特征融合技术应用于巾医舌象分析的初步研究7 l 9的样小数I I太少,我们掉这4种类型,只研究其余6种类型.所选川的特征为:裂纹指数、湿度、齿痕舌、舌色、苔色、舌片面积指数、舌体胖瘦、年龄、性别,其f l体质类型划分同时还结合其它(如l 6、体直等)一些指标.训练样本数为4 8 8,测试样小数日为3 7 1.
3.1决策层融合方案实验
刈卜述样本分别设表2决策层融合结果计S V M分类器,采用投—T面再票原则,结果如表2.正确识别串l 2 1.2 6%『1 3.7%
3.2特征层融合方案实验
将多个特征融合为一个特征矢量,训练S V M分类器.S V M核函数采片J径向摹核丽数K(,)=e x p{一g I一,采用5-f o l d文义验证法确定核数的参数,惩罚项C取5 0 0.考虑到舌象的各个特征值的相差较大,采用归一化方法将每一个特征调整至[0,1]之『H.实验结果如表3.巾此n J‘以看出,I J]一化力法并没有提高测试样本正确识别率.
R B F参数训练样本正确测试样本J确特征类删g识别牢识刖率术·化特i『E 2 0 0 9 9%5 0.2%9卜·化特f l 1 0 0 9 9%4 4.4 7%
2.3特征层与决策层联合方案实验
将多个特征融合为一个特征足矢量后,考虑到训练多个S V M的计算量比较大,这里采用最近邻分类器,用a d a b o o s t法进行决策层融合,实验果如表4.
表4特征层与决策层联合融合结果
特类l训练样本l确识别率l测试样本正确识别率对以I实验结的初步鲇论为:(1)单一特征分类器对证候分类和预测的结果非常差即使足采用1 F线性映射能力比较强的R B F核函数,训练样本的I确识别率也很低,原在于对于某螋样小,特相川,是对臆的识别日标小同,尢论采用什么样的核蛹数,一特征映射到任何高维宅I都是I亓】一个点,是无法分开的.此采用基丁一特征没讣分类器的方法进行舌象决策融合是行通的.(2)将多个分类器的结果进行融合后,所得结果仍然很差.这是由于一特分类器性能比较差,分类器之间的互补能力电差;(3)象特征融合为一个特征后,采用S V M分类器、于最近邻分类器的a d a b o o s t方法测试样本的正确识别半仍然比较低,但是典结果要略好于前面两种方法j三种力。案绱果郜人意,其根本原冈于中证候是多个因素确定,不仅舌象特征有关,同时还与他多个特征(渚如脉象的多个特征)有关,仅靠舌象特征难以完全确定各种候.其次足样夺集中存在不少特征相似l}{;至相同但是属于不I司的证候的样本,这些样本很难分开或者基本不呵分,这给分类器的训练带来很大的影响;另外舌象符个特征对证候的贡献不同,这给信息融合也来了一定的难度.1 f|医舌象多特征融合实质上是·个媳州信息完伞的融合问题.既然仪凭舌象特征能完确定候,接下来的问题足研究哪些l候町以舌象确定,哪些让候不能山舌象确定.我们尝试采用粗糙集论米解决这~.问题.粗糙集理论不需要先验知识,仪仅利用数据本身提供的信息,具有很强的客观性;同时它是·个强大的数据分析J:具,能够表达和处理不完备信息,在保留关键信息的前提下能够对数据进行简约并得到知识的最小表达.粗糙集理沦既可进行特征选择,又可得到分类舰则,这对于分析-I l医舌象数据是非常要的.由此我们町根据分类规则埘待测样本进行证候类型预测.4基于粗糙集理论的舌象信息融合分析采用粗糙集理沦进行信息融合的步骤:(1)对连续特征进行离散化处理,构造属性表;(2)属性简约;(3)规则抽取;(4)根据规则进行样小预测.文献[1 4]将各种舌象特征分类或者嚣化,如舌质颜色分为6种,色分为9种,这些都是符特征.有些特没有明确的分类,例如裂纹指数、舌苔【f f『积指数都足通过连续特征来表示、.对这些特征离散化为符号特征,构成一个完整的数据表,对数据进行简约,得出舌象特和融合目标的对膻规则;对于待测试样本,与规则进行配,得出相应的决策.采用与第3部分同样的数据.
(1)用s e m i—n a i v e算法对样本离散化处理,建数据表(表5列山部分数据):(2)运用遗传算法进行简约,得到简约后的特征{性别,年龄,舌质颜色,舌苔颜色,舌苔厚度,舌体大小,齿痕,湿度,裂纹,舌苔而积指数},u r以看出,简约o r(i F,的特征并没有减少.(3)根据简约特征,产}{1 8 4条规则.举例如卜:例l:性别(2.0)A ND年龄([5 6.5,5 7.5))A ND舌质颜色(2.0)A N D舌苔颜色(1.0)A N D舌苔厚度([0.5,$))A N D舌体大小(2.0)A N D齿痕舌(0.0)A N D湿度7 2 0电子学报2 0 0 6正体质类型(阳实证).从上述数据中,也可得到可能的规则,如:例2:性别(2.0)A N D年龄([2 7。5,5 5.5))A N D舌质颜色(4.0)A N D舌苔颜色(1.0)A N D舌苔厚度([0.5,))A N D舌体大小(2.0)A N D齿痕舌(0.0)A N D湿度([十,3.5))A N D裂纹([$,0.5))A N D舌苔面积(0.8)体质类型(阳中间证)O R体质类型(阳实证)O R体质类型(中间证).在舌象训练样本集中,既可以得到相应的确定规则,如例1与例2;同时也可得到可能的规则,如例3与例4.这与中医观察舌象特征确定候的认识是吻合的.同时可以看到,即便进行简约,但是简约后特征并没有减少,简约前为1 0个特征,简约后仍为1 0个特征.根据得出的规则,对3 7 1例待测样本同规则集进行匹配,得到2 5 7条确定的规则与1 1 4条不确定的规则,即测试样本中有2 5 7个样本可以确定其证候,其余部分样本得出的是可能的结果.这说明,仪仪评舌象特征不能完全确定证候.同传统的统计方法相比较:后者对于任一样小都给出一个确定的识别结果,但是使用前者对不能确定证候的样本给出可能的证候结果,这比得到样本的误判结果好得多.不确定证候的样本给我们提供的分类信息是根据现有特征不能对证候做出一个准确的判断,必须考虑添加新特征或者新方法.如果对这些样本采用传统的统计方法,可能得小一个错误判断,那就有町能造成很坏的结果.因此这在一定程度上避免了对样本的误判,粗糙集理沦对于舌象特征的融合是一种比较可行的方法.
5讨论
本文在已有研究的基础上,分析了舌象融合的各种方法并且给出初步的研究结果.实验结果表明:中医舌象多特征融合是一个信息不完全的识别问题,即根据舌象的多个特征难以确定所有的证候.采用粗糙集理论不f E l可以充分利用已有数据进行特征选择,挖掘其中的分类规则,同时町以绐出对待测试样本证候的类别或者可能的结果.粗糙集理沦主要是基于符号运算的,其不仅适合舌象多特征的融合,而且适合舌象特征、脉象特征、以及结合问诊问卷等的融合,是有望解决中医四诊合参的一种重要方法.中医四诊合参中,既有连续特征(例如舌的湿度),又有符号特征(例如舌色、苔色分类特征、脉象的某些特征等),由于各个特征矢量的量纲不同、数值大小相差悬殊,同时各个特征对融合口标的贡献不同,采用基于统计的融合方法很难获得好的结果。值得指出的是,运用粗糙集理论,采用不同的离散化方法、不同的简约方法得到的结果不完全相同,进一步研究n d题是找出一种合适的离散化方法,结合适当的简约算法,使得对样小数据中不确定的规则尽量少,同时预测能较强.