摘要
对同一段中医古籍文本理论内容进行标引,并分析不同标引方式的优点及不足,指出“病脉证并治平台”自上而下的标引方法与“经典知识平台”自下而上的标引方法在知识框架、形成知识图谱、标引自由度、标引模板等方面各有优势,应根据实际需求选择相应标引方法。并得出如有明确研究目标或需要构建完整知识框架时,应选择“病脉证并治平台”标引方法;如需求为建立相应知识图谱或需要进一步进行知识挖掘时,则选择“经典知识平台”标引方法更为恰当。
中医理论是中医学的基础,包括中医哲学基础和思维方式
中医古籍文本是中医研究的基础,随着现代科技的进步,中医古籍文本的整理研究逐渐由传统手工整理方式向数字化资源整理和建设方向转变。标引即是中医古籍文本数字化中重要的一个步骤,在中医药领域标引主要分为文献组织层次和知识组织层
知识组织层面的标引使古籍文本更容易被理解,有利于推动中医古籍文本数字化信息化,提高检索效率,为中医理论研究提供数据支撑,为深层研究提供可能性。中医古籍文本数字信息化的目标实际上就是建立中医古籍文本数据库,数据库需要具备对大量文本信息的存贮、检索、考证、推理等功
目前中医古籍文本理论部分知识组织层面的标引主要存在两种不同形式的标引方法,即自上而下和自下而上。自上而下的标引方法是一种从整体逐级向下拆分的标引方式,其主要目标是形成知识框架;自下而上的标引方法则是一种从部分到整体逐层归纳的方法,其目的主要是尽可能保留古籍文本所有内容并从中提取有用信息。这两种标引方法在标引中医古籍文本理论部分时各有优缺点。本研究以《脾胃论
1 自上而下的标引方法
1.1 自上而下标引方法的思路与原则
“中医古籍‘病脉证并治’知识元标引系统”(下简称“病脉证并治平台”)的标引方法是自上而下标引方法的代表平台之一。此系统是在中国中医科学院研发的“中医药古文献知识库”(http://www.zywx.org.cn)标引平台的基础上发展而来,在原平台基础上增加了中医理论、临床诊疗、预防调护、学术流派等标引模块。这些模板由古籍整理专家以及中医各学科专家从知识元层面对古籍文献如《备急千金要方
此平台采用的标引方法是基于柳长华教授创立的基于知识元的中医古籍计算机表示方法的知识元标引方法。知识元标引需要对文献中具有检索价值的概念进行全面深度标
1.2 自上而下标引方法的应用举例
以上文提到的《脾胃论》中的段落为例进行标引。这一段可划分为一个知识体,虽有中医理论相关内容,但总体而言更符合“病证”模板,因此将这一段标引为知识体“酒病(病证)”。其标引得到的知识结构见

图1 标引知识结构
按照上述标引方法,对整本古籍进行标引,可得到一个完整的知识框架,即书名下包含各目录知识体,目录知识体下包含多个知识体,知识体下又可包含知识体以及多个知识元,知识元之下又细标为多个语义,语义之间可互相建立联系。此框架结构清晰明了,方便快速提取书籍信息,语义的标引也为检索提供了便利。
2 自下而上的标引方法
2.1 自下而上标引方法的思路与原则
“中医经典知识挖掘与传播平台”(以下简称“经典知识平台”)提供的工具是自下而上标引方法的代表之一。此平台由北京中医药大学翟双庆教授课题组与电子科技大学联合建设完成,其主要功能是对上传至平台的中医古籍进行主题批注、建立批注间关系以及可视化,这些功能为建立中医经典理论体系、挖掘中医理论隐性知识提供支撑。其标引方法采用“实体-关系-实体”方式,对非结构化文字材料进行处理。在此方式中,“关系”多来自文本中的动词以及上下文联系。其关系最初由业内专家进行确定,在标引过程中补充新增关系,经过一段时间的标引后,最终确定为59种关系,这些关系列于专为此平台标引方法编写的《编码手册》中,用以确保标引具有一定规范性。
“实体”则多为文本中的名词。对“实体”的标引借鉴扎根理论,称为编码过程,编码根据其所含内容分为不同层级。一级编码为初始编码,用以概括一个特定的字段,多以原文提取中医名词的方式实现,需要逐字逐句进行标引;具有共同主题的初级编码归类为二级编码,其共同主题即为二级编码名称;以此原则归类形成三级编码、四级编码等更高级编码,最终归类为不可再行归类的中医学核心概念。编码与编码之间还需依据《编码手册》建立合理关系,以构建成为一个互相联系的知识图谱。此标引方法依据从部分到整体的标引顺序,从初始原文逐级提炼归纳出核心含义,是一个从下而上的归纳方法。
2.2 自下而上标引方法的应用举例
以上文提到的《脾胃论》中的段落为例,应用此标引方式对其进行标引。首先,逐字逐句对全文进行一级编码,见
序号 | 编码原文 | 编码内容 |
---|---|---|
1 | 酒 | 酒病 |
2 | 酒癥丸 | 酒癥丸 |
3 | 大热之药 | 大热之药 |
…… | …… | …… |
序号 | 批注关系名称 | 批注1内容 | 关系名称 | 关系箭头 | 批注2内容 |
---|---|---|---|---|---|
1 | 治疗禁忌 | 酒癥丸 | 单向关系 | → | 酒病 |
2 | 治疗禁忌 | 牵牛 | 单向关系 | → | 酒病 |
3 | 治疗禁忌 | 大黄 | 单向关系 | → | 酒病 |
…… | …… | …… | …… | …… | …… |

图2 编码知识图谱
3 两种标引方法比较
两种标引方法各有其优缺点,现将从知识框架、知识图谱、标引自由度、标引模板进行分析。
3.1 知识框架
从知识框架分析,“病脉证并治平台”的框架构成更为清楚。如
3.2 知识图谱
从知识图谱分析,“经典知识平台”标引得到的知识图谱更能反映原文含义。其一,从提取得到的语义看,“经典知识平台”较“病脉证并治平台”提取的节点更为详尽,其中“病脉证并治平台”提取得到的语义仅有17个,而“经典知识平台”得到的初级编码则有25个。此外,“病脉证并治平台”提取的语义可为词组或短语,一般较“经典知识平台”得到的初级编码长,初级编码越短,同一段落或不同篇章中越容易得到相同编码,有利于初级编码间形成联系,便于检索及深度挖掘。其二,从标引内容分析,“病脉证并治平台”采用的是从上而下的标引方法,其标引与模板相应的内容,即研究所需要提取的部分,非关注内容则舍弃。但中医古籍文本理论部分范围较广,难以用模板完全概括,存在有意义的内容标引不完全问题,有时需要模板嵌套使用。“经典知识平台”的标引方法为从上而下的标引方法,其标引更注重保留古籍全部内容,从中总结相关内容,从琐碎文本内容进一步提取理论,有利于知识挖掘及深层研究。其三,从节点关系分析,“病脉证并治平台”中“语义关联模板”的存在限制了语义间关系的建立,使很多原文有深层联系的语义无法建立关系,如病因病机“酒性大热”无法与病因病机“伤元气”建立联系,特别是中医理论部分涉及内容较多,很多知识点不能被提取为语义,可提取的语义之间存在因不符合语义关联模板而不能建立相应关系的问题,此时需要自定义语义和语义关联,但自定义语义和语义关联无法由一般标引人员自主完成,其形成的知识图谱也需特殊处理。而“经典知识平台”的标引方法在中医理论部分的优势更为显著,尤其是“经典知识平台”确定了“本末”(用以标注体与用、象之间的关系,如方药的性味、归经、升降浮沉等)“产生”(表示两个节点之间的阴过关系)“注释”(用以补充明确原文所示内容含义)“阴阳”(用以连接两个形而上的实体,两个实体之间存在互根互用、互不统属的关系)“损伤”(用以表示两个实体之间是损伤的因果关系)等关系。这些关系的确定使一些难以表达的具有中医特色的关系得以在标引中体现出来,也使原文可以被拆分为更小的初级编码。如“酒性大热”在“病脉证并治平台”只能标引为一个语义,即“病因病机-酒性大热”,而在“经典知识平台”中可以拆分为两个初级编码,“酒”和“大热”,建立关系为“酒”-本末-“大热”。特别是当病因病机为一个动态过程时,如“肝郁乘脾”,在“病脉证并治平台”中,一般直接标引为语义“病因病机-肝郁乘脾”,而在“经典知识平台”中,则可拆分为“肝”“脾”“郁”,关系编码为“肝”-损伤-“脾”,“郁”-注释-“肝”,“肝”“脾”-属于-“肝木乘脾”。总之,“病脉证并治平台”提取到的原文内容相对不全面,“经典知识平台”提取到的细节更详尽,更能完整体现原文内容。
3.3 标引自由度
从标引自由度分析,“经典知识平台”标引方法的自由度更高,而“病脉证并治平台”规范性较强。自由度指标引根据标引人员对文献主题的理解自行拟定标引词,规范性指标引依据一定标准,两种标引方法均属于有一定限制的自由标引。在“病脉证并治平台”中,只有符合显示模板的内容才能被标引,模板的存在虽然使标引具有一定规范性,但也有较多限制,如上文提到的原文内容标引不完全、语义关联建立不完整等问题。在“经典知识平台”中,《编码手册》对标引有一定限制作用,但《编码手册》的限制主要体现在关系建立上,相较“病脉证并治平台”,标引人员标引自由度更高,可以尽可能全面标引古籍内容,但其规范性稍差,编码内容较繁杂。
3.4 标引模板建立
从标引模板分析,“病脉证并治平台”在平台上建立模板,而“经典知识平台”的模板则体现在《编码手册》上。“病脉证并治平台”在平台层面框定模板方便标引进行,但此模板一般只适用于此课题,不利于其他课题进行相关研究。“经典知识平台”的标引模板在《编码手册》中确定,不同课题组在使用此平台时可以确定不同标引模板,使其为不同平台提供支持,提高了平台的利用率。
总体而言,两种标引方法的目的不尽相同,其优缺点也不同。“病脉证并治平台”的标引方法构建的知识框架较清晰,但形成知识图谱能否表达原文含义更依赖于模板的制定者,出现偏差后修改难度较高,其标引的自由度稍低,规范性较强;“经典知识平台”的标引方法给标引员的自由度更高,形成图谱的全面性、完整性更依赖于标引员的素质,出现偏差修改难度较低,框架性不足,而标引的自由度较高,规范性稍低。
4 小结
“病脉证并治平台”自上而下的标引方法与“经典知识平台”自下而上的标引方法在知识框架、形成的知识图谱、标引自由度、标引模板等方面各有优势。根据实际需求可选择相应标引方法,如有明确研究目标或需要构建完整知识框架,应选择“病脉证并治平台”标引方法;如为建立相应知识图谱或需进一步进行知识挖掘,则选择“经典知识平台”标引方法更好。
参考文献
陈月,刘慧敏,张荣,等.基于扎根理论的名老中医经验传承内容研究——以姚乃礼教授为例[J].西部中医药,2023,36(12):12-17. [百度学术]
刘文平,王庆其.中医理论研究方法论现状及策略[J].中华中医药杂志,2019,34(1):23-28. [百度学术]
丁侃,柳长华,王凤兰,等.面向临床的中医古籍数字化问卷调查与分析[J].中医文献杂志,2012,30(2):36-39. [百度学术]
肖禹.古籍索引数据应用研究[J].新世纪图书馆,2017,(5):45-48. [百度学术]
方东行.中医药文献标引·分类,规范化·自动化的初步研究[J].上海中医药大学学报,1996,10(Z1):82-84. [百度学术]
李晓瑛,夏光辉,李丹亚.主题标引文献的语义关系发现研究[J].现代图书情报技术,2016,36(Z1):87-93. [百度学术]
丁侃.基于知识元的中医古籍方剂知识表示研究[D].北京:中国中医科学院,2012. [百度学术]
许雯,柳长华.知识元标引在中医古籍临证文献标引中的应用[J].国际中医中药杂志,2015,37(4):296-298. [百度学术]
丁长林.中医古籍文献语义标注技术的研究[D].沈阳:沈阳航空航天大学,2013. [百度学术]
李杲.脾胃论[M].北京:中国中医药出版社,2019:73. [百度学术]
杨继红.基于本体的中医古籍叙词表构建方法研究[D].北京:中国中医科学院,2008. [百度学术]