(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210569164.0
(22)申请日 2022.05.24
(71)申请人 中国中医科学院中医药信息 研究所
地址 100000 北京市东城区东 直门内南小
街16号
申请人 中国中医科学院中药研究所
(72)发明人 李兵 张华敏 张伟娜 刘思鸿
李斌 董燕 侯酉娟 李莎莎
(74)专利代理 机构 北京盛询知识产权代理有限
公司 11901
专利代理师 刘静
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/242(2020.01)
G06F 40/216(2020.01)G06F 40/30(2020.01)
(54)发明名称
一种基于词表的中医古籍新词发现和本体
构建系统
(57)摘要
本发明公开了一种基于词表的中医古籍新
词发现和本体构建系统, 包括: 基于词表的中医
古籍新词发现和本体构建系统, 基于中医古籍的
专业术语词表、 后控词表, 结合当下计算机分词
技术和算法, 识别中医古籍文本中的知识术语并
进行属性定义, 发现中医古籍新词, 定义词和术
语的属性分类, 从而来完善现有术语词表。 基于
古籍文本术语及其属性分类间关系, 对中医古籍
文本进行词频和共现分析, 发现中医古籍术语关
系及知识关联。 基于词表和术语实现对中医古籍
文本的数据清洗和标准化, 自动建立基于中医古
籍文本的知识本体, 本发明为中医本体研究提供
了数据基础, 为中医数据挖掘分析提供了标准和
规范的知识库。
权利要求书1页 说明书4页 附图2页
CN 114881026 A
2022.08.09
CN 114881026 A
1.一种基于词表的中医古籍新词发现和本体构建系统, 其特征在于, 包括: 古籍文本输
入模块、 数据 清洗模块、 计算机 分词模块、 新词发现模块、 关系发现模块、 语义描述文件生成
模块;
所述古籍文本输入模块用于导入或手动添加文本数据, 基于所述文本数据创建古籍数
据; 还用于对所述文本数据进行分段处 理;
所述数据清洗模块用于对所述古 籍数据中的同义词、 异名词进行 标准化处理;
所述计算机分词模块用于基于术语词表, 采用计算机分词技术对所述古籍数据中待分
词的文本进行分词处 理, 获取分词处 理结果;
所述新词发现模块用于完善所述术语词表, 并与所述计算机分词处理模块相互迭代,
完善分词处 理过程;
所述关系发现模块用于对中 医古籍文本数据中的术语词进行关系发现及 知识关联;
所述语义描述文件生成模块用于基于关系发现后的文本数据生成语义描述文件。
2.根据权利要求书1所述的一种基于词表的中医古籍新词发现和本体构建系统, 其特
征在于: 所述中 医古籍文本数据为加工 完成后的古 籍文本数据。
3.根据权利要求书1所述的一种基于词表的中医古籍新词发现和本体构建系统, 其特
征在于: 所述数据清洗模块基于后控词表进行标准化处理; 所述后控词表为标识各类术语
词之间关系的词表, 包括 正名词、 异名词以及自定义 术语词。
4.根据权利要求书1所述的一种基于词表的中医古籍新词发现和本体构建系统, 其特
征在于: 所述计算机分词处理模块基于自定义字典发现术语词, 所述自定义字典基于所述
术语词表中的大类生成;
所述大类包括: 病 、 因机、 证、 症、 治、 方、 药、 医籍、 医家。
5.根据权利要求书1所述的一种基于词表的中医古籍新词发现和本体构建系统, 其特
征在于: 所述新词发现模块基于所述分词处理结果, 对已有的术语词进 行高亮操作, 并添加
最新的术语词到所述 术语词表中。
6.根据权利要求书5所述的一种基于词表的中医古籍新词发现和本体构建系统, 其特
征在于: 所述 新词发现模块还用于对所述分词处 理结果进行 校准。
7.根据权利要求书1所述的一种基于词表的中医古籍新词发现和本体构建系统, 其特
征在于: 所述关系发现模块包括建立关系模块、 统计查询模块与临时缓存表;
所述建立关系 模块用于基于所述术语词表中相应的术语类别以及所述古籍数据, 发现
所述古籍数据中的术语词并统计术语词的词频, 将所述词频记录 到所述临时缓存表;
所述统计查询模块用于基于所述临时缓存表查询主词表与其他术语词表之间的关系;
所述主词表包括需要与其他术语建立关系的术语词, 所述其他术语词表包括可与所述主词
表建立关系的术语词;
所述临时缓存表用于存 储所述建立关系模块统计的词频。
8.根据权利要求书1所述的一种基于词表的中医古籍新词发现和本体构建系统, 其特
征在于: 所述语义描述文件生成模块基于系统中定义的属性关系及所述关系发现生成的术
语词关系, 生成对应的语义描述文件; 所述语义描述文件为 owl和xml格式文件。
9.根据权利要求书8所述的一种基于词表的中医古籍新词发现和本体构建系统, 其特
征在于: 所述属性关系包括 新增、 编辑、 导入、 导出等功能。权 利 要 求 书 1/1 页
2
CN 114881026 A
2一种基于词表的中医古籍新词发现和本体构建系统
技术领域
[0001]本发明属于中医术语提取、 中医术语规范和标准化技术领域, 特别是涉及一种基
于词表的中 医古籍新词发现和本体构建系统。
背景技术
[0002]中医古籍是我国宝贵的科技遗产, 是中医药学传承两千多年绵延至今的重要知识
载体, 是现代中医药科技创新和学术进步的源头和根基, 较之其他学科 的古籍更具有学术
价值和实用价值, 其所记载的经典理论、 学术思想、 方药、 诊疗方法、 医案医论、 养生保健方
法等是中医药学知识的重要载体, 至今仍广泛应用。 当前对中医古籍中术语提取、 属性和关
系定义仍多依靠人工审核方式, 工作效率较低。 如何针对古代行文以及中医古籍术语、 语义
等特点, 利用现代信息处理技术进行计算机辅助分词与新词发现是重要的研究方向, 也是
推进中医古籍术语规范化、 中 医古籍数据挖掘分析研究工作的基础。
发明内容
[0003]本发明的目的是提供一种基于词表的中医古籍新词发现和本体构建系统, 以解决
上述现有技 术存在的问题。
[0004]为实现上述目的, 本发明提供了一种基于词表的中医古籍新词发现和本体构建系
统, 包括:
[0005]古籍文本输入模块、 数据清洗模块、 计算机分词模块、 新词发现模块、 关系发现模
块、 语义描述文件生成模块;
[0006]所述古籍文本输入模块用于导入 或手动添加文本数据, 基于所述文本数据创建古
籍数据; 还用于对所述文本数据进行分段处 理;
[0007]所述数据清洗模块用于对所述古 籍数据中的同义词、 异名词进行 标准化处理;
[0008]所述计算机分词模块用于基于术语词表, 采用计算机分词技术对所述古籍数据中
待分词的文本进行分词处 理, 获取分词处 理结果;
[0009]所述新词发现模块用于完善所述术语词表, 并与所述计算机分词处理模块相互迭
代, 完善分词处 理过程;
[0010]所述关系发现模块用于对中医古籍文本数据中的术语词进行关系发现及知识关
联;
[0011]所述语义描述文件生成模块用于基于关系发现后的文本数据生成语义描述文件。
[0012]可选地, 所述中 医古籍文本数据为加工 完成后的古 籍文本数据。
[0013]可选地, 所述数据清洗模块基于后控词表进行标准化处理; 所述后控词表为标识
各类术语词之间关系的词表, 包括 正名词、 异名词以及自定义 术语词。
[0014]可选地, 所述计算机分词处理模块基于自定义字典发现术语词, 所述自定义字典
基于所述 术语词表中的大类生成;
[0015]所述大类包括: 病 、 因机、 证、 症、 治、 方、 药、 医籍、 医家。说 明 书 1/4 页
3
CN 114881026 A
3
专利 一种基于词表的中医古籍新词发现和本体构建系统
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:08:32上传分享