(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210530158.4
(22)申请日 2022.05.16
(71)申请人 南京大学
地址 210023 江苏省南京市栖霞区仙林大
道163号
(72)发明人 瞿裕忠 宋鼎 丁文韬
(74)专利代理 机构 南京天翼专利代理有限责任
公司 321 12
专利代理师 奚铭
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/211(2020.01)
G06F 40/253(2020.01)
G06F 40/268(2020.01)
G06F 40/289(2020.01)G06N 5/02(2006.01)
G06F 40/242(2020.01)
(54)发明名称
一种基于外延的将名词短语映射到描述逻
辑概念的方法
(57)摘要
一种基于外延的将名词短语映射到描述逻
辑概念的方法, 首先穷举名词短语的所有文本片
段, 生成文本片段到知识库中资源的映射表; 然
后根据名词短语的分词、 词性标注与句法树, 生
成解析顺序; 最后按解析顺序, 从EL++的概念
开始, 用索引到的资源生成的基本概念不断细
化, 直到解析完全部的词, 得到名词短语映射到
的描述逻辑概念。 本发明通过对句法树的分析,
可以自动处理复杂的含有 隐式关系的名词短语
可以生成的高质量的描述逻辑 概念。
权利要求书2页 说明书8页 附图1页
CN 115186671 A
2022.10.14
CN 115186671 A
1.一种基于外延的将名词短语映射到描述逻辑概念的方法, 其特征在于, 通过名词短
语的外延将名词短语映射到通过描述逻辑语 言EL++表述的逻辑语言概念, 生成在给定知识
库上的对名词短语的理解, 包括以下步骤:
步骤1, 对名词短语进行分词和词形还原, 对分词后的词序列, 枚举所有的文本片段T,
即名词短语中所有的N元模型n ‑gram组成的片段, 以及这些文本片段对应的词形还原后的
文本片段Tlemma, 将文本片段索引到知识库的资源, 生成文本片段到知识库中资源的映射表;
步骤2、 根据名词短语的分词进行词性标注并生成句法树, 从树顶开始递归地遍历整棵
树, 将叶子结点, 即每一个词的遍历顺序作为 解析顺序;
步骤3、 按解析顺序, 从EL++的概念T开始, 用索引到的资源生成的基本概念不断细化,
对每个可解析词按顺序进行解析, 该过程持续直到解析完全部的词, 得到名词短语映射到
的描述逻辑 概念:
步骤3.1、 针对当前 可解析词, 列出 所有包含该可解析词的候选文本片段;
步骤3.2、 根据步骤1得到的映射表, 从候选文本片段索引到对应资源, 根据对应资源生
成候选细化操作;
步骤3.3、 对新 生成的候选细化操作进行一 致性筛查, 筛去与句法不 一致的细化操作;
步骤3.4、 用3.3得到的细化操作对当前可解析词生成细化后的描述逻辑概念, 对得到
的描述逻辑概念进行评分, 选择分数前k高的保留, 然后查看是否已经解析完, 即当前已被
解析的可解析词是否为解析顺序中的最后一个, 若否, 进入步骤3.1解析下一个可解析词;
若是, 进入步骤3.5;
描述逻辑 概念的评分函数为:
Sscore(NP,C)= wsup*Ssup(NP,C)+wmatch*Smatch(NP,C)+wsim*Ssim(NP,C)
其中Ssup为支持度评分, Smatch为匹配度评分, Ssim为简洁度评分, wsup、 wmatch、 wsim为对应的
权重,
描述逻辑概念的支持度评分Ssup定义为描述逻辑概念生成过程中, 若干次细化操作的
支持集的支持度的平滑均值, 对已知名词短语NP和细化操作
NPI为名词短语描 述
的实体集合, 即短语的外延, 对概念C, CI为概念C描述的实体 集合, 对基本概念B, BI为基本概
念B描述的实体集合, 细 化操作
指对概念C, 用基本概念B 来修饰C中 的一部分A, 支
持集Setsup计算公式如下:
其中,
指B修饰的部分A是描述外延NPI本身,
指B
修饰的部分A为描述与外延存在关系的实体集 合;
Ssup由以下公式计算得到, 其中d表示对概念C的细化操作,
是支持集
的支持度:
Smatch定义为名词短语NP中能够被概念C匹配到的词的比例, 计算公式如下:权 利 要 求 书 1/2 页
2
CN 115186671 A
2Ssim定义为概念中的细化操作次数, 计算公式如下:
Ssim(C)=‑|{d|d∈C}|
步骤3.5、 对根据解析顺序得到的所有词的描述逻辑概念, 保留分数最高的作为输出
Cbest, 即名词短语映射到的描述逻辑 概念, 用于知识库对该名词短语的语义理解。
2.根据权利要求1所述的基于外延的将名词短语映射到描述逻辑概念的方法, 其特征
在于所述资源 包括实体、 字面 量、 属性和类型。
3.根据权利要求1所述的基于外延的将名词短语映射到描述逻辑概念的方法, 其特征
在于生成解析顺序时, 通过词性分析得到名词短语对应的所有名词组, 定义名词短语的头
部为第一个名词组的最后一个词, 对于句法树中的名词短语结点, 首先将当前名词短语头
部所在的子结点作为新的名词短语结点解析, 然后 从右到左地解析头部左边的子结点, 最
后从左到右地解析头部右边地子结点, 即解析顺序为从头部起由近到远; 对于动词或副词
开始的结点, 首先解析动词或副词, 然后将剩 下部分按父节点上从左至右或从右至左的顺
序解析; 对于形容词开始的结点, 将除了形容词外其他部 分按父节点顺序短语来解析, 最后
解析形容词。
4.根据权利要求1所述的所述的基于外延的将名词短语映射到描述逻辑概念的方法,
其特征在于步骤3.2根据对应资源生成所有候选细化操作, 具体如下:
定义描述逻辑中的基本概念包括5种形态: EL++描述逻辑概念中的个体{O}、 原子概念
A、 角色对应的基本概念形态
以及隐藏角色名的
和
对于索引到的实体和字
面量, 生成对应的形态, 包括{O}和
对于索引到的类型, 生成对应的形态, 包括A和
对于索引到的属性, 生成对应的形态
定义细化操作
为: 对概念C用基本概念B来修饰C中的一部分A, 对已知的基本
概念B和已知的概念C, 通过枚举被细化的C中的A部分来生成可能的所有细化操作, 其中对
于被索引到的实体与字面量o, 生成对应的基本概念{o}与所有包含隐藏角色的基本概念
并生成所有支持度不为0的细化操作; 对于被索引到的类型A, 生 成对应的基本概念A
与所有包含隐藏角色的基本概念
并生成所有支 持度不为0的细化操作; 对于索引到的
属性p, 对应角色r, 生成对应的基本概念
并生成所有支持度不 为0的细化操作。
5.根据权利要求1所述的所述的基于外延的将名词短语映射到描述逻辑概念的方法,
其特征在于步骤3.3中, 如果当前的待解析词为头部, 则优先选择如
的细化
操作, 其中Batomic为原子概念, 反之, 如果当前的待解析词非短语头部, 则优先选择非
形式的细化操作。权 利 要 求 书 2/2 页
3
CN 115186671 A
3
专利 一种基于外延的将名词短语映射到描述逻辑概念的方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:39上传分享