说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210530158.4 (22)申请日 2022.05.16 (71)申请人 南京大学 地址 210023 江苏省南京市栖霞区仙林大 道163号 (72)发明人 瞿裕忠 宋鼎 丁文韬  (74)专利代理 机构 南京天翼专利代理有限责任 公司 321 12 专利代理师 奚铭 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/211(2020.01) G06F 40/253(2020.01) G06F 40/268(2020.01) G06F 40/289(2020.01)G06N 5/02(2006.01) G06F 40/242(2020.01) (54)发明名称 一种基于外延的将名词短语映射到描述逻 辑概念的方法 (57)摘要 一种基于外延的将名词短语映射到描述逻 辑概念的方法, 首先穷举名词短语的所有文本片 段, 生成文本片段到知识库中资源的映射表; 然 后根据名词短语的分词、 词性标注与句法树, 生 成解析顺序; 最后按解析顺序, 从EL++的概念 开始, 用索引到的资源生成的基本概念不断细 化, 直到解析完全部的词, 得到名词短语映射到 的描述逻辑概念。 本发明通过对句法树的分析, 可以自动处理复杂的含有 隐式关系的名词短语 可以生成的高质量的描述逻辑 概念。 权利要求书2页 说明书8页 附图1页 CN 115186671 A 2022.10.14 CN 115186671 A 1.一种基于外延的将名词短语映射到描述逻辑概念的方法, 其特征在于, 通过名词短 语的外延将名词短语映射到通过描述逻辑语 言EL++表述的逻辑语言概念, 生成在给定知识 库上的对名词短语的理解, 包括以下步骤: 步骤1, 对名词短语进行分词和词形还原, 对分词后的词序列, 枚举所有的文本片段T, 即名词短语中所有的N元模型n ‑gram组成的片段, 以及这些文本片段对应的词形还原后的 文本片段Tlemma, 将文本片段索引到知识库的资源, 生成文本片段到知识库中资源的映射表; 步骤2、 根据名词短语的分词进行词性标注并生成句法树, 从树顶开始递归地遍历整棵 树, 将叶子结点, 即每一个词的遍历顺序作为 解析顺序; 步骤3、 按解析顺序, 从EL++的概念T开始, 用索引到的资源生成的基本概念不断细化, 对每个可解析词按顺序进行解析, 该过程持续直到解析完全部的词, 得到名词短语映射到 的描述逻辑 概念: 步骤3.1、 针对当前 可解析词, 列出 所有包含该可解析词的候选文本片段; 步骤3.2、 根据步骤1得到的映射表, 从候选文本片段索引到对应资源, 根据对应资源生 成候选细化操作; 步骤3.3、 对新 生成的候选细化操作进行一 致性筛查, 筛去与句法不 一致的细化操作; 步骤3.4、 用3.3得到的细化操作对当前可解析词生成细化后的描述逻辑概念, 对得到 的描述逻辑概念进行评分, 选择分数前k高的保留, 然后查看是否已经解析完, 即当前已被 解析的可解析词是否为解析顺序中的最后一个, 若否, 进入步骤3.1解析下一个可解析词; 若是, 进入步骤3.5; 描述逻辑 概念的评分函数为: Sscore(NP,C)= wsup*Ssup(NP,C)+wmatch*Smatch(NP,C)+wsim*Ssim(NP,C) 其中Ssup为支持度评分, Smatch为匹配度评分, Ssim为简洁度评分, wsup、 wmatch、 wsim为对应的 权重, 描述逻辑概念的支持度评分Ssup定义为描述逻辑概念生成过程中, 若干次细化操作的 支持集的支持度的平滑均值, 对已知名词短语NP和细化操作 NPI为名词短语描 述 的实体集合, 即短语的外延, 对概念C, CI为概念C描述的实体 集合, 对基本概念B, BI为基本概 念B描述的实体集合, 细 化操作 指对概念C, 用基本概念B 来修饰C中 的一部分A, 支 持集Setsup计算公式如下: 其中, 指B修饰的部分A是描述外延NPI本身, 指B 修饰的部分A为描述与外延存在关系的实体集 合; Ssup由以下公式计算得到, 其中d表示对概念C的细化操作, 是支持集 的支持度: Smatch定义为名词短语NP中能够被概念C匹配到的词的比例, 计算公式如下:权 利 要 求 书 1/2 页 2 CN 115186671 A 2Ssim定义为概念中的细化操作次数, 计算公式如下: Ssim(C)=‑|{d|d∈C}| 步骤3.5、 对根据解析顺序得到的所有词的描述逻辑概念, 保留分数最高的作为输出 Cbest, 即名词短语映射到的描述逻辑 概念, 用于知识库对该名词短语的语义理解。 2.根据权利要求1所述的基于外延的将名词短语映射到描述逻辑概念的方法, 其特征 在于所述资源 包括实体、 字面 量、 属性和类型。 3.根据权利要求1所述的基于外延的将名词短语映射到描述逻辑概念的方法, 其特征 在于生成解析顺序时, 通过词性分析得到名词短语对应的所有名词组, 定义名词短语的头 部为第一个名词组的最后一个词, 对于句法树中的名词短语结点, 首先将当前名词短语头 部所在的子结点作为新的名词短语结点解析, 然后 从右到左地解析头部左边的子结点, 最 后从左到右地解析头部右边地子结点, 即解析顺序为从头部起由近到远; 对于动词或副词 开始的结点, 首先解析动词或副词, 然后将剩 下部分按父节点上从左至右或从右至左的顺 序解析; 对于形容词开始的结点, 将除了形容词外其他部 分按父节点顺序短语来解析, 最后 解析形容词。 4.根据权利要求1所述的所述的基于外延的将名词短语映射到描述逻辑概念的方法, 其特征在于步骤3.2根据对应资源生成所有候选细化操作, 具体如下: 定义描述逻辑中的基本概念包括5种形态: EL++描述逻辑概念中的个体{O}、 原子概念 A、 角色对应的基本概念形态 以及隐藏角色名的 和 对于索引到的实体和字 面量, 生成对应的形态, 包括{O}和 对于索引到的类型, 生成对应的形态, 包括A和 对于索引到的属性, 生成对应的形态 定义细化操作 为: 对概念C用基本概念B来修饰C中的一部分A, 对已知的基本 概念B和已知的概念C, 通过枚举被细化的C中的A部分来生成可能的所有细化操作, 其中对 于被索引到的实体与字面量o, 生成对应的基本概念{o}与所有包含隐藏角色的基本概念 并生成所有支持度不为0的细化操作; 对于被索引到的类型A, 生 成对应的基本概念A 与所有包含隐藏角色的基本概念 并生成所有支 持度不为0的细化操作; 对于索引到的 属性p, 对应角色r, 生成对应的基本概念 并生成所有支持度不 为0的细化操作。 5.根据权利要求1所述的所述的基于外延的将名词短语映射到描述逻辑概念的方法, 其特征在于步骤3.3中, 如果当前的待解析词为头部, 则优先选择如 的细化 操作, 其中Batomic为原子概念, 反之, 如果当前的待解析词非短语头部, 则优先选择非 形式的细化操作。权 利 要 求 书 2/2 页 3 CN 115186671 A 3

.PDF文档 专利 一种基于外延的将名词短语映射到描述逻辑概念的方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于外延的将名词短语映射到描述逻辑概念的方法 第 1 页 专利 一种基于外延的将名词短语映射到描述逻辑概念的方法 第 2 页 专利 一种基于外延的将名词短语映射到描述逻辑概念的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:07:39上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。