说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210829003.0 (22)申请日 2022.07.15 (65)同一申请的已公布的文献号 申请公布号 CN 114912448 A (43)申请公布日 2022.08.16 (73)专利权人 山东海量信息技 术研究院 地址 250000 山东省济南市高新 技术开发 区国家信息通信国际创新园 (72)发明人 郭振华 徐聪 赵雅倩 范宝余  贾麒 刘璐 金良  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 马小青 (51)Int.Cl. G06F 40/289(2020.01)G06F 40/194(2020.01) G06F 40/30(2020.01) (56)对比文件 CN 109271514 A,2019.01.25 CN 114580436 A,2022.06.03 CN 107180 026 A,2017.09.19 CN 113392647 A,2021.09.14 CN 112487827 A,2021.0 3.12 CN 112651235 A,2021.04.13 US 2017024 461 A1,2017.01.26 US 2015242493 A1,2015.08.27 审查员 刘梦瑶 (54)发明名称 一种文本扩 展方法、 装置、 设备及 介质 (57)摘要 本申请公开了一种文本扩展方法、 装置、 设 备及介质, 涉及短文本扩展领域, 该方法包括: 确 定待扩展文本, 并确定待扩展文本中的目标名 词; 对目标名词进行实体扩展与语义扩展, 确定 目标扩展实体与目标扩展语义; 将目标扩展实体 与目标扩展语义两两组合, 并计算每一组合相应 的相关性得分; 将待扩展文本与相关性得分满足 第一预设条件的组合输入至预设文本生成模型 中, 以获取扩展后文本; 利用预设文本语义相似 度评价模型对扩展后文本与待扩展文本的语义 相似度进行评价, 并从扩展后文本中确定语义相 似度满足预设相似条件的扩展后文本作为目标 扩展后文本进行输出。 本方法能够将短文本扩展 为语义丰富、 情感一致的长文本, 提升了文本扩 展的准确度。 权利要求书3页 说明书13页 附图7页 CN 114912448 B 2022.12.09 CN 114912448 B 1.一种文本扩展方法, 其特 征在于, 包括: 确定待扩展 文本, 并从所述待扩展 文本中确定目标名词; 对所述目标名词进行实体扩展与语义扩展, 以确定目标扩展实体与目标扩展语义; 将所述目标扩展实体与所述目标扩展语义两两组合, 并计算每一组合中相应的所述目 标扩展实体与所述目标扩展语义之间的相关性得分; 将所述待扩展文本与所述相关性得分满足第一预设条件的组合输入至预设文本生成 模型中, 以获取 所述预设文本生成模型输出的扩展后文本; 利用预设文本语义相似度评价模型对所述扩展后文本与所述待扩展文本之间的语义 相似度进 行评价, 并从所述扩展后文本中确定语义相似度满足预设相似条件的扩展后文本 作为目标扩展后文本进行输出; 其中, 所述确定待扩展文本, 并从所述待扩展文本中确定目标名词之前, 还包括: 从预 设社交平台中收集文本, 并利用预设分类规则将所述文本 分类为短文本与长文本; 相应的, 所述确定待扩展 文本, 包括: 将所述短文本确定为待扩展 文本; 并且, 所述将所述目标扩展实体与所述目标扩展语义两两组合, 并计算每一组合中相 应的所述 目标扩展实体与所述 目标扩展语义之间的相关性得分之前, 还包括: 利用预设的 词性标注工具对所述长文本进行词性标注, 以获取带有词性标签的长文本, 然后 从所述带 有词性标签的长文本中确定词性标签为动词词性与名词词性的词组; 将同一所述长文本中 的动词词组与名词词组确定为具备相关性的词组, 并将所述具备相关性的词组作为训练数 据, 输入至预设语言表征模型中进行训练, 以得到训练后模型; 并且, 所述将所述目标扩展实体与所述目标扩展语义两两组合, 并计算每一组合中相 应的所述 目标扩展实体与所述 目标扩展语义之间的相关性得分, 包括: 将所述目标扩展实 体与所述目标扩展语义两两组合输入至所述训练后模型中; 获取所述训练后模型输出的每 一组合中相应的所述目标扩展实体与所述目标扩展语义之间的相关性得分。 2.根据权利要求1所述的文本扩展方法, 其特征在于, 所述从所述待扩展文本中确定目 标名词, 包括: 利用预设的词性标注工具对所述待扩展文本进行词性标注, 以获取带有词性标签的待 扩展文本; 从所述带有词性标签的待扩展 文本中确定词性标签为名词 词性的词组作为目标名词。 3.根据权利要求2所述的文本扩展方法, 其特征在于, 所述利用预设的词性标注工具对 所述待扩展 文本进行词性标注, 以获取 带有词性标签的待扩展 文本, 包括: 利用stanza对所述待扩展 文本进行词性标注, 以获取 带有词性标签的待扩展 文本。 4.根据权利要求1所述的文本扩展方法, 其特征在于, 所述确定待扩展文本, 并从所述 待扩展文本中确定目标名词, 包括: 确定待扩展 文本, 并从所述待扩展 文本中确定目标名词, 以生成名词列表; 相应的, 所述对所述目标名词进行实体扩展与语义扩展, 以确定目标扩展实体与目标 扩展语义, 包括: 对所述名词列表中的所述目标名词进行实体扩展与语义扩展, 以确定目标扩展实体与 目标扩展语义。 5.根据权利要求4所述的文本扩展方法, 其特征在于, 所述确定目标扩展实体与目标扩权 利 要 求 书 1/3 页 2 CN 114912448 B 2展语义之后, 还 包括: 利用知识图谱确定所述目标名词的上 下位关系列表; 基于所述上 下位关系列表与所述目标扩展实体生成实体扩展列表; 基于所述上 下位关系列表与所述目标扩展语义 生成语义扩展列表。 6.根据权利要求5所述的文本扩展方法, 其特征在于, 所述利用知识图谱确定所述目标 名词的上 下位关系列表, 包括: 利用ConceptNet的检索接口对所述目标名词的上下位关系进行检索, 以确定所述目标 名词的上 下位关系列表。 7.根据权利要求5所述的文本扩展方法, 其特征在于, 所述基于所述上下位关系列表与 所述目标扩展实体生成实体扩展列 表, 基于所述上下位关系列 表与所述目标扩展语义生成 语义扩展列表, 包括: 提取所述上下位关系列表中关系为预设第一关系的尾实体, 以构成实体扩展列表; 提取所述上下位关系列表中关系为预设第二关系的尾实体, 以构成语义扩展列表。 8.根据权利要求1所述的文本扩展方法, 其特征在于, 所述将所述待扩展文本与所述相 关性得分满足第一预设条件的组合输入至预设文本生成模型中, 包括: 确定所述目标扩展实体与 所述目标扩展语义的全部组合的相关性得分, 并按照所述相 关性得分对所述全部组合进行排序; 分别确定每个所述目标扩展实体对应的相关性得分中得分排序为前预设数量组的组 合; 将每个所述目标扩展实体对应的所述得分排序为前预设数量组的组合与所述待扩展 文本输入至预设文本生成模型中。 9.根据权利要求1至8任一项所述的文本扩展方法, 其特征在于, 所述将所述待扩展文 本与所述相关性得分满足第一预设条件的组合输入至预设文本生成模型中, 包括: 利用预设拼接方法将所述待扩展文本与所述相关性得分满足第一预设条件的组合进 行拼接, 以生成拼接后序列; 将所述拼接后序列输入至预设文本生成模型中。 10.一种文本扩展装置, 其特 征在于, 包括: 目标名词确定模块, 用于确定待扩展 文本, 并从所述待扩展 文本中确定目标名词; 实体语义扩展模块, 用于对所述目标名词进行实体扩展与语义扩展, 以确定目标扩展 实体与目标扩展语义; 实体语义组合模块, 用于将所述目标扩展实体与所述目标扩展语义两两组合, 并计算 每一组合中相应的所述目标扩展实体与所述目标扩展语义之间的相关性得分; 文本扩展模块, 用于将所述待扩展文本与 所述相关性得分满足第 一预设条件的组合输 入至预设文本生成模型中, 以获取 所述预设文本生成模型输出的扩展后文本; 目标扩展后文本输出模块, 用于利用预设文本语义相似度评价模型对所述扩展后文本 与所述待扩展文本之间的语义相似度进行评价, 并从所述扩展后文本中确定语义相似度满 足预设相似条件的扩展后文本作为目标扩展后文本进行输出; 其中, 所述文本扩展装置, 还用于从预设社交平台中收集文本, 并利用预设分类规则将 所述文本分类为短文本与长文本; 相应的, 所述 目标名词确定模块具体用于将所述短文本权 利 要 求 书 2/3 页 3 CN 114912448 B 3

.PDF文档 专利 一种文本扩展方法、装置、设备及介质

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本扩展方法、装置、设备及介质 第 1 页 专利 一种文本扩展方法、装置、设备及介质 第 2 页 专利 一种文本扩展方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:09:15上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。