说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210560651.0 (22)申请日 2022.05.20 (65)同一申请的已公布的文献号 申请公布号 CN 114970523 A (43)申请公布日 2022.08.30 (73)专利权人 浙江省科技信息 研究院 地址 310000 浙江省杭州市西湖区环城西 路33号 (72)发明人 陈骁 张元庆 陈登 梁婷婷  吕跃华 沈凯 殷昱煜  (74)专利代理 机构 杭州奥创知识产权代理有限 公司 33272 专利代理师 王佳健 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01)G06F 40/205(2020.01) G06F 40/242(2020.01) G06F 16/31(2019.01) G06F 16/33(2019.01) G06F 16/903(2019.01) (56)对比文件 CN 103870575 A,2014.0 6.18 CN 114239555 A,2022.03.25 CN 104391942 A,2015.0 3.04 CN 113673223 A,2021.1 1.19 CN 113987175 A,202 2.01.28 US 20183 07680 A1,2018.10.25 Bahareh Harandizadeh等.K eyword Assisted Embed ded Topic Model. 《WS DM ’22》 .2022,第372- 380页. 审查员 穆滢 (54)发明名称 一种基于文本语义增强的主题提示式关键 词提取方法 (57)摘要 本发明公开了一种基于文本语义增强的主 题提示式关键词提取方法。 本发 明首先收集某个 领域的短文本数据集, 通过分句模块将文本进行 分句, 对每个句子进行文本增强构造相似文本 对。 其次将相似文本对进行合并得到增强文本, 对增强文本进行分词, 将分词后的文本提取一个 文本主题。 然后将文本主题向量化, 再匹配一个 初始化的既定主题, 既定主题 通过主题模板生成 模块生成对应的主题提示模板。 最后主题提示模 板与增强文本一起送入文本向量生成模块得到 每个文本的向量表示; 找到与文本向量最相似的 几个词语, 将最相似的词语识别为最能描述整个 文本的词。 本发 明将文本增强技术以及提示学习 融入到关键词抽取中, 提升了对短文本关键词抽 取能力。 权利要求书2页 说明书5页 附图3页 CN 114970523 B 2022.11.29 CN 114970523 B 1.一种基于文本语义增强的主题提示式关键词提取方法, 其特征在于该方法包括以下 步骤: 步骤一, 收集某个领域的短文本数据集; 步骤二, 通过分句模块将文本进行分句, 再通过文本语义增强模块对每个句子进行文 本增强构造相似文本对; 步骤三, 将相似文本对进行合并得到增强文本, 再使用分词模块对增强文本进行分词; 步骤四, 将分词后的文本通过主题建模 模块提取一个文本主题; 步骤五, 通过主题匹配模块将文本主题向量 化, 再匹配一个初始化的既定主题; 步骤六, 既定主题通过主题模板生成模块 生成对应的主题提 示模板; 步骤七, 主题提示模板与增强文本一起送入文本向量生成模块得到每个文本的向量表 示; 步骤八: 使用关键词搜索模块找到与文本向量最相似的几个词语, 将最相似的词语识 别为最能描述整个文本的词。 2.根据权利要求1所述的一种基于文本语义增强的主题提示式关键词提取方法, 其特 征在于: 步骤一中, 所述的短文本数据集, 包括短文评论, 文章标题。 3.根据权利要求1所述的一种基于文本语义增强的主题提示式关键词提取方法, 其特 征在于: 在步骤二中, 所述文本语义增强模块采用基于预训练语言模型 的文本语义相似度 召回模型。 4.根据权利要求1所述的一种基于文本语义增强的主题提示式关键词提取方法, 其特 征在于: 在步骤三中, 所述分词模块是一种基于词典分词的算法, 该算法是按照一定的策略 将待匹配的字符串和 一个已建立好的特征领域词典中的词进行匹配, 若找到某个词条, 则 说明匹配成功, 识别了该词。 5.根据权利要求4所述的一种基于文本语义增强的主题提示式关键词提取方法, 其特 征在于: 基于词典分词的算法具体执 行以下步骤: 步骤(1): 从左向右可重叠地取语句的m个字符作为匹配字符子串, 其中, m为机器词典 中最长词语的字符数; 步骤(2): 当原句中m个字符的子串与词典的所有词进行匹配, 若匹配成功, 则将这个匹 配字符串作为 一个词语; 步骤(3): 若匹配不成功, 则将m个字符的最后一个字符去掉, 用m ‑1个字符作为新的匹 配字段; 重复步骤(1)~(3), 直到切分出 所有的词为止 。 6.根据权利要求1所述的一种基于文本语义增强的主题提示式关键词提取方法, 其特 征在于: 在步骤四中, 所述主题建模模块采用LDA模型, 进 行初步的主题词建模, 送入后续的 主题匹配模板模块。 7.根据权利要求1所述的一种基于文本语义增强的主题提示式关键词提取方法, 其特 征在于: 在步骤五中, 所述主题匹配模块首先将文本主题向量化, 再与给定的既定主题向量 中匹配最接 近的既定主题。 8.根据权利要求7所述的一种基于文本语义增强的主题提示式关键词提取方法, 其特 征在于: 在步骤五中, 所述匹配过程如下: 步骤(1): 将步骤四生成的主题词通过一个预训练语言模型生成主题词的向量表征;权 利 要 求 书 1/2 页 2 CN 114970523 B 2步骤(2): 通过相似度计算, 查找在既定主题 空间中与主题词向量表征最接近的既定主 题向量; 步骤(3): 查找向量映射表, 将搜索到的主题向量映射 为中文表示的既定主题。 9.根据权利要求1所述的一种基于文本语义增强的主题提示式关键词提取方法, 其特 征在于: 在步骤 七中, 所述文本向量 生成模块具体指一个预训练语言模型。 10.根据权利要求1所述的一种基于文本语义增强的主题提示式关键词提取方法, 其特 征在于: 在步骤八中, 所述关键词查找模块是在向量空间中查找与当前文本 向量最接近的 词汇。权 利 要 求 书 2/2 页 3 CN 114970523 B 3

.PDF文档 专利 一种基于文本语义增强的主题提示式关键词提取方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于文本语义增强的主题提示式关键词提取方法 第 1 页 专利 一种基于文本语义增强的主题提示式关键词提取方法 第 2 页 专利 一种基于文本语义增强的主题提示式关键词提取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:08:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。