说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210572462.5 (22)申请日 2022.05.25 (71)申请人 河北经贸大学 地址 050064 河北省石家庄市学府路47号 (72)发明人 和志强 王梦雪 马宁  (74)专利代理 机构 六安市新图匠心 专利代理事 务所(普通 合伙) 34139 专利代理师 曾庆龄 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/44(2020.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/242(2020.01) (54)发明名称 一种文本处 理用聚类方法系统 (57)摘要 本发明公开了一种文本处理用聚类方法系 统, 包括以下步骤, 专利数据集构建、 基础 Word2Vec模型训练、 搜索训练语料中低频词、 生 成低频词的扩展词、 扩展词筛选、 利用筛选后的 扩展词替换低频词生成扩增数据、 对基础 Word2Vec模型增量训练、 生成词向量表示、 结合 粗分类标签生成专利说明书摘要的向量化表示、 融合多次聚类结果与相似度阈值灵活生成专利 聚类结果和聚类结果评价。 本发 明能够有效提取 文本的语义特征, 优化低频词的词表示, 解决一 词多义问题, 从而提高聚类的准确性, 利用数据 共现频率代替设定聚类个数来灵活化得到聚类 结果的方法, 在未知聚类个数的情况下提高专利 文献聚类结果的准确性。 权利要求书2页 说明书7页 附图2页 CN 114757302 A 2022.07.15 CN 114757302 A 1.一种文本处 理用聚类方法系统, 其特 征在于, 包括以下步骤: S1: 专利数据集构建, 从选定领域的专利文献数据库采集专利文献信息组成原始数据 集, 所述专利文献信息包括专利文献号、 专利名称、 专利说明书摘要、 专利 所属IPC大类, 从 所述原始数据集中提取所有专利的说明书摘要采用分词模型对其去停用词与分词处理存 储为训练语料, 从所述原始数据集中提取部分专利说明书摘要的关键词存储为测试数据 集; S2: 专利说明书摘 要词向量表示阶段, 使用基于数据增强的DAbased ‑W2V模型来生成词 的向量化表示, 包括如下小步骤, a1: 搜索训练语料中低频词、 低频词阈值, 则有: 其中Scount为原始语料中词总数, SV为词典中词总数, ceil为向上取整, 利用训练语料在 MLM任务上对BERT模型进行增量训练得到BERT ‑target模型; 对低频词所在文档中低频词位置使用 “MASK”进行替换, 再使用训练得到的BERT ‑ target的MLM任务对 “MASK”位置预测生成最相关的k个待定扩展词; a2: 利用训练语料训练得到Word2Vec模型, 判断扩展词是否存在于原始语料库内, 如果 存在则将其表示为1级扩展词, 否则将其表示为未登录词; 将1级扩展词输入至基础模型中 分别得到每个扩展词基于原始语料的m个相关词; 而对于原始语料外的未登录词, 则利用义 原树得到5个2级扩展词, 再次判断其是否在原始语料库内, 若原始语料库内存在至少1个2 级扩展词, 则将2级扩展词同样 输入至基模型中求解m个相关词, 否则将其对应的1级扩展词 丢弃; 在W ord2Vec模型的基础上构建所有1级扩展词、 2级扩展词之间的余弦相似度矩阵M; 使用矩阵M的行均值mj作为该相关词的权值, 矩阵M的均值m作为共性阈值; 将扩展词对 应相关词权 重累加平均值作为该扩展词的共性权 重Di, 则有: 当共性权重大于0时则保留该词, 其中1级待扩展词直接加入扩展词集, 2级词将其对应 1级词加入 扩展词集; a3: 用筛选后保留的扩展词替换文档中对应位置的低频词, 来生成扩增数据; 将扩增数 据输入至使用原 始数据训练得到的W ord2Vec模型中进行增量训练, 得到各个词的词表示; S3:词向量组合阶段, 将词的整体TF ‑IDF值whole(tfidfi)和粗分类下TF ‑IDF值part (tfidfi)分别与该词向量相乘后再 取平均作为该词的加权词向量: 将专利说明书摘要中的所有词加权平均得到其向量 化表示: 其中V(di)为文档i的向量表示, n为文档中包含的词总数, V'(Wj)为词j的加权向量表 示;权 利 要 求 书 1/2 页 2 CN 114757302 A 2S4: 专利聚类阶段, 使用基于GM M的灵活化聚类方法, 包括如下小步骤: b1:设定一个模糊的聚簇数范围K ‑area, 取范围内的K值分别对专利说明书摘 要向量化 表 示 采 用 G M M 算 法 获 得 文 本 聚 类 结 果 ;数 据 类 别 划 分 计 算 方 法 为 : 其中P(zj=i|xj)表示样本xj来自第i个分模型的后验概率, 简记为γji; P(xj|Zj=i)表 示按第i个高斯分模型生成的概率密度, P(Xj)表示综合所有的混合成分后总的概率密度; λj 表示每个样本xj的簇标记; b2、 构建文档的共现矩阵C, 矩阵中元 素cij: 其中fk(di,dj)表示在第k个聚类结果中第i个文档与j个文档的共现次数, nk为第k个聚 类的K值, N 为全部K值的集 合; 按位形成m ×m维共现频率矩阵, 共现频率的计算方法为: 其中m为数据总数; b3:设定相似度阈值 来按需生成聚类结果, 相似度判定计算 为: 其中 为设定的相似度; 依据共现概率是否达到相似度阈值来判定两数据节点间是否有边, 在两节点间存在边 时, 按深度优先遍历生成聚类结果; S5: 聚类结果评价阶段, 包括如下小步骤: c1:在设定的K值范围内完成多次聚类, 计算各结果方差、 各结果簇内样本数量平均值 与大于平均值的簇总数, 取方差较低且簇内样本数量平均值与大于平均值的簇总数相对稳 定时的K值; c2:聚类结果中同一聚簇内数据间技术关键词重合度作为聚类的准确性判定标准E, 其中c(wij)为技术关键词wij在类别i下的共现次数, mij为类别i内第j个数据内技术关 键词数量, N 为聚类结果关键词总量; c3:采用Jaccard系数依据专利的IPC大类标签, 来计算聚类结果的准确率AC, 其中SS表示聚类内部同一IPC分类 的数据量, SD为 同一IPC分类下应有数据量, DS为聚 类内部不同IPC分类的数据量。权 利 要 求 书 2/2 页 3 CN 114757302 A 3

.PDF文档 专利 一种文本处理用聚类方法系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本处理用聚类方法系统 第 1 页 专利 一种文本处理用聚类方法系统 第 2 页 专利 一种文本处理用聚类方法系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:09:12上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。