说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210697122.5 (22)申请日 2022.06.20 (71)申请人 国网山东省电力公司营销服 务中心 (计量中心) 地址 250001 山东省济南市 市中区大观园 经二路15 0号 申请人 国家电网有限公司 (72)发明人 张雪梅 刘昳娟 陈云龙 吴雪霞  刘继彦 王者龙 鞠文杰 王为帅  于相洁 王倩 高玉华 李静  徐美玲 侯燕文 邹喜林 王若晗  任昶羽 李兆茹 隋欣 李丽  (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 董雪(51)Int.Cl. G06F 16/16(2019.01) G06F 40/151(2020.01) G06F 40/166(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于序列编码的文件分类标注方法与 系统 (57)摘要 本公开属于文本 分类技术领域, 提供了一种 基于序列编码的文件分类标注方法与系统, 包括 以下步骤: 获取待分类文件的位置特征; 根据所 获取的位置特征, 对待分类文件中单词级的句法 和语义信息进行词嵌入, 对待分类文件中的句子 级的关系和结构信息进行序列编码, 完成待分类 文件从文档空间到矢量空间的转换; 提取待分类 文件的矢量空间特征, 对所提取的矢量空间特征 进行序列编码; 基于矢量空间特征的序列编码和 预设的文 件分类模型, 进行文 件的分类 。 权利要求书2页 说明书12页 附图4页 CN 115292251 A 2022.11.04 CN 115292251 A 1.一种基于序列编码的文件分类方法, 其特 征在于, 包括以下步骤: 获取待分类文件的位置特 征; 根据所获取的位置特征, 对待分类文件中单词级的句法和语义信息进行词嵌入, 对待 分类文件中的句子级的关系和结构信息进 行序列编 码, 完成待分类文件从文档空间到矢量 空间的转换; 提取待分类文件的矢量空间特 征, 对所提取的矢量空间特 征进行序列编码; 基于矢量空间特 征的序列编码和预设的文件分类模型, 进行文件的分类。 2.如权利要求1中所述的一种基于序列编码的文件分类方法, 其特征在于, 在获取待分 类文件的位置特征 的过程中, 根据待分类文件中句 子和文档的长度, 结合所述句 子和所述 文档之间的相对位置, 生成基于依赖图的位置特 征。 3.如权利要求1中所述的一种基于序列编码的文件分类方法, 其特征在于, 在所述单词 级的句法和语义信息进行词嵌入的过程中, 基于树型位置编码技术, 利用双向门控循环单 元模型对基于依赖图的位置特征进 行编码; 增加双向门控循环单元层、 构建嵌入层, 实现单 词级的句法和语义信息的词嵌入。 4.如权利要求1中所述的一种基于序列编码的文件分类方法, 其特征在于, 在所述句子 级的关系和结构信息进行序列编码的过程中, 通过双向长短时记忆网络提取特征数据, 完 成句子级的关系和结构信息的序列编码。 5.如权利要求4中所述的一种基于序列编码的文件分类方法, 其特征在于, 利用高速网 络调整原始文本和主题词的语义空间, 使 所述原始文本和所述主题词二者在同一语义空间 中。 6.如权利要求1中所述的一种基于序列编码的文件分类方法, 其特征在于, 所述文件分 类模型采用改进的卷积神经网络 。 7.如权利要求6 中所述的一种基于序列编码的文件分类方法, 其特征在于, 所述基于矢 量空间特 征的序列编码和预设的文件分类模型进行文件的分类的具体过程 为: 输入待分类文件的矢量空间特 征; 提取待分类文件的单词和句子, 将所述单词嵌入所表示的文档聚合到所述句子的向量 中; 输入所提取到的空间矢量特 征的序列编码, 得到序列编码矩阵; 将所得到的序列编码矩阵与所述句子向量相串联; 基于句子向量中元 素的最大值, 将句子矩阵与序列编码矩阵与待分类文件相连接; 结合所有间的文件分类模型, 实现文件的分类。 8.一种基于序列编码的文件分类系统, 其特 征在于, 包括: 获取模块, 被 配置为获取待分类文件的位置特 征; 转换模块, 被配置为根据所获取的位置特征, 对待分类文件中单词级的句法和语义信 息进行词嵌入, 对待分类文件中的句 子级的关系和结构信息进行序列编码, 完成待分类文 件从文档空间到 矢量空间的转换; 提取模块, 被配置为提取待分类文件的矢量空间特征, 对所提取的矢量空间特征进行 序列编码; 分类模块, 被配置为基于矢量空间特征的序列编码和预设的文件分类模型, 进行文件权 利 要 求 书 1/2 页 2 CN 115292251 A 2的分类。 9.一种计算机可读存储介质, 其上存储有程序, 其特征在于, 该程序被处理器执行时实 现如权利要求1 ‑7中任一项所述的基于序列编码的文件分类方法中的步骤。 10.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的程 序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑7中任一项 所述的基于序列 编码的文件分类方法中的步骤。权 利 要 求 书 2/2 页 3 CN 115292251 A 3

.PDF文档 专利 一种基于序列编码的文件分类标注方法与系统

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于序列编码的文件分类标注方法与系统 第 1 页 专利 一种基于序列编码的文件分类标注方法与系统 第 2 页 专利 一种基于序列编码的文件分类标注方法与系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:07:51上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。