说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210800733.8 (22)申请日 2022.07.08 (71)申请人 河南省信息中心 地址 450000 河南省郑州市郑东 新区圃田 西路154号 (72)发明人 时兴华 刘孟旭 赵满满 赵卫利  任鹏 王阳 李冉 梁永强  谢馥远  (74)专利代理 机构 郑州大豫知识产权代理事务 所(普通合伙) 41214 专利代理师 张雯雯 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 16/951(2019.01)G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于大数据的信息处理方法和信息处 理系统 (57)摘要 本发明提供的一种基于大数据的信息处理 方法和信息处理系统, 具体应用于文本识别领 域, 包括获取待处理文本; 通过敏感词检测模型 和敏感词库, 得到第一敏感词检测结果和第二敏 感词检测结果; 基于检测结果构建第一敏感词矩 阵和第二敏感词矩阵; 将矩阵进行匹配, 匹配成 功的词语集合确定为敏 感词, 计算匹配失败的词 语集合中任一词的的成词率, 进而得到该词的敏 感度; 将敏感度大于预设阈值的任一词确定为所 述待处理文本中的敏感词, 并作为未登录词加入 所述敏感词库; 反之交由人工复查, 确定所述待 处理文本中的敏感词。 由此提高敏感词检测的正 确性和效率。 权利要求书3页 说明书8页 附图2页 CN 115017904 A 2022.09.06 CN 115017904 A 1.一种基于大 数据的信息处 理方法, 其特 征在于, 包括: 步骤1, 利用爬虫 软件收集文本数据, 经 过预处理得到待处 理文本; 步骤2, 将所述待处理文本输入敏感词检测模型, 得到第一敏感词检测结果; 其中, 所述 敏感词检测模型包括编码器和解码器, 所述编码器由双向长短时记忆网络构成, 所述解码 器由循环神经网络构成; 步骤3, 将所述待处理文本与敏感词库匹配, 得到第二敏感词检测结果; 所述敏感词库 中包含敏感词和敏感字符; 步骤4, 基于所述第一敏感词检测结果和所述第 二敏感词检测结果, 分别构建第 一敏感 词矩阵和第二敏感词矩阵; 步骤5, 将所述第一敏感词矩阵和所述第二敏感词矩阵进行匹配, 得到匹配成功的第一 敏感词集 合和匹配失败的第二敏感词集 合; 步骤6, 将所述第一敏感词集 合确定为所述待处 理文本中的敏感词; 步骤7, 计算所述第二敏感词集合中任一词的成词率, 根据 所述成词率得到该词的敏感 度; 步骤8, 将所述敏感度 大于预设阈值的任一词确定为所述待处理文本中的敏感词, 并作 为未登录词加入所述敏感词库; 步骤9, 将所述敏感度小于等于预设阈值的任一词交 由人工复查, 确定所述待处理文本 中的敏感词。 2.根据权利要求1所述的基于大数据的信 息处理方法, 其特征在于, 所述步骤1, 利用爬 虫软件收集文本数据, 经过预处理得到待处理文本, 包括: 所述文本数据中包含字母、 文字 和表情符号; 将所述表情符号转换为表情文本; 其中, 所述表情文本包括符号、 文字和/或字母的组 合; 所述字母、 所述文字和所述表情文本作为待处 理文本。 3.根据权利要求1所述的基于大数据的信 息处理方法, 其特征在于, 所述步骤2, 将所述 待处理文本输入敏感词检测模型, 得到第一敏感词检测结果, 包括: 获得所述待处 理文本的向量 化表示; 将所述向量 化表示输入所述双向长短时记 忆网络进行编码, 得到编码向量; 将所述编码向量输入循环神经网络进行解码, 得到第一敏感词检测结果。 4.根据权利要求2所述的基于大数据的信 息处理方法, 其特征在于, 所述步骤3, 将所述 待处理文本与敏感词库匹配, 得到第二敏感词检测结果, 包括: 将所述待处理文本进行分词, 获得分词集合; 其中, 所述表情文本的符号、 文字和/或字 母的组合作为所述分词集 合中的一个分词; 将所述分词集 合中任一分词与所述敏感词库中任一词匹配, 得到匹配结果; 根据所述匹配结果, 得到第二敏感词检测结果。 5.根据权利要求1所述的基于大数据的信 息处理方法, 其特征在于, 所述步骤5, 将所述 第一敏感词矩阵和所述第二敏感词矩阵进 行匹配, 得到匹配成功的第一敏感词集合和匹配 失败的第二敏感词集 合, 包括: 将所述第一敏感词矩阵和所述第 二敏感词矩阵输入词语对齐模型中, 得到正交变换矩权 利 要 求 书 1/3 页 2 CN 115017904 A 2阵; 根据所述正交变换矩阵对齐所述第 一敏感词矩阵和所述第 二敏感词矩阵, 得到词语匹 配结果; 将匹配成功的词语作为第一敏感词集 合; 将匹配失败的词语作为第二敏感词集 合。 6.根据权利要求1所述的基于大数据的信 息处理方法, 其特征在于, 所述步骤7, 计算所 述第二敏感词集 合中任一词的成词率, 根据所述成词率得到该词的敏感度, 包括: 计算所述第二敏感词集 合中任一词相对于所述待处 理文本的TF ‑IDF值; 将所述TF ‑IDF值作为该词的成词率。 7.根据权利要求6所述的基于大数据的信 息处理方法, 其特征在于, 所述步骤7, 计算所 述第二敏感词集 合中任一词的成词率, 根据所述成词率得到该词的敏感度, 还 包括: 获得所述第二敏感词集 合中任一词的义原; 分别将该词和该词的义原与所述敏感词库匹配, 得到对应的词语权重值和义原权重 值; 根据以下公式计算该词的敏感度: 其中, Fi表示第i个词的敏感度, M表示第二敏感词集合中的词语数量, ki表示第i个词的 成词率, wi表示第i个词的权重值, 中N表示第i个词共有N个义原, qi,j表示第i个词 的第j个义原的权 重值。 8.根据权利要求1所述的基于大 数据的信息处 理方法, 其特 征在于, 该 方法还包括: 对待处理文本中的敏感词进行 标记和汇总; 可视化显示敏感词、 标记和汇总信息 。 9.一种基于大 数据的信息处 理系统, 其特 征在于, 包括: 文本处理模块, 用于利用爬虫 软件收集文本数据, 经 过预处理得到待处 理文本; 第一敏感词检测模块, 用于将所述待处理文本输入敏感词检测模型, 得到第一敏感词 检测结果; 其中, 所述敏感词检测模型包括编 码器和解码 器, 所述编 码器由双向长 短时记忆 网络构成, 所述 解码器由循环神经网络构成; 第二敏感词检测模块, 用于将所述待处理文本与敏感词库匹配, 得到第二敏感词检测 结果; 所述敏感词库中包 含敏感词和敏感字符; 矩阵构建模块, 用于基于所述第一敏感词检测结果和所述第二敏感词检测结果, 分别 构建第一敏感词矩阵和第二敏感词矩阵; 匹配模块, 用于将所述第一敏感词矩阵和所述第二敏感词矩阵进行匹配, 得到匹配成 功的第一敏感词集 合和匹配失败的第二敏感词集 合; 敏感词确定模块, 用于将所述第一敏感词集 合确定为所述待处 理文本中的敏感词; 计算所述第二敏感词集 合中任一词的成词率, 根据所述成词率得到该词的敏感度; 将所述敏感度 大于预设阈值的任一词确定为所述待处理文本 中的敏感词, 并作为未登 录词加入所述敏感词库; 将所述敏感度小于等于预设阈值的任一词交由人工复查。权 利 要 求 书 2/3 页 3 CN 115017904 A 3

.PDF文档 专利 一种基于大数据的信息处理方法和信息处理系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于大数据的信息处理方法和信息处理系统 第 1 页 专利 一种基于大数据的信息处理方法和信息处理系统 第 2 页 专利 一种基于大数据的信息处理方法和信息处理系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:07:46上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。