(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210800733.8
(22)申请日 2022.07.08
(71)申请人 河南省信息中心
地址 450000 河南省郑州市郑东 新区圃田
西路154号
(72)发明人 时兴华 刘孟旭 赵满满 赵卫利
任鹏 王阳 李冉 梁永强
谢馥远
(74)专利代理 机构 郑州大豫知识产权代理事务
所(普通合伙) 41214
专利代理师 张雯雯
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/216(2020.01)
G06F 16/951(2019.01)G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于大数据的信息处理方法和信息处
理系统
(57)摘要
本发明提供的一种基于大数据的信息处理
方法和信息处理系统, 具体应用于文本识别领
域, 包括获取待处理文本; 通过敏感词检测模型
和敏感词库, 得到第一敏感词检测结果和第二敏
感词检测结果; 基于检测结果构建第一敏感词矩
阵和第二敏感词矩阵; 将矩阵进行匹配, 匹配成
功的词语集合确定为敏 感词, 计算匹配失败的词
语集合中任一词的的成词率, 进而得到该词的敏
感度; 将敏感度大于预设阈值的任一词确定为所
述待处理文本中的敏感词, 并作为未登录词加入
所述敏感词库; 反之交由人工复查, 确定所述待
处理文本中的敏感词。 由此提高敏感词检测的正
确性和效率。
权利要求书3页 说明书8页 附图2页
CN 115017904 A
2022.09.06
CN 115017904 A
1.一种基于大 数据的信息处 理方法, 其特 征在于, 包括:
步骤1, 利用爬虫 软件收集文本数据, 经 过预处理得到待处 理文本;
步骤2, 将所述待处理文本输入敏感词检测模型, 得到第一敏感词检测结果; 其中, 所述
敏感词检测模型包括编码器和解码器, 所述编码器由双向长短时记忆网络构成, 所述解码
器由循环神经网络构成;
步骤3, 将所述待处理文本与敏感词库匹配, 得到第二敏感词检测结果; 所述敏感词库
中包含敏感词和敏感字符;
步骤4, 基于所述第一敏感词检测结果和所述第 二敏感词检测结果, 分别构建第 一敏感
词矩阵和第二敏感词矩阵;
步骤5, 将所述第一敏感词矩阵和所述第二敏感词矩阵进行匹配, 得到匹配成功的第一
敏感词集 合和匹配失败的第二敏感词集 合;
步骤6, 将所述第一敏感词集 合确定为所述待处 理文本中的敏感词;
步骤7, 计算所述第二敏感词集合中任一词的成词率, 根据 所述成词率得到该词的敏感
度;
步骤8, 将所述敏感度 大于预设阈值的任一词确定为所述待处理文本中的敏感词, 并作
为未登录词加入所述敏感词库;
步骤9, 将所述敏感度小于等于预设阈值的任一词交 由人工复查, 确定所述待处理文本
中的敏感词。
2.根据权利要求1所述的基于大数据的信 息处理方法, 其特征在于, 所述步骤1, 利用爬
虫软件收集文本数据, 经过预处理得到待处理文本, 包括: 所述文本数据中包含字母、 文字
和表情符号;
将所述表情符号转换为表情文本; 其中, 所述表情文本包括符号、 文字和/或字母的组
合;
所述字母、 所述文字和所述表情文本作为待处 理文本。
3.根据权利要求1所述的基于大数据的信 息处理方法, 其特征在于, 所述步骤2, 将所述
待处理文本输入敏感词检测模型, 得到第一敏感词检测结果, 包括:
获得所述待处 理文本的向量 化表示;
将所述向量 化表示输入所述双向长短时记 忆网络进行编码, 得到编码向量;
将所述编码向量输入循环神经网络进行解码, 得到第一敏感词检测结果。
4.根据权利要求2所述的基于大数据的信 息处理方法, 其特征在于, 所述步骤3, 将所述
待处理文本与敏感词库匹配, 得到第二敏感词检测结果, 包括:
将所述待处理文本进行分词, 获得分词集合; 其中, 所述表情文本的符号、 文字和/或字
母的组合作为所述分词集 合中的一个分词;
将所述分词集 合中任一分词与所述敏感词库中任一词匹配, 得到匹配结果;
根据所述匹配结果, 得到第二敏感词检测结果。
5.根据权利要求1所述的基于大数据的信 息处理方法, 其特征在于, 所述步骤5, 将所述
第一敏感词矩阵和所述第二敏感词矩阵进 行匹配, 得到匹配成功的第一敏感词集合和匹配
失败的第二敏感词集 合, 包括:
将所述第一敏感词矩阵和所述第 二敏感词矩阵输入词语对齐模型中, 得到正交变换矩权 利 要 求 书 1/3 页
2
CN 115017904 A
2阵;
根据所述正交变换矩阵对齐所述第 一敏感词矩阵和所述第 二敏感词矩阵, 得到词语匹
配结果;
将匹配成功的词语作为第一敏感词集 合;
将匹配失败的词语作为第二敏感词集 合。
6.根据权利要求1所述的基于大数据的信 息处理方法, 其特征在于, 所述步骤7, 计算所
述第二敏感词集 合中任一词的成词率, 根据所述成词率得到该词的敏感度, 包括:
计算所述第二敏感词集 合中任一词相对于所述待处 理文本的TF ‑IDF值;
将所述TF ‑IDF值作为该词的成词率。
7.根据权利要求6所述的基于大数据的信 息处理方法, 其特征在于, 所述步骤7, 计算所
述第二敏感词集 合中任一词的成词率, 根据所述成词率得到该词的敏感度, 还 包括:
获得所述第二敏感词集 合中任一词的义原;
分别将该词和该词的义原与所述敏感词库匹配, 得到对应的词语权重值和义原权重
值;
根据以下公式计算该词的敏感度:
其中, Fi表示第i个词的敏感度, M表示第二敏感词集合中的词语数量, ki表示第i个词的
成词率, wi表示第i个词的权重值,
中N表示第i个词共有N个义原, qi,j表示第i个词
的第j个义原的权 重值。
8.根据权利要求1所述的基于大 数据的信息处 理方法, 其特 征在于, 该 方法还包括:
对待处理文本中的敏感词进行 标记和汇总;
可视化显示敏感词、 标记和汇总信息 。
9.一种基于大 数据的信息处 理系统, 其特 征在于, 包括:
文本处理模块, 用于利用爬虫 软件收集文本数据, 经 过预处理得到待处 理文本;
第一敏感词检测模块, 用于将所述待处理文本输入敏感词检测模型, 得到第一敏感词
检测结果; 其中, 所述敏感词检测模型包括编 码器和解码 器, 所述编 码器由双向长 短时记忆
网络构成, 所述 解码器由循环神经网络构成;
第二敏感词检测模块, 用于将所述待处理文本与敏感词库匹配, 得到第二敏感词检测
结果; 所述敏感词库中包 含敏感词和敏感字符;
矩阵构建模块, 用于基于所述第一敏感词检测结果和所述第二敏感词检测结果, 分别
构建第一敏感词矩阵和第二敏感词矩阵;
匹配模块, 用于将所述第一敏感词矩阵和所述第二敏感词矩阵进行匹配, 得到匹配成
功的第一敏感词集 合和匹配失败的第二敏感词集 合;
敏感词确定模块, 用于将所述第一敏感词集 合确定为所述待处 理文本中的敏感词;
计算所述第二敏感词集 合中任一词的成词率, 根据所述成词率得到该词的敏感度;
将所述敏感度 大于预设阈值的任一词确定为所述待处理文本 中的敏感词, 并作为未登
录词加入所述敏感词库; 将所述敏感度小于等于预设阈值的任一词交由人工复查。权 利 要 求 书 2/3 页
3
CN 115017904 A
3
专利 一种基于大数据的信息处理方法和信息处理系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:46上传分享