专利 一种基于大数据的信息处理方法和信息处理系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210800733.8 (22)申请日 2022.07.08 (71)申请人河南省信息中心地址 450000 河南省郑州市郑东新区圃田西路154号 (72)发明人时兴华　刘孟旭　赵满满　赵卫利　任鹏　王阳　李冉　梁永强　谢馥远　 (74)专利代理机构郑州大豫知识产权代理事务所(普通合伙) 41214 专利代理师张雯雯 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 16/951(2019.01)G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于大数据的信息处理方法和信息处理系统 (57)摘要本发明提供的一种基于大数据的信息处理方法和信息处理系统，具体应用于文本识别领域，包括获取待处理文本；通过敏感词检测模型和敏感词库，得到第一敏感词检测结果和第二敏感词检测结果；基于检测结果构建第一敏感词矩阵和第二敏感词矩阵；将矩阵进行匹配，匹配成功的词语集合确定为敏感词，计算匹配失败的词语集合中任一词的的成词率，进而得到该词的敏感度；将敏感度大于预设阈值的任一词确定为所述待处理文本中的敏感词，并作为未登录词加入所述敏感词库；反之交由人工复查，确定所述待处理文本中的敏感词。由此提高敏感词检测的正确性和效率。权利要求书3页说明书8页附图2页 CN 115017904 A 2022.09.06 CN 115017904 A 1.一种基于大数据的信息处理方法，其特征在于，包括：步骤1，利用爬虫软件收集文本数据，经过预处理得到待处理文本；步骤2，将所述待处理文本输入敏感词检测模型，得到第一敏感词检测结果；其中，所述敏感词检测模型包括编码器和解码器，所述编码器由双向长短时记忆网络构成，所述解码器由循环神经网络构成；步骤3，将所述待处理文本与敏感词库匹配，得到第二敏感词检测结果；所述敏感词库中包含敏感词和敏感字符；步骤4，基于所述第一敏感词检测结果和所述第二敏感词检测结果，分别构建第一敏感词矩阵和第二敏感词矩阵；步骤5，将所述第一敏感词矩阵和所述第二敏感词矩阵进行匹配，得到匹配成功的第一敏感词集合和匹配失败的第二敏感词集合；步骤6，将所述第一敏感词集合确定为所述待处理文本中的敏感词；步骤7，计算所述第二敏感词集合中任一词的成词率，根据所述成词率得到该词的敏感度；步骤8，将所述敏感度大于预设阈值的任一词确定为所述待处理文本中的敏感词，并作为未登录词加入所述敏感词库；步骤9，将所述敏感度小于等于预设阈值的任一词交由人工复查，确定所述待处理文本中的敏感词。 2.根据权利要求1所述的基于大数据的信息处理方法，其特征在于，所述步骤1，利用爬虫软件收集文本数据，经过预处理得到待处理文本，包括：所述文本数据中包含字母、文字和表情符号；将所述表情符号转换为表情文本；其中，所述表情文本包括符号、文字和/或字母的组合；所述字母、所述文字和所述表情文本作为待处理文本。 3.根据权利要求1所述的基于大数据的信息处理方法，其特征在于，所述步骤2，将所述待处理文本输入敏感词检测模型，得到第一敏感词检测结果，包括：获得所述待处理文本的向量化表示；将所述向量化表示输入所述双向长短时记忆网络进行编码，得到编码向量；将所述编码向量输入循环神经网络进行解码，得到第一敏感词检测结果。 4.根据权利要求2所述的基于大数据的信息处理方法，其特征在于，所述步骤3，将所述待处理文本与敏感词库匹配，得到第二敏感词检测结果，包括：将所述待处理文本进行分词，获得分词集合；其中，所述表情文本的符号、文字和/或字母的组合作为所述分词集合中的一个分词；将所述分词集合中任一分词与所述敏感词库中任一词匹配，得到匹配结果；根据所述匹配结果，得到第二敏感词检测结果。 5.根据权利要求1所述的基于大数据的信息处理方法，其特征在于，所述步骤5，将所述第一敏感词矩阵和所述第二敏感词矩阵进行匹配，得到匹配成功的第一敏感词集合和匹配失败的第二敏感词集合，包括：将所述第一敏感词矩阵和所述第二敏感词矩阵输入词语对齐模型中，得到正交变换矩权　利　要　求　书 1/3 页 2 CN 115017904 A 2阵；根据所述正交变换矩阵对齐所述第一敏感词矩阵和所述第二敏感词矩阵，得到词语匹配结果；将匹配成功的词语作为第一敏感词集合；将匹配失败的词语作为第二敏感词集合。 6.根据权利要求1所述的基于大数据的信息处理方法，其特征在于，所述步骤7，计算所述第二敏感词集合中任一词的成词率，根据所述成词率得到该词的敏感度，包括：计算所述第二敏感词集合中任一词相对于所述待处理文本的TF ‑IDF值；将所述TF ‑IDF值作为该词的成词率。 7.根据权利要求6所述的基于大数据的信息处理方法，其特征在于，所述步骤7，计算所述第二敏感词集合中任一词的成词率，根据所述成词率得到该词的敏感度，还包括：获得所述第二敏感词集合中任一词的义原；分别将该词和该词的义原与所述敏感词库匹配，得到对应的词语权重值和义原权重值；根据以下公式计算该词的敏感度：其中， Fi表示第i个词的敏感度， M表示第二敏感词集合中的词语数量， ki表示第i个词的成词率， wi表示第i个词的权重值，中N表示第i个词共有N个义原， qi,j表示第i个词的第j个义原的权重值。 8.根据权利要求1所述的基于大数据的信息处理方法，其特征在于，该方法还包括：对待处理文本中的敏感词进行标记和汇总；可视化显示敏感词、标记和汇总信息。 9.一种基于大数据的信息处理系统，其特征在于，包括：文本处理模块，用于利用爬虫软件收集文本数据，经过预处理得到待处理文本；第一敏感词检测模块，用于将所述待处理文本输入敏感词检测模型，得到第一敏感词检测结果；其中，所述敏感词检测模型包括编码器和解码器，所述编码器由双向长短时记忆网络构成，所述解码器由循环神经网络构成；第二敏感词检测模块，用于将所述待处理文本与敏感词库匹配，得到第二敏感词检测结果；所述敏感词库中包含敏感词和敏感字符；矩阵构建模块，用于基于所述第一敏感词检测结果和所述第二敏感词检测结果，分别构建第一敏感词矩阵和第二敏感词矩阵；匹配模块，用于将所述第一敏感词矩阵和所述第二敏感词矩阵进行匹配，得到匹配成功的第一敏感词集合和匹配失败的第二敏感词集合；敏感词确定模块，用于将所述第一敏感词集合确定为所述待处理文本中的敏感词；计算所述第二敏感词集合中任一词的成词率，根据所述成词率得到该词的敏感度；将所述敏感度大于预设阈值的任一词确定为所述待处理文本中的敏感词，并作为未登录词加入所述敏感词库；将所述敏感度小于等于预设阈值的任一词交由人工复查。权　利　要　求　书 2/3 页 3 CN 115017904 A 3

专利 一种基于大数据的信息处理方法和信息处理系统

专利一种基于大数据的信息处理方法和信息处理系统