(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210565568.2
(22)申请日 2022.05.23
(71)申请人 广州趣丸网络科技有限公司
地址 510000 广东省广州市天河区平云 路
163号之二1601室 (部位: 自编之01室)
(仅限办公)
(72)发明人 吴文亮 邓其春 马金龙 徐志坚
谢睿 陈光尧
(74)专利代理 机构 北京集佳知识产权代理有限
公司 11227
专利代理师 杨小红
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/30(2020.01)
(54)发明名称
一种文本内容审核方法、 装置、 设备和存储
介质
(57)摘要
本申请公开一种文本内容审核方法、 装置、
设备和存储介质, 通过 获取待审核文本中每个字
符所对应的各风险类型的分数, 根据各风险类型
的分数确定每个字符的目标风险因子, 根据每个
字符的目标风险因子确定该字符对应的各个关
联字符, 然后并将该字 符与其对应的各个关联字
符进行连接, 获得该字符对应的风险片段, 再在
各个风险片段中, 确定每个风险片段对应的各个
友好风险片段, 将每个风险片段与其对应的各个
友好风险片段进行合并, 获得每个风险片段对应
的目标风险片段, 最后对每个目标风险片段进行
纠错, 使其符合语言逻辑, 得到的最终风险片段,
最终风险片段即为利用本方案所挖掘出的被刻
意分开的词语或片段, 从而提高了文本内容审核
的准确率。
权利要求书2页 说明书9页 附图4页
CN 115129867 A
2022.09.30
CN 115129867 A
1.一种文本内容审核方法, 其特 征在于, 包括:
获取待审核 文本中每 个字符所对应的各风险类型的分数;
根据所述待审核文本中每个字符所对应的各风险类型的分数, 确定每个字符的目标风
险因子;
根据每个所述字符的目标风险因子, 确定该字符对应的各个关联字符, 并将该字符与
其对应的各个关联字符进行 连接, 获得 该字符对应的风险片段;
在各个所述风险片段中, 确定每个所述风险片段对应的各个友好风险片段, 将每个所
述风险片段与其对应的各个友好风险片段进 行合并, 获得每个风险片段对应的目标风险片
段;
对每个所述目标风险片段进行纠 错, 得到每个目标风险片段所对应的最终风险片段,
以完成对所述待审核 文本的审核。
2.根据权利要求1所述的方法, 其特征在于, 所述获取待审核文本 中每个字符所对应的
各风险类型的分数, 包括:
利用预训练的风险类型对应模型, 处理所述待审核文本, 以得到所述待审核文本中每
个字符所对应的各风险类型 的分数; 所述风险类型对应模型为, 利用文本样本作为训练样
本, 以所述文本样本中每 个字符所对应的各风险类型的分数作为样本标签训练得到 。
3.根据权利要求1所述的方法, 其特征在于, 所述根据待审核文本 中每个字符所对应的
各风险类型的分数, 确定每 个字符的目标风险因子, 包括:
根据所述待审核文本中每个字符所对应的各风险类型的分数, 确定每个字符在各风险
类型中所对应的风险因子;
将每个字符在各风险类型中所对应的数值最大的风险因子作为该字符的目标风险因
子。
4.根据权利要求1所述的方法, 其特征在于, 所述根据每个所述字符的目标风险因子,
确定该字符对应的各个关联字符, 包括:
获取该字符的各个相邻步长;
根据该字符的各个相邻步长, 确定该字符的各个相邻步长所对应的风险因子阈值;
将该字符的各个相邻步长所对应的风险因子阈值与该字符的目标风险因子进行比较,
并获得比较结果;
基于所述比较结果确定与该字符对应的各个关联字符。
5.根据权利要求1所述的方法, 其特征在于, 所述确定每个所述风险片段对应的各个友
好风险片段, 包括:
针对每一个风险片段, 确定该风险片段的平 滑步长;
按照该风险片段的平 滑步长, 将所有风险片段进行平 滑;
在所有平滑后的风险片段中, 将与平滑后的该风险片段发生重叠的各个风险片段作为
该风险片段对应的各个友好 风险片段。
6.根据权利要求1所述的方法, 其特征在于, 所述对每个目标风险片段进行纠 错, 得到
每个目标风险片段 所对应的最终风险片段, 包括:
针对每一个所述目标风险片段, 将该目标风险片段确定为当前待操作片段, 确定所述
当前待操作片段的总字符数;权 利 要 求 书 1/2 页
2
CN 115129867 A
2确定与所述总字符数对应的纠错字符数, 依据所述纠错字符数在所述当前待操作片段
中分别确定第一字符段和第二字符段;
计算所述第一字符段的语句合理概 率, 和第二字符段的语句合理概 率;
确定所述当前待操作片段是否满足第一条件, 所述第一条件为: 所述第一字符段的语
句合理概 率和所述第二字符段的语句合理概 率均不小于预设的语句合理概 率阈值;
若所述当前待操作片段满足所述第 一条件, 则将所述当前待操作片段确定为所述最终
风险片段;
若所述当前待操作片段不满足所述第一条件, 则确定新的当前待操作片段, 直至所述
新的当前待操作片段满足所述第一条件, 将所述新的当前待操作片段确定为所述最 终风险
片段;
所述确定新的当前待操作片段, 包括:
若所述第一字符段的语句合理概率小于所述语句合理概率阈值, 则删除所述当前待操
作片段所对应字符串的首个字符;
若所述第二字符段的语句合理概率小于所述语句合理概率阈值, 则删除所述当前待操
作片段所对应字符串的末尾字符, 进 而获得所述新的当前待操作片段。
7.一种文本内容审核装置, 其特 征在于, 包括:
分数获取模块, 用于获取待审核 文本中每 个字符所对应的各风险类型的分数;
目标风险因子确定模块, 用于根据 所述待审核文本 中每个字符所对应的各风险类型的
分数, 确定每 个字符的目标风险因子;
风险片段确定模块, 用于根据每个所述字符的目标风险因子, 确定该字符对应的各个
关联字符, 并将该字符与其对应的各个关联字符进行 连接, 获得 该字符对应的风险片段;
目标风险片段确定模块, 用于在各个所述风险片段中, 确定每个所述风险片段对应的
各个友好风险片段, 将每个所述风险片段与其对应的各个友好风险片段进行合并, 获得每
个风险片段对应的目标风险片段;
纠错模块, 用于对每个所述目标风险片段进行纠 错, 得到每个目标风险片段所对应的
最终风险片段, 以完成对所述待审核 文本的审核。
8.根据权利要求7 所述的方法, 其特 征在于, 所述 风险片段确定模块, 包括:
相邻步长获取模块, 用于获取 该字符的各个相邻步长;
风险因子阈值确定模块, 用于根据该字符的各个相邻步长, 确定该字符的各个相邻步
长所对应的风险因子阈值;
比较模块, 用于将该字符的各个相邻步长所对应的风险因子 阈值与该字符的目标风险
因子进行比较, 并获得比较结果;
关联字符确定模块, 用于基于所述比较结果确定与该字符对应的各个关联字符。
9.一种文本内容审核设备, 其特 征在于, 包括存 储器和处 理器;
所述存储器, 用于存 储程序;
所述处理器, 用于执行所述程序, 实现如权利要求1 ‑6任一项的文本内容审核方法的各
个步骤。
10.一种存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处理器执
行时, 实现如权利要求1 ‑6任一项的文本内容审核方法的各个步骤。权 利 要 求 书 2/2 页
3
CN 115129867 A
3
专利 一种文本内容审核方法、装置、设备和存储介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:09:08上传分享