(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210547921.4
(22)申请日 2022.05.20
(71)申请人 深圳市创意智慧港科技有限责任公
司
地址 518000 广东省深圳市福田区莲 花街
道景华社区商报路2号新媒体大厦9层
整层
(72)发明人 郑创伟 符捷雯 陈义飞 金勇
谢志成 王泳 陈少彬 刑谷涛
罗佩珊
(74)专利代理 机构 深圳运赢知识产权代理事务
所(普通合伙) 44771
专利代理师 刘雯
(51)Int.Cl.
G06K 9/62(2022.01)G06V 20/62(2022.01)
G06V 30/148(2022.01)
G06F 40/30(2020.01)
G06F 40/289(2020.01)
G06V 10/74(2022.01)
(54)发明名称
互联网新闻 内容数据智能审核系统
(57)摘要
本发明涉及内容审核技术领域, 具体涉及互
联网新闻内容数据智能审核系统。 所述系统包
括: 分割单元, 配置用于将待审核的新闻内容数
据首先进行第一次语义分析, 以确立待审核的新
闻内容数据中的每个包含独立语义的段落, 进行
段落划分, 然后按照段落划分的结果进行分割,
得到多个分割内容; 关键字提取单元, 配置用于
对每个分割内容进行第二次语义 分析, 确立每个
分割内容的关键字。 本发明通过将待审核的新闻
内容进行语义分段, 然后转换为图像进行相似度
分析, 找到待审核新闻内容的关键字, 对这些关
键字进行敏感度分析, 以实现新闻内容数据审核
的智能化, 具有准确率高和效率高的优点。
权利要求书2页 说明书7页 附图2页
CN 114943285 A
2022.08.26
CN 114943285 A
1.互联网新闻内容数据智能审核系统, 其特征在于, 所述系统包括: 分割单元, 配置用
于将待审核的新闻内容数据首先进行第一次语义分析, 以确立待审核的新闻内容数据中的
每个包含独立语义的段落, 进 行段落划分, 然后按照段落划分的结果进 行分割, 得到多个分
割内容; 关键字提取单元, 配置用于对每个分割内容进 行第二次语义分析, 确立每个分割内
容的关键字; 图像检索单元, 配置用于基于确 立的关键字, 在因特网和/或数据库中检索包
含该关键字的至少 3幅图像, 作为相似图像; 图像相似度判定单元, 配置用于将分割内容转
换为对应的识别对 象图像, 将识别对 象图像分别与每一幅相似图像进行相似度分析, 将得
到的相似度进 行加和, 得到第一相似度, 再将相似图像彼此之 间进行相似度分析, 将得到的
相似度进 行加和, 得到第二相似度, 若第一相似度超过设定的第一阈值, 以及第二相似度超
过设定的第二阈值, 则保留相似图像; 内容权重计算单元, 配置用于对保留的相似图像中每
一幅相似图像进行基于关键字的权重计算, 计算每个关键字在相似图像中的权重占比, 再
结合每个关键字和权重占比, 进行归一化关键字计算, 得到每个分割内容的关键字权重结
果; 判定单元, 配置用于基于关键字权重结果, 根据设定的敏感内容数据库, 进行敏感度计
算, 根据计算出的敏感度与预设的判定区间进行比较, 以判断审核是否通过。
2.如权利要求1所述的系统, 其特征在于, 所述分割单元, 将待审核的新闻内容数据首
先进行第一次语义分析, 以确立待审核的新闻内容数据中的每个包含独立语义的段落的方
法包括: 将待审核的新闻内容数据按照设定的分割区间设定的数值, 进 行第一次 随机分割,
得到多个随机分割 段, 在每一次分割时, 从随机分割区间中随机选取一个数值作为 随机分
割值进行分割; 所述随机分割 区间为:
; 对所述随机分割段分别进行词频统计计
算, 并计算所述随机 分割段中词频最大的N个共同词的概率密度; 基于所述随机 分割值的平
均值进行滑动, 通过改变随机分割值, 再计分别计算所述共同词的概率密度, 取所述概率密
度最大时, 确立 新闻内容数据中的每 个包含独立语义的段落。
3.如权利要求2所述的系统, 其特征在于, 所述共同词的概率密度的计算使用如下公
式:
; 其中,
为词频,
为每个随机分割段内的词的数量,
为调整系数, 取值范围为: 1~1.5,
为概率函数,
;
为自
变量, 其取值 等于进行随机分割的次数。
4.如权利要求3所述的系统, 其特征在于, 所述关键字提取单元对每个分割内容进行第
二次语义分析, 确立每个分割内容的关键字的方法包括: 对分割内容进 行单词分割、 去除标
点符号和数字; 统计每个单词在分割内容合中的频率, 选取频率大于 设定值的单词, 构成基
本单词集合; 对分割内容合进 行容错粗糙集的相关计算, 得到模糊隶属矩阵; 根据基本单词
集合, 过滤单词, 得到过滤后的分割内容合; 对每个过滤后的分割内容建立无向有权图, 并
根据迭代公式计算候选 关键字得分; 选择分割内容中关键字得分超过设定阈值的单词 作为
关键字。
5.如权利要求1所述的系统, 其特征在于, 所述图像相似度判定单元包括: 转换单元, 配
置用于将分割内容转换为对应的识别对 象图像; 第一相似度分析单元, 配置用于将识别对
象图像分别与每一幅相似图像进行相似度分析, 将得到的相似度进行加和, 得到第一相似权 利 要 求 书 1/2 页
2
CN 114943285 A
2度; 第二相似度分析单元, 配置用于将相似图像彼此之 间进行相似度分析, 将得到的相似度
进行加和, 得到第二相似度; 判定单元, 配置用于判断当第一相似度超过设定的第一阈值,
以及第二相似度超过设定的第二阈值, 则保留相似图像, 反 之, 则丢弃相似图像。
6.如权利要求5所述的系统, 其特征在于, 所述转换单元, 将分割内容转换为对应的识
别对象图像的方法包括: 将分割内容内的每个单词用向量进行表示, 然后将所有的向量共
同组成一个向量矩阵, 根据该向量矩阵, 生成图像的数字表达, 然后基于图像的数字表达生
成识别对象图像。
7.如权利要求6所述的系统, 其特征在于, 所述第 一相似度分析单元将识别对象图像分
别与每一幅相似图像进行相似度分析的方法包括: 基于图像散列函数生成识别对象图像与
相似图像相关联的大散列值, 所述大散列值具有第一维数; 基于所述大散列值和局部敏感
图像散列函数生成小散列值, 所述小散列值具有第二维数, 所述第二维数小于所述第一维
数; 计算所述小散列值的和 值与至少识别对 象图像关联的第一集群中心之间的距离, 将该
距离的倒数作为相似度值。
8.如权利要求7所述的系统, 其特征在于, 所述第二相似度分析单元, 将相似图像彼此
之间进行相似度分析的方法包括: 基于图像单向陷门函数函数生成相似图像彼此之 间相关
联的大单向陷门函数值, 所述大单向陷门函数值具有第一维数; 基于所述大单向陷门函数
值和局部敏感图像单向陷门函数函数生成小 单向陷门函数值, 所述小 单向陷门函数值具有
第二维数, 所述第二维数小于所述第一维数; 计算所述小单向陷门函数值的和值与至少识
别对象图像关联的第一 集群中心之间的距离, 将该距离的倒数作为相似度值。
9.如去阿尼要求1所述的系统, 其特征在于, 所述内容权重计算单元, 计算每个关键字
在相似图像中的权重占比的方法包括: 将每个关键字在相似图像中所占的图像区域与相似
图像整个图像区域的比值作为权 重占比。
10.如权利要求9所述的系统, 其特征在于, 所述判定单元, 基于关键字权重结果, 根据
设定的敏感内容数据库, 进行敏感度计算的方法包括: 对每个关键字权重结果与敏感数据
库中存储的模板字权重结果进行比对, 根据比对结果, 得到相似值, 将该相似值作为敏感
度。权 利 要 求 书 2/2 页
3
CN 114943285 A
3
专利 互联网新闻内容数据智能审核系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:57上传分享