说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210547921.4 (22)申请日 2022.05.20 (71)申请人 深圳市创意智慧港科技有限责任公 司 地址 518000 广东省深圳市福田区莲 花街 道景华社区商报路2号新媒体大厦9层 整层 (72)发明人 郑创伟 符捷雯 陈义飞 金勇  谢志成 王泳 陈少彬 刑谷涛  罗佩珊  (74)专利代理 机构 深圳运赢知识产权代理事务 所(普通合伙) 44771 专利代理师 刘雯 (51)Int.Cl. G06K 9/62(2022.01)G06V 20/62(2022.01) G06V 30/148(2022.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06V 10/74(2022.01) (54)发明名称 互联网新闻 内容数据智能审核系统 (57)摘要 本发明涉及内容审核技术领域, 具体涉及互 联网新闻内容数据智能审核系统。 所述系统包 括: 分割单元, 配置用于将待审核的新闻内容数 据首先进行第一次语义分析, 以确立待审核的新 闻内容数据中的每个包含独立语义的段落, 进行 段落划分, 然后按照段落划分的结果进行分割, 得到多个分割内容; 关键字提取单元, 配置用于 对每个分割内容进行第二次语义 分析, 确立每个 分割内容的关键字。 本发明通过将待审核的新闻 内容进行语义分段, 然后转换为图像进行相似度 分析, 找到待审核新闻内容的关键字, 对这些关 键字进行敏感度分析, 以实现新闻内容数据审核 的智能化, 具有准确率高和效率高的优点。 权利要求书2页 说明书7页 附图2页 CN 114943285 A 2022.08.26 CN 114943285 A 1.互联网新闻内容数据智能审核系统, 其特征在于, 所述系统包括: 分割单元, 配置用 于将待审核的新闻内容数据首先进行第一次语义分析, 以确立待审核的新闻内容数据中的 每个包含独立语义的段落, 进 行段落划分, 然后按照段落划分的结果进 行分割, 得到多个分 割内容; 关键字提取单元, 配置用于对每个分割内容进 行第二次语义分析, 确立每个分割内 容的关键字; 图像检索单元, 配置用于基于确 立的关键字, 在因特网和/或数据库中检索包 含该关键字的至少 3幅图像, 作为相似图像; 图像相似度判定单元, 配置用于将分割内容转 换为对应的识别对 象图像, 将识别对 象图像分别与每一幅相似图像进行相似度分析, 将得 到的相似度进 行加和, 得到第一相似度, 再将相似图像彼此之 间进行相似度分析, 将得到的 相似度进 行加和, 得到第二相似度, 若第一相似度超过设定的第一阈值, 以及第二相似度超 过设定的第二阈值, 则保留相似图像; 内容权重计算单元, 配置用于对保留的相似图像中每 一幅相似图像进行基于关键字的权重计算, 计算每个关键字在相似图像中的权重占比, 再 结合每个关键字和权重占比, 进行归一化关键字计算, 得到每个分割内容的关键字权重结 果; 判定单元, 配置用于基于关键字权重结果, 根据设定的敏感内容数据库, 进行敏感度计 算, 根据计算出的敏感度与预设的判定区间进行比较, 以判断审核是否通过。 2.如权利要求1所述的系统, 其特征在于, 所述分割单元, 将待审核的新闻内容数据首 先进行第一次语义分析, 以确立待审核的新闻内容数据中的每个包含独立语义的段落的方 法包括: 将待审核的新闻内容数据按照设定的分割区间设定的数值, 进 行第一次 随机分割, 得到多个随机分割 段, 在每一次分割时, 从随机分割区间中随机选取一个数值作为 随机分 割值进行分割; 所述随机分割 区间为: ; 对所述随机分割段分别进行词频统计计 算, 并计算所述随机 分割段中词频最大的N个共同词的概率密度; 基于所述随机 分割值的平 均值进行滑动, 通过改变随机分割值, 再计分别计算所述共同词的概率密度, 取所述概率密 度最大时, 确立 新闻内容数据中的每 个包含独立语义的段落。 3.如权利要求2所述的系统, 其特征在于, 所述共同词的概率密度的计算使用如下公 式: ; 其中, 为词频, 为每个随机分割段内的词的数量, 为调整系数, 取值范围为: 1~1.5, 为概率函数, ; 为自 变量, 其取值 等于进行随机分割的次数。 4.如权利要求3所述的系统, 其特征在于, 所述关键字提取单元对每个分割内容进行第 二次语义分析, 确立每个分割内容的关键字的方法包括: 对分割内容进 行单词分割、 去除标 点符号和数字; 统计每个单词在分割内容合中的频率, 选取频率大于 设定值的单词, 构成基 本单词集合; 对分割内容合进 行容错粗糙集的相关计算, 得到模糊隶属矩阵; 根据基本单词 集合, 过滤单词, 得到过滤后的分割内容合; 对每个过滤后的分割内容建立无向有权图, 并 根据迭代公式计算候选 关键字得分; 选择分割内容中关键字得分超过设定阈值的单词 作为 关键字。 5.如权利要求1所述的系统, 其特征在于, 所述图像相似度判定单元包括: 转换单元, 配 置用于将分割内容转换为对应的识别对 象图像; 第一相似度分析单元, 配置用于将识别对 象图像分别与每一幅相似图像进行相似度分析, 将得到的相似度进行加和, 得到第一相似权 利 要 求 书 1/2 页 2 CN 114943285 A 2度; 第二相似度分析单元, 配置用于将相似图像彼此之 间进行相似度分析, 将得到的相似度 进行加和, 得到第二相似度; 判定单元, 配置用于判断当第一相似度超过设定的第一阈值, 以及第二相似度超过设定的第二阈值, 则保留相似图像, 反 之, 则丢弃相似图像。 6.如权利要求5所述的系统, 其特征在于, 所述转换单元, 将分割内容转换为对应的识 别对象图像的方法包括: 将分割内容内的每个单词用向量进行表示, 然后将所有的向量共 同组成一个向量矩阵, 根据该向量矩阵, 生成图像的数字表达, 然后基于图像的数字表达生 成识别对象图像。 7.如权利要求6所述的系统, 其特征在于, 所述第 一相似度分析单元将识别对象图像分 别与每一幅相似图像进行相似度分析的方法包括: 基于图像散列函数生成识别对象图像与 相似图像相关联的大散列值, 所述大散列值具有第一维数; 基于所述大散列值和局部敏感 图像散列函数生成小散列值, 所述小散列值具有第二维数, 所述第二维数小于所述第一维 数; 计算所述小散列值的和 值与至少识别对 象图像关联的第一集群中心之间的距离, 将该 距离的倒数作为相似度值。 8.如权利要求7所述的系统, 其特征在于, 所述第二相似度分析单元, 将相似图像彼此 之间进行相似度分析的方法包括: 基于图像单向陷门函数函数生成相似图像彼此之 间相关 联的大单向陷门函数值, 所述大单向陷门函数值具有第一维数; 基于所述大单向陷门函数 值和局部敏感图像单向陷门函数函数生成小 单向陷门函数值, 所述小 单向陷门函数值具有 第二维数, 所述第二维数小于所述第一维数; 计算所述小单向陷门函数值的和值与至少识 别对象图像关联的第一 集群中心之间的距离, 将该距离的倒数作为相似度值。 9.如去阿尼要求1所述的系统, 其特征在于, 所述内容权重计算单元, 计算每个关键字 在相似图像中的权重占比的方法包括: 将每个关键字在相似图像中所占的图像区域与相似 图像整个图像区域的比值作为权 重占比。 10.如权利要求9所述的系统, 其特征在于, 所述判定单元, 基于关键字权重结果, 根据 设定的敏感内容数据库, 进行敏感度计算的方法包括: 对每个关键字权重结果与敏感数据 库中存储的模板字权重结果进行比对, 根据比对结果, 得到相似值, 将该相似值作为敏感 度。权 利 要 求 书 2/2 页 3 CN 114943285 A 3

PDF文档 专利 互联网新闻内容数据智能审核系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 互联网新闻内容数据智能审核系统 第 1 页 专利 互联网新闻内容数据智能审核系统 第 2 页 专利 互联网新闻内容数据智能审核系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:32:57上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。