(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210884899.2
(22)申请日 2022.07.26
(65)同一申请的已公布的文献号
申请公布号 CN 114936208 A
(43)申请公布日 2022.08.23
(73)专利权人 广州天维信息技 术股份有限公司
地址 510663 广东省广州市天河区华观路
1934号501房
(72)发明人 丁家奎 魏烈龙 黄健华
(74)专利代理 机构 北京清控智云知识产权代理
事务所 (特殊普通合伙)
11919
专利代理师 马肃 林淡如
(51)Int.Cl.
G06F 16/215(2019.01)G06F 16/23(2019.01)
G06F 16/2458(2019.01)
(56)对比文件
CN 113806434 A,2021.12.17
CN 109885561 A,2019.0 6.14
CN 112783884 A,2021.0 5.11
CN 114417798 A,202 2.04.29
审查员 袁冠群
(54)发明名称
一种基于数据清洗的信息分析系统
(57)摘要
本发明提供了一种基于数据清洗的信息分
析系统, 包括输入模块、 输 出模块、 数据清洗模块
和数据分析模块, 所述输入模块用于输入需要分
析的数据, 所述数据清洗模块对输入的数据进行
清洗, 所述数据分析模块对清洗后的数据进行分
析, 所述输出模块用于输出分析结果, 所述数据
清洗模块包括完整性检测单元、 一致性检测单元
和重复性检测单元, 所述完整性检测单元用于检
测原始数据中是否存在完整性缺陷, 所述一致性
检测单元用于检测原始数据中是否存在错误数
据, 所述重复性检测单元用于检测原始数据中是
否存在重复数据; 本系统能够清洗原始数据中的
不利数据, 提高最终分析 结果的可靠性。
权利要求书2页 说明书6页 附图4页
CN 114936208 B
2022.09.23
CN 114936208 B
1.一种基于数据清洗的信息分析系统, 其特征在于, 包括输入模块、 输出模块、 数据清
洗模块和数据分析模块, 所述输入模块用于输入需要分析 的数据, 所述数据清洗模块对输
入的数据进行清洗, 所述数据分析模块对清洗后的数据进行分析, 所述输出模块用于输出
分析结果;
通过所述输入模块输入的数据称为原始数据, 所述原始数据包括数据项和数据组, 每
个数据组中包 含的数据与数据项一 一对应, 所述数据清洗模块删除不符合要求的数据组;
所述数据清洗模块包括完整性检测单元、 一致性检测单元和重复性检测单元, 所述完
整性检测单元用于检测原始数据中是否存在完整性缺陷, 所述一致性检测单元用于检测原
始数据中是否存在错误数据, 所述重复性检测单元用于检测原始数据中是否存在重复数
据;
所述一致性检测单元内设有特征库、 映射关系库和计算处理组件, 所述特征库内设有
多个特征项, 每个特征项设有对应的特征检测组件, 所述特征检测组件能够检测数据是否
符合对应特征, 所述映射关系库用于记录数据项与特征项的映射关系, 所述计算处理组件
用于处理未处于映射关系库中的数据项, 这些 数据项称为目标 数据项;
所述计算处理组件调用特征检测组件对所有数据组中对应目标数据项的数据进行检
测, 统计得到一个数值
, 表示数据 组中第i个目标数据项的数据符合第j个特征项的特
征的个数, 所述计算处 理组件对相同目标 数据项的
按照下述 步骤进行处 理:
S21、 将所有
中除去m和0的值, 保留剩下的值;
S22、 计算剩余的
的平均值, 记为
;
S23、 获取剩余的
中的一个值, 记为
, 计算该值的正离 散度
:
;
其中, N为特征项的数量, m为数据组的组数;
所述计算 处理组件选择小于阈值的正离散度
并获取对应的特征项, 将该特征项与 对
应目标数据项相关联;
所述一致性检测单元通过具有关联关系或映射关系的特征项对数据组中的数据继续
检测, 将不符合特征 的数据组作为待处理数据组, 所述数据清洗模块将待处理数据组从原
始数据中删除。
2.如权利要求1所述的一种基于数据清洗的信 息分析系统, 其特征在于, 所述完整性检
测单元统计出数据项的个数和每个数据组包含的数据个数, 当所述数据组包含的数据个数
与数据项个数不相同时, 所述完整性检测单元判断该数据组存在完整性缺陷, 并提取出对
应的数据组, 作为待处 理数据组。
3.如权利要求2所述的一种基于数据清洗的信 息分析系统, 其特征在于, 所述重复性检
测单元包括对比组件、 提取组件和缓存组件, 所述缓存组件中用于存放需要提取的数列, 所权 利 要 求 书 1/2 页
2
CN 114936208 B
2述提取组件根据数列从数据组中提取数据, 所述对比组件用于将提取 的数据进行比较, 所
述重复性 检测单元将完全相同的数据组作为待处 理数据组。
4.如权利要求3所述的一种基于数据清洗的信 息分析系统, 其特征在于, 所述原始数据
中还包括分析准则, 所述数据分析模块 根据所述分析准则对清洗后的数据组进行分析。
5.如权利要求4所述的一种基于数据清洗的信 息分析系统, 其特征在于, 所述数据项有
序排列, 最后一个数据项为分隔项, 所述数据组中与分隔项对应的数据为一个标志符, 通过
所述标志符将所有数据分成若干个数据组。权 利 要 求 书 2/2 页
3
CN 114936208 B
3
专利 一种基于数据清洗的信息分析系统
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-07 12:43:10上传分享