说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210811064.4 (22)申请日 2022.07.11 (71)申请人 青岛征信服 务有限公司 地址 266300 山东省青岛市崂山区海尔路 176号中船重 工科技大厦2号楼10层 (72)发明人 张长峰 于鹏辉 郑云龙  (74)专利代理 机构 山东重诺律师事务所 372 28 专利代理师 任启明 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/23(2019.01) (54)发明名称 一种政务数据接入 治理系统 (57)摘要 本发明公开了一种政务数据接入治理系统, 包括数据源整合模块, 所述数据源整合模块内设 置有政务数据元数据管理模块, 所述政务数据元 数据管理模块内设有数据去重模块、 数据要素补 齐模块、 数据关联模块、 数据格式统一模块、 数据 映射模块、 数据字典转义模块、 无效数据删除模 块和数据脱敏模块, 所述数据来源整合模块上连 接有数据资源池模块。 本申请能很好的通过对企 业工商注册数据中符合条件的重复数据全部删 除, 避免其严重影响了数据的使用, 通过企业工 商注册数据去重组件实现了企业工商注册数据 的高效治理, 从而有助于形成高质量的数据资源 池。 权利要求书1页 说明书4页 附图3页 CN 115129703 A 2022.09.30 CN 115129703 A 1.一种政务数据接入治理系统, 包括数据源整合模块, 其特征在于: 所述数据源整合模 块内设置有政务数据元数据管理模块, 所述政务数据元数据管理模块内设有数据去重模 块、 数据要 素补齐模块、 数据关联模块、 数据格式统一模块、 数据映射模块、 数据字典转义模 块、 无效数据删除模块和数据脱敏模块, 所述数据来源整合模块上 连接有数据资源 池模块。 2.根据权利要求1所述的一种 政务数据接入治理系统, 其特征在于: 所述数据去重模块 内设置有企业工商注册数据去重模块内设有企业名称重复数据模块、 工商内部编 码重复数 据模块、 工商注册号重复数据模块和统一社会信用码重复数据模块, 所述企业名称重复数 据模块、 工商内部编码重复数据模块、 工商注册号重复数据模块和统一社会信用码重复数 据模块共同连接有 待去重数据集模块, 所述待 去重数据集模块连接有数据集去重模块。 3.根据权利要求2所述的一种 政务数据接入治理系统, 其特征在于: 所述待去重数据集 模块的去重步骤 包括: S1、 循环待去重数据集然后根据去重逻辑(状态一致、 四项中两项重复)生成六种case 情况; S2、 采用HashSet的数据结构存储存储重复情况, 这样既能利用HashSet不可重复的特 点减少集 合数据量, 又能利用HashSet快速查找的特点快速判断重复; S3、 循环待去重数据 集判断重复case是否在HashSet中, 如果在则判断除企业状态外的 另两项指标是否为null, 若都不为null ,则将case中的指标存储在删除集合 (delCollection)中 , 同时保存当前待去重数据集的下标到插入数据集合 (insertCollection), 同时继续循环, 忽略后续case判断, 若所有的case判断都不符合则将 六种case存 储到HashSet中; S4、 待去重数据集循环结束后循环删除集合(delCollection)采用多线程的方式将企 业注册数据中符合条件的重复数据全部删除, 然后循环插入数据集合(insertCollection) 根据集合中的下 标从待去重数据集获取 数据, 最后将此 数据插入到企业工商注 册数据中。 4.根据权利要求2所述的一种 政务数据接入治理系统, 其特征在于: 所述企业工商注册 数据包括工商内部编码、 统一社会信用代码、 企业名称、 工商注 册号、 企业状态。 5.根据权利要求1所述的一种 政务数据接入治理系统, 其特征在于: 所述数据源包括两 大类: 第一种、 各级政府部门因履职过程产生的数据资源; 第二种、 包含服务过程中采集的 外部数据资源。 6.根据权利要求3所述的一种政务数据接入治理系统, 其特征在于: 所述六种c ase情况 包括: case1=工商内部编码、 统一社会信用码、 企业状态; case2=工商内部编码、 企业名 称、 企业状态; case3=工商内部编码、 工商注册号、 企业状态; case4=统一社会信用码、 企 业名称、 企业状态; case5=统一社会信用码、 工商注册号、 企业状态; case6=企业名称、 工 商注册号、 企业状态。权 利 要 求 书 1/1 页 2 CN 115129703 A 2一种政务数据 接入治理系统 技术领域 [0001]本发明涉及数据接入治理技 术领域, 尤其涉及一种政务数据接入治理系统。 背景技术 [0002]政务数据是在政府行政过程中产生, 涉及的部门众多, 涵盖经济社会的方方面面, 关联着自然人和法人。 政务数据具有来源广泛、 格式不统一、 数据质量不高的特点。 现有的 ETL解决方案着力于数据的处 理, 面对复杂业 务场景下的数据治理显得力不从心。 [0003]政务数据治理是数据治理在政务行业的应用, 解决政务数据归集、 数据资源建设、 数据共享和数据应用等各种问题, 以及保 障数据安全。 数据治理概念兴起于企业数据治理 部门, 国内外权威机构分别定义了数据治理的范畴。 DAMA数据管理知识体系中提出数据治 理的定义是在管理数据资产过程中行使权利和管控, 包括计划、 监控和实施; 国内数据管 理 成熟度模 型(DCMM)提出数据治理是对 数据资产管理行使权利和控制的活动, 指导其他数据 管理活动如何执行。 政务数据治理是从根本上建立数据标准和规范, 统一数据资产管理, 统 一数据调度, 保证数据可控、 可用、 可信的工程。 同时, 以数据运营的方式, 从政务数据和社 会数据中提升社会效益和经济效益, 为数字政府和智慧城市的建设提供可信、 可用的数据 支撑。 政务数据治理伴随着政务信息化、 数字化建设浪潮, 逐步演变成数字政府和新型智慧 城市建设的必要和必需的手段, 并为政务 服务、 城市治理、 经济发展等领域 提供数据。 [0004]政务信息数据来源广泛, 且信息较为琐碎, 如何能实现政务数据统一接入、 统一治 理, 以便实现数据精细化管理, 形成可用、 好用、 易用的数据资源, 尤其数据在采集时, 企业 工商信息数据经常重复采集上传, 导致其重复率较高, 如何有效去除重复的企业工商信息 数据也是本领域的难点问题, 所以需要 进行改进。 发明内容 [0005]本发明的目的是为了解决如何能实现政务数据统一接入、 统一治理, 以便实现数 据精细化管 理, 形成可用、 好用、 易用的数据资源, 实现数据效能的最大化的问题, 而提出的 一种政务数据接入治理系统。 [0006]为了实现上述目的, 本发明采用了如下技 术方案: [0007]一种政务数据接入治理系统, 包括数据源整合模块, 所述数据源整合模块内设置 有政务数据元数据管理模块, 所述政务数据元数据管理模块内设有数据去重模块、 数据要 素补齐模块、 数据关联模块、 数据格式统一模块、 数据映射模块、 数据字典转义模块、 无效数 据删除模块和数据脱敏模块, 所述数据来源整合模块上 连接有数据资源 池模块。 [0008]优选地, 为了能有效去除所采集数据中重复的企业工商注册数据, 有助于缩减信 息量, 提升数据治理效果, 所述数据去重模块内设置有企业工商注册数据去重模块内设有 企业名称重复数据模块、 工商内部编码重复数据模块、 工商注册号重复数据模块和统一社 会信用码重复数据模块, 所述 企业名称重复数据模块、 工商内部编码重复数据模块、 工商注 册号重复数据模块和统一社会信用码重复数据模块共同连接有待去重数据集模块, 所述待说 明 书 1/4 页 3 CN 115129703 A 3

PDF文档 专利 一种政务数据接入治理系统

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种政务数据接入治理系统 第 1 页 专利 一种政务数据接入治理系统 第 2 页 专利 一种政务数据接入治理系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-07 12:43:18上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。