说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210823857.8 (22)申请日 2022.07.14 (71)申请人 广东嘉贸通科技有限公司 地址 510000 广东省广州市海珠区滨江西 路26-28号602房北侧 (72)发明人 钟振帆  (74)专利代理 机构 广州越华专利代理事务所 (普通合伙) 44523 专利代理师 陈岑 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/23(2019.01) G06F 16/27(2019.01) (54)发明名称 基于海关业 务大数据的实时数据采集方法 (57)摘要 本发明公开了一种基于海关业务大数据的 实时数据采集方法, 涉及海关大数据分析处理技 术领域, 其包括: 接收和获取用户配置的采集任 务; 根据采集任务中的OGG采集对象, 下 发配置到 OGG采集程序; 创建OGG ‑KafKa专用T opic, 并配置 相关Topic备份策略, 将已建好的专用T opic名称 写入到OGG的配置文件; 以及, 使用KafKa  sink‑ connector组件构建数据回写任 务, 将OGG ‑Topic 中采集后的数据回写到Hive。 本申请具有缓解数 据时效性与计算效率相矛盾的问题, 兼顾优点的 效果。 权利要求书1页 说明书4页 附图1页 CN 115098486 A 2022.09.23 CN 115098486 A 1.一种基于海关业 务大数据的实时数据采集方法, 其特 征在于, 包括以下步骤: 接收和获取用户配置的采集任务; 根据采集任务中的O GG采集对象, 下发配置 到OGG采集程序; 创建OGG‑KafKa专用Topic, 并配置相关Topic备份策略, 将已建好的专用Topic名称写 入到OGG的配置文件; 以及, 使用KafKa  sink‑connector组件构建数据回写任务, 将OGG ‑Topic中采集后的数据回 写到Hive; 其中, 当使用OGG采集程序的组件采集目标表时, 对数据源端与目标端的OGG  mgr进行 配置extract、  pump进程、 replicate进程、 define文件并执行defgen命令, 并将生成的prm 文件上传到目标端; 以及, 按照源mgr—目标端mgr—源extract—源pump—目标端replicate的顺序启动全部进 程, 完成O GG与KafKa 中OGG‑Topic的数据抽取任务 通道的搭建。 2.根据权利要求1所述的基于海关业务大数据的实时数据采集方法, 其特征在于: 从 KafKa的OGG ‑Topic中进行批量数据消费后, 对该批数据按照时间序列进行排序和数据清 洗。 3.根据权利要求2所述的基于海关业务大数据的实时数据采集方法, 其特征在于: 所述 对该批数据按照时间序列进行排序和数据清洗, 其包括: 若该批数据中相同主键最后的事务操作为delete操作, 则直接去除该主键相关的入库 记录, 并分发到delete操作队列; 若对相同主键最后的事务操作 为insert操作, 则只保留最后一条数据入库记录进行插 入操作, 并分发到i nsert操作队列; 若对相同主键进行连续多次的update事务操作, 则只保留最后一次的update操作记 录, 并分发到update操作队列; 三个队列获取到 Hive的增、 删、 改的数据操作记录分别以三张相应的临时表保存。 4.根据权利要求3所述的基于海关业务大数据的实时数据采集方法, 其特征在于: 所述 对该批数据按照时间序列进行排序和数据清洗, 其包括: 新增数据, 则通过insert  into语 句对数据表进行相应批量的新增。 5.根据权利要求3所述的基于海关业务大数据的实时数据采集方法, 其特征在于: 所述 对该批数据按照时间序列进行排序和数据 清洗, 其包括: 更新操作, 则需获取到更新字段的 唯一主键, 存 入缓存; 根据缓存中的ID去查询数据表里的数据与更新的数据合并, 存入临时表, 并执行merge   into更新到表数据。 6.根据权利要求3所述的基于海关业务大数据的实时数据采集方法, 其特征在于: 所述 对该批数据按照时间序列进行排序和数据清洗, 其包括: 删除操作, 则根据主键来执行 merge into的删除操作。权 利 要 求 书 1/1 页 2 CN 115098486 A 2基于海关业务大数据的实时数据采集方 法 技术领域 [0001]本申请涉及海关大数据分析处理技术领域, 尤其是涉及 一种基于海关业务大数据 的实时数据采集方法。 背景技术 [0002]目前, 海关大数据平台的实时数据采集方案是: 通过使用Spoop进行全量数据抽 取, 将数据源的数据抽取到预先建好的HBase表, 然后使用关系型数据库的实时归档日志数 据以及Oracle  GoldenGate (以下简称OGG) , 将海关前台业务数据库的实时增量数据采集入 Hadoop平台的HBase 数据库。 [0003]上述的实时数据采集方案虽然能实现数据的时效性, 但数据采集进入HBase数据 库, 而非采集落地到Hadoop平台的HDFS文件体系, 带来的后续问题则是: 离线计算的性能受 到影响, 因此本申请提出一种新的方案 。 发明内容 [0004]为了缓解数据时效性与计算效率相矛盾, 兼顾两者, 本申请提供一种基于海关业 务大数据的实时数据采集方法。 [0005]本申请提供一种基于海关业务大数据的实时数据采集方法, 采用如下的技术方 案: 一种基于海关业 务大数据的实时数据采集方法, 包括以下步骤: 接收和获取用户配置的采集任务; 根据采集任务中的O GG采集对象, 下发配置 到OGG采集程序; 创建OGG‑KafKa专用Topic, 并配置相关Topic备份策略, 将已建好的专用Topic名 称写入到O GG的配置文件; 以及, 使用KafKa  sink‑connector组件构建数据回写任务, 将OGG ‑Topic中采集后的数 据回写到 Hive; 其中, 当使用OGG采集程序的组件采集目标表时, 对数据源端与目标端的OGG  mgr 进行配置 extract、  pump进程、 replicate进程、 define文件并执行defgen命令, 并将生成的 prm文件上传到目标端; 以及, 按照源mgr— 目标端mgr—源extr act—源pump— 目标端replicate的顺序启动全 部进程, 完成O GG与KafKa 中OGG‑Topic的数据抽取任务 通道的搭建。 [0006]可选的, 从KafKa的OGG ‑Topic中进行批量数据消费后, 对该批数据按照时间序列 进行排序和数据清洗 。 [0007]可选的, 所述对该批数据按照时间序列进行排序和数据清洗, 其包括: 若该批数据中相同主键最后的事务操作为delete操作, 则直接去除该主键相关的 入库记录, 并分发到delete操作队列; 若对相同主键最后的事务操作为insert操作, 则只保 留最后一条数据 入库记录进说 明 书 1/4 页 3 CN 115098486 A 3

PDF文档 专利 基于海关业务大数据的实时数据采集方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于海关业务大数据的实时数据采集方法 第 1 页 专利 基于海关业务大数据的实时数据采集方法 第 2 页 专利 基于海关业务大数据的实时数据采集方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-07 12:43:17上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。