(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210788130.0
(22)申请日 2022.07.04
(71)申请人 武汉众邦银行股份有限公司
地址 432200 湖北省武汉市黄陂区盘龙城
经济开发区汉口北大道88号汉口北国
际商品交易中心D2区1-2层、 2 2-23层
(72)发明人 汪大磊 李耀 田羽 兰翔 徐浩
彭一凡
(74)专利代理 机构 成都正煜知识产权代理事务
所(普通合伙) 51312
专利代理师 袁宇霞
(51)Int.Cl.
G06F 16/22(2019.01)
G06F 16/23(2019.01)
(54)发明名称
一种JSON数据自动结构化并入库的方法
(57)摘要
本发明涉及数据处理领域, 提供了一种JSON
数据自动结构化并入库的方法。 主旨在于解决如
何将多种数据源的不同JSON数据结构入库的问
题, 只要方案包括判断接入JSON数据源的类型,
根据类型不同采用不同的方法, 获取JSON数据;
数据的预处理, 对数据进行脏数据排查并处理,
得到标准的JSON字 段; 对不同JSON数据源的类 型
获得的JSON进行解析处理, 并约定好数据文件的
格式, 生成标准的数据文件; 对数据结构化处理
进度探查, 生成ok文件; 对生成的数据文件进行
准确性校验, 得到校验后的标准的数据文件; 对
数据文件采用批次处理入库的操作, 完成数据文
件入库。
权利要求书2页 说明书6页 附图1页
CN 115185944 A
2022.10.14
CN 115185944 A
1.一种JSON数据自动结构化并入库的方法, 其特 征在于, 包括以下步骤:
步骤1、 判断接入JSON数据源的类型, 根据类型不同采用不同的方法, 获取JSON数据;
步骤2、 数据的预处 理, 对数据进行脏数据排 查并处, 得到标准的JSON字段;
步骤3: 对不同JSON数据源的类型获得的JSON进行解析处理, 并约定好数据文件的格
式, 生成标准的数据文件;
步骤4: 对步骤3数据结构化处 理进度探查, 生成o k文件;
步骤5: 对步骤3中生成的数据文件进行准确性校验, 得到校验后标准的数据文件;
步骤6: 对数据文件 采用批次处 理入库的操作, 完成数据文件 入库。
2.根据权利要求1所述的一种JSON数据自动结构化并入库的方法, 其特征在于, 步骤1
包括以下步骤:
步骤1.1、 从非结构化数据库获取数据, 使用API接口连接到Elasticsearch中获取数
据, 以天为级别取 数据;
步骤1.2、 从结构化数据库获取数据, 连接到关系型数据库, 用对应的SQL取到以天为级
别的数据;
步骤1.3、 获取流数据, 从KAFKA中获取数据, 建立对应的连接, 通过消费KAFKA的方式获
取到KAFKA中的流数据。
3.根据权利要求1所述的一种JSON数据自动结构化并入库的方法, 其特征在于, 步骤2
包括以下步骤:
步骤2.1、 对步骤1.1获得的数据, 首先判断数据格式是否是正常的JS ON数据格式, 对非
正常JSON格式的数据采用剔除掉的手段, 得到正常的JSON数据;
接着进行数据标准化处理, 对数据中出现的特殊字符 以及空格换行采用替换的手段,
将这些字符替换为空, 得到标准的JSON数据;
步骤2.2、 对步骤1.2获得的数据, 数据是结构化的数据字段, 对数据字段中的特殊字符
采用剔除掉的手段, 得到标准的数据;
数据是JSON字段, 按照2.1的步骤执行, 先判断数据的格式, 对数据进行标准化处理的
手段, 接着再将特殊字段剔除掉, 得到标准的JSON数据。
步骤2.3、 KAFKA是流式数据, 所有的数据都是连续的, 对数据进行依次处理, 将JSON数
据标准化处理, 得到标准的JSON数据。
4.根据权利要求1所述的一种JSON数据自动结构化并入库的方法, 其特征在于, 步骤3
包括以下步骤:
步骤3.1.1: 对于储存在非关系型数据库 Elasticsearch中的数据, 连接到该数据库中,
然后查询 到需要结构化的数据, 为了保证效率, 采用批次查询, 从数据库中, 取得需要结构
化的JSON数据, 然后对 该数据进行结构化的处理, 首先取得JSON数据中的标识 性数据字段,
来用作标识, 确定数据的来源和属 性, 标识性数据字段有且不止一条, 按照业务来确定, 接
着将JSON数据中每个节点的key和value都循环取出来, 保证数据的完备性, 为了效率会使
用多线程的操作;
步骤3.1.2: 对步骤3.1.1获得的数据做标准处理后, 一条JSON数据变成多条以标识字
段为索引, key和valu e值作为属性的多 条数据, 采用要将数据写入到数据文件中, 生 成标准
的数据文件, 更加方便将数据导入到对应的数据库中, 约定好数据文件的格式, 首先, 数据权 利 要 求 书 1/2 页
2
CN 115185944 A
2文件第一行是数据库表的表头字段, 用特定的分割符来区分字段, 采用将一条JSON数据解
析成的多条 数据写入到文件的操作, 生成标准的数据文件。
步骤3.2: 对储存在结构化数据库中的数据, 先确认好字段的类型, 字段是标准的数据
字段, 采用写入到数据文件中的方案, 得到标准的数据文件, 对储存在结构化数据库中的
JSON字段数据, 运用3.1.1中同样的操作, 首先取得JSON数据中的标识性数据字段, 来用作
标识, 确定数据的来源和属性, 标识性数据字段有且不止一条, 按照业务来确定, 接着将
JSON数据中每个节点的key和value都循环取出来, 保证数据的完备性, 根据数据量的大小,
采用线程池的方式对数据进行解析的处理操作, 在对数据处理完成之后, 一条JSON数据变
成多条以标识字段为索引, key和value值作为属性的多条数据, 采用要将数据写入到数据
文件中, 生成标准的数据文件, 更加方便将数据导入到对应的数据库中, 约定好数据文件的
格式, 首先, 数据文件第一行是数据库表的表头字段, 用特定的分割符来区分字段, 采用将
一条JSON数据解析成的多条 数据写入到文件的操作, 生成标准的数据文件;
步骤3.3: 对储存在 KAFKA中的数据, 首先确定好数据所在的消费组, 然后开始消费需要
取得的数据, 和步骤2.1的方式一样, 对 数据进行预处理, 先剔除掉一些垃圾数据和脏数据,
取到数据之后为了数据处理的效率, 也是用多线程的处理方式, 对数据进 行同样的处理, 因
为Kafka中的数据获取的时候是实时消费 的, 所以为了保持和别的数据同步的情况, 会在日
期进行切换 的时间点, 对前一天的数据进行保存, 并将下一天的数据生成到新的数据文件
中, 并生成一个标识文件来确定前一天的数据已经解析完成, 从而才能正常的将前一天的
数据文件加载到对应的数据库表中。
5.根据权利要求1所述的一种JSON数据自动结构化并入库的方法, 其特征在于, 在步骤
3中对JSON数据进行了结构化的处理, 并根据不同的渠道的数据生成了同样标准格式的数
据文件, 因为任务执行的时间无法确定, 采用生成一个名字为ok的空文件的方法, 告知 文件
的结构化处 理操作完成的结果。
6.根据权利要求1所述的一种JSON数据自动结构化并入库的方法, 其特征在于, 步骤5
包括以下步骤:
根据数据文件的格式先校验数据文件的每一行的字段数据量是否和文件格式的字段
数据匹配, 如果不出现不匹配的情况, 利用脚本将原数据文件拷贝, 并删除异常的数据, 生
成新的数据文件并执 行下一步操作。
7.根据权利要求1所述的一种JSON数据自动结构化并入库的方法, 其特征在于, 步骤6
包括以下步骤:
在步骤5中已经对数据文件标准性校验, 确保数据文件的准确性, 接着采用脚本的处理
方案, 将数据文件一次性导入到对应的数据库中, 完成了数据从JSON数据结构化并入库的
操作。权 利 要 求 书 2/2 页
3
CN 115185944 A
3
专利 一种JSON数据自动结构化并入库的方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-07 12:43:20上传分享