(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210806345.0
(22)申请日 2022.07.08
(71)申请人 建信金融科技有限责任公司
地址 200120 上海市浦东 新区自由贸易试
验区银城路9 9号12层、 15层
(72)发明人 李超 丁萍 范先爽 吴迪
(74)专利代理 机构 北京润平知识产权代理有限
公司 11283
专利代理师 李红
(51)Int.Cl.
G06F 16/11(2019.01)
G06F 16/182(2019.01)
G06F 16/23(2019.01)
G06F 9/455(2006.01)
(54)发明名称
P级数据迁移方法及系统
(57)摘要
本申请实施例提供一种P级数据迁移方法及
系统。 该方法包括: 获取需要迁移的HDFS 目录文
件, 并根据所述需要迁移的HDFS目录文件获得扫
描文件; 创建目标集群, 其中, 基于所述扫描文件
在目标集群创建中进行目标文件配置; 根据配置
的目标文件进行所述需要迁移的HDFS目录文件
迁移; 完成所述迁移后, 根据预设规则进行迁移
数据验证, 判断源集群的HDFS目录文件和迁移后
的目标集群中的HDFS目录文件是否一致, 并在判
断一致的情况下输出迁移完成信号。 本发明通过
对源集群和目标集群对应目录下文件数量及大
小对比和Hive对应库中表数量及表内行数比对
来验证数据的一致性, 提高了P级数据的迁移效
率以及准确性。
权利要求书2页 说明书8页 附图2页
CN 115061979 A
2022.09.16
CN 115061979 A
1.一种P级数据迁移方法, 基于Hadoop架构实现, 用于将P级数据从源集群转移到目标
集群中, 其特 征在于, 所述方法包括:
获取需要迁移的HDFS目录文件, 并根据所述需要迁移的HDFS目录文件获得扫描 文件;
创建目标集群, 其中, 基于所述扫描 文件在目标集群创建中进行目标文件配置;
根据配置的目标文件进行 所述需要迁移的HDFS目录文件迁移;
完成所述迁移后, 根据预设规则进行迁移数据验证, 判断源集群的HDFS目录文件和迁
移后的目标集群中的HDFS目录文件是否一 致, 并在判断一 致的情况 下输出迁移完成信号。
2.根据权利要求1所述的方法, 其特 征在于, 所述获取需要迁移的HDFS目录文件, 包括:
采集用户录入的数据迁移需求, 并从数据迁移需求中提取需要迁移的时间范围;
基于所述 时间范围进行源集群文件目录扫描, 将处于所述 时间范围内的数据归为存量
数据, 将所述时间范围以外的数据归为增量数据;
将所述存量数据作为需要迁移的HDFS目录文件。
3.根据权利要求1所述的方法, 其特征在于, 所述根据所述需要迁移的HDFS目录文件获
得扫描文件, 包括:
进行所述需要迁移的HDFS目录文件的递归扫描, 获得对应的扫 描文件; 其中, 所述扫描
文件包括:
HDFS文件列表和HDFS目录列表。
4.根据权利要求3所述的方法, 其特征在于, 所述基于所述扫描文件在目标集群创建中
进行目标文件配置, 包括:
在所述目标集群中进行目标目录创建; 以及
在所述目标集群中, 基于源集群的HDFS文件目录权限进行对应的目标集群的权限恢
复。
5.根据权利要求4所述的方法, 其特征在于, 所述在所述目标集群中进行目录创建, 包
括:
根据所述HDFS目录列表在目标集群中进行对应目标目录创建; 其中,
创建的目标目录与所述HDFS目录列表对应一 致。
6.根据权利要求4所述的方法, 其特征在于, 所述在所述目标集群中, 基于源集群的
HDFS文件目录 权限进行对应的目标集群的权限恢复, 包括:
收集源集群中的HDFS文件列表的用户和对应的权限信息;
基于收集的用户和对应的权限信息, 在目标集群中进行HDFS文件列表的对应用户和对
应的权限信息修改。
7.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括:
在所述需要迁移的HDFS目录文件迁移过程中, 响应于所述HDFS目录文件最前端目录文
件开始传输的触发信号, 启动日志 记录功能, 实时记录所述迁移过程中的日志信号。
8.根据权利要求1所述的方法, 其特征在于, 所述根据预设规则进行迁移数据验证, 包
括:
进行HDFS目录文件大小及数量验证, 包括:
计算目标集群中的HDFS目录文件的文件大小和文件数量;
判断所述需要迁移的HDFS目录文件 的文件大小和文件数量与所述目标集群中的HDFS权 利 要 求 书 1/2 页
2
CN 115061979 A
2目录文件的文件大小和文件数量是否匹配。
9.根据权利要求8所述的方法, 其特征在于, 所述根据预设规则进行迁移数据验证, 还
包括:
进行HDFS目录文件的MD5值验证, 包括:
根据所述扫 描文件的HDFS目录文件列表, 计算对应的HDFS目录文件的MD5值, 作为源集
群的HDFS目录文件的MD5值;
根据迁移后的目标集群中的目录文件列表, 计算对应的HDFS目录文件 的MD5值作为目
标集群的HDFS目录文件的MD5值;
判断所述源集群 的HDFS目录文件的MD5值与所述目标集群的HDFS目录文件的MD5值是
否一致。
10.根据权利要求9所述的方法, 其特征在于, 所述根据预设规则进行迁移数据验证, 还
包括:
进行HIVE数据库验证, 包括:
将目标集群映射 为对应的HIVE数据库表;
根据预设抽检规则进行对应的HIVE数据库表抽查, 判断所述HIVE数据库表的访问性能
以及与源集群的数据一 致性是否符合预期; 其中,
所述预设抽检规则至少包括:
根据预设日期抽检和根据数据重要程度抽检。
11.一种P级数据迁移系统, 其特 征在于, 所述系统包括:
采集单元, 用于获取需要迁移的HDFS目录文件;
处理单元, 用于:
根据所述需要迁移的HDFS目录文件获得扫描 文件;
创建目标集群, 其中, 基于所述扫描 文件在目标集群创建中进行目标文件配置;
迁移单元, 用于根据配置的目标文件进行 所述需要迁移的HDFS目录文件迁移;
验证单元, 用于在完成所述迁移后, 根据预设规则进行迁移数据验证, 判断源集群的
HDFS目录文件和迁移后的目标集群中的HDFS目录文件是否一 致;
输出单元, 用于在所述验证单元判断源集群的HDFS目录文件和迁移后的目标集群 中的
HDFS目录文件一 致的情况 下输出迁移完成信号。
12.根据权利要求11所述的系统, 其特征在于, 所述获取需要迁移的HDFS目录文件, 包
括:
在所述需要迁移的HDFS目录文件迁移过程中, 响应于所述HDFS目录文件最前端目录文
件开始传输的触发信号, 启动日志 记录功能;
所述系统还 包括:
日志单元, 用于实时记录所述迁移过程中的日志信号。
13.一种机器可读存储介质, 该机器可读存储介质上存储有指令, 其特征在于, 该指令
在被处理器执行时使得所述处理器被配置成执行权利要求1至10中任一项所述的P级数据
迁移方法。
14.一种计算机程序产品, 包括计算机程序, 其特征在于, 所述计算机程序在被处理器
执行时实现权利要求1至10中任一项所述的P级数据迁移方法。权 利 要 求 书 2/2 页
3
CN 115061979 A
3
专利 P级数据迁移方法及系统
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-07 12:43:18上传分享