说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210806345.0 (22)申请日 2022.07.08 (71)申请人 建信金融科技有限责任公司 地址 200120 上海市浦东 新区自由贸易试 验区银城路9 9号12层、 15层 (72)发明人 李超 丁萍 范先爽 吴迪  (74)专利代理 机构 北京润平知识产权代理有限 公司 11283 专利代理师 李红 (51)Int.Cl. G06F 16/11(2019.01) G06F 16/182(2019.01) G06F 16/23(2019.01) G06F 9/455(2006.01) (54)发明名称 P级数据迁移方法及系统 (57)摘要 本申请实施例提供一种P级数据迁移方法及 系统。 该方法包括: 获取需要迁移的HDFS 目录文 件, 并根据所述需要迁移的HDFS目录文件获得扫 描文件; 创建目标集群, 其中, 基于所述扫描文件 在目标集群创建中进行目标文件配置; 根据配置 的目标文件进行所述需要迁移的HDFS目录文件 迁移; 完成所述迁移后, 根据预设规则进行迁移 数据验证, 判断源集群的HDFS目录文件和迁移后 的目标集群中的HDFS目录文件是否一致, 并在判 断一致的情况下输出迁移完成信号。 本发明通过 对源集群和目标集群对应目录下文件数量及大 小对比和Hive对应库中表数量及表内行数比对 来验证数据的一致性, 提高了P级数据的迁移效 率以及准确性。 权利要求书2页 说明书8页 附图2页 CN 115061979 A 2022.09.16 CN 115061979 A 1.一种P级数据迁移方法, 基于Hadoop架构实现, 用于将P级数据从源集群转移到目标 集群中, 其特 征在于, 所述方法包括: 获取需要迁移的HDFS目录文件, 并根据所述需要迁移的HDFS目录文件获得扫描 文件; 创建目标集群, 其中, 基于所述扫描 文件在目标集群创建中进行目标文件配置; 根据配置的目标文件进行 所述需要迁移的HDFS目录文件迁移; 完成所述迁移后, 根据预设规则进行迁移数据验证, 判断源集群的HDFS目录文件和迁 移后的目标集群中的HDFS目录文件是否一 致, 并在判断一 致的情况 下输出迁移完成信号。 2.根据权利要求1所述的方法, 其特 征在于, 所述获取需要迁移的HDFS目录文件, 包括: 采集用户录入的数据迁移需求, 并从数据迁移需求中提取需要迁移的时间范围; 基于所述 时间范围进行源集群文件目录扫描, 将处于所述 时间范围内的数据归为存量 数据, 将所述时间范围以外的数据归为增量数据; 将所述存量数据作为需要迁移的HDFS目录文件。 3.根据权利要求1所述的方法, 其特征在于, 所述根据所述需要迁移的HDFS目录文件获 得扫描文件, 包括: 进行所述需要迁移的HDFS目录文件的递归扫描, 获得对应的扫 描文件; 其中, 所述扫描 文件包括: HDFS文件列表和HDFS目录列表。 4.根据权利要求3所述的方法, 其特征在于, 所述基于所述扫描文件在目标集群创建中 进行目标文件配置, 包括: 在所述目标集群中进行目标目录创建; 以及 在所述目标集群中, 基于源集群的HDFS文件目录权限进行对应的目标集群的权限恢 复。 5.根据权利要求4所述的方法, 其特征在于, 所述在所述目标集群中进行目录创建, 包 括: 根据所述HDFS目录列表在目标集群中进行对应目标目录创建; 其中, 创建的目标目录与所述HDFS目录列表对应一 致。 6.根据权利要求4所述的方法, 其特征在于, 所述在所述目标集群中, 基于源集群的 HDFS文件目录 权限进行对应的目标集群的权限恢复, 包括: 收集源集群中的HDFS文件列表的用户和对应的权限信息; 基于收集的用户和对应的权限信息, 在目标集群中进行HDFS文件列表的对应用户和对 应的权限信息修改。 7.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 在所述需要迁移的HDFS目录文件迁移过程中, 响应于所述HDFS目录文件最前端目录文 件开始传输的触发信号, 启动日志 记录功能, 实时记录所述迁移过程中的日志信号。 8.根据权利要求1所述的方法, 其特征在于, 所述根据预设规则进行迁移数据验证, 包 括: 进行HDFS目录文件大小及数量验证, 包括: 计算目标集群中的HDFS目录文件的文件大小和文件数量; 判断所述需要迁移的HDFS目录文件 的文件大小和文件数量与所述目标集群中的HDFS权 利 要 求 书 1/2 页 2 CN 115061979 A 2目录文件的文件大小和文件数量是否匹配。 9.根据权利要求8所述的方法, 其特征在于, 所述根据预设规则进行迁移数据验证, 还 包括: 进行HDFS目录文件的MD5值验证, 包括: 根据所述扫 描文件的HDFS目录文件列表, 计算对应的HDFS目录文件的MD5值, 作为源集 群的HDFS目录文件的MD5值; 根据迁移后的目标集群中的目录文件列表, 计算对应的HDFS目录文件 的MD5值作为目 标集群的HDFS目录文件的MD5值; 判断所述源集群 的HDFS目录文件的MD5值与所述目标集群的HDFS目录文件的MD5值是 否一致。 10.根据权利要求9所述的方法, 其特征在于, 所述根据预设规则进行迁移数据验证, 还 包括: 进行HIVE数据库验证, 包括: 将目标集群映射 为对应的HIVE数据库表; 根据预设抽检规则进行对应的HIVE数据库表抽查, 判断所述HIVE数据库表的访问性能 以及与源集群的数据一 致性是否符合预期; 其中, 所述预设抽检规则至少包括: 根据预设日期抽检和根据数据重要程度抽检。 11.一种P级数据迁移系统, 其特 征在于, 所述系统包括: 采集单元, 用于获取需要迁移的HDFS目录文件; 处理单元, 用于: 根据所述需要迁移的HDFS目录文件获得扫描 文件; 创建目标集群, 其中, 基于所述扫描 文件在目标集群创建中进行目标文件配置; 迁移单元, 用于根据配置的目标文件进行 所述需要迁移的HDFS目录文件迁移; 验证单元, 用于在完成所述迁移后, 根据预设规则进行迁移数据验证, 判断源集群的 HDFS目录文件和迁移后的目标集群中的HDFS目录文件是否一 致; 输出单元, 用于在所述验证单元判断源集群的HDFS目录文件和迁移后的目标集群 中的 HDFS目录文件一 致的情况 下输出迁移完成信号。 12.根据权利要求11所述的系统, 其特征在于, 所述获取需要迁移的HDFS目录文件, 包 括: 在所述需要迁移的HDFS目录文件迁移过程中, 响应于所述HDFS目录文件最前端目录文 件开始传输的触发信号, 启动日志 记录功能; 所述系统还 包括: 日志单元, 用于实时记录所述迁移过程中的日志信号。 13.一种机器可读存储介质, 该机器可读存储介质上存储有指令, 其特征在于, 该指令 在被处理器执行时使得所述处理器被配置成执行权利要求1至10中任一项所述的P级数据 迁移方法。 14.一种计算机程序产品, 包括计算机程序, 其特征在于, 所述计算机程序在被处理器 执行时实现权利要求1至10中任一项所述的P级数据迁移方法。权 利 要 求 书 2/2 页 3 CN 115061979 A 3

PDF文档 专利 P级数据迁移方法及系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 P级数据迁移方法及系统 第 1 页 专利 P级数据迁移方法及系统 第 2 页 专利 P级数据迁移方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-07 12:43:18上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。