专利 数据异构同步系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211017289.9 (22)申请日 2022.08.24 (71)申请人南威软件股份有限公司地址 362018 福建省泉州市丰泽区丰海路南威大厦2号楼 (72)发明人吴志雄　陈泽辉　 (74)专利代理机构福州元创专利商标代理有限公司 35100 专利代理师丘鸿超　蔡学俊 (51)Int.Cl. G06F 16/27(2019.01) G06F 16/28(2019.01) G06F 16/22(2019.01) G06F 16/23(2019.01) G06F 9/54(2006.01) (54)发明名称数据异构同步系统 (57)摘要本发明提出一种数据异构同步系统，包括源端数据库和目标端数据库；对于源端数据库系统数据获取，基于canal开源组件进行， canal伪装成mysql的从库，从而监听到mysql主数据库中的 binlog日志，作为数据同步的源头；采用kafka消息中间件，作为数据缓存、削峰的工具；配置开启 canal监听数据库binlog，将获取后binlog日志信息解析后以Json格式同步写入到kafka消息队列集群中，下一步的数据同步采用集群的方式对 kafka中的数据进行分布式消费，以提高数据同步的效率和稳定性、容错性；消费kafka中的数据同步到一种或多种目标端数据库中。权利要求书2页说明书5页附图1页 CN 115438122 A 2022.12.06 CN 115438122 A 1.一种数据异构同步系统，其特征在于：包括源端数据库和目标端数据库；对于源端数据库系统数据获取，基于canal开源组件进行， canal伪装成mysql的从库，从而监听到mysql 主数据库中的binlog日志，作为数据同步的源头；采用kafka消息中间件，作为数据缓存、削峰的工具；配置开启canal监听数据库binlog，将获取后binlog日志信息解析后以Json格式同步写入到kafka消息队列集群中，下一步的数据同步采用集群的方式对kafka中的数据进行分布式消费，以提高数据同步的效率和稳定性、容错性；消费kafka中的数据同步到一种或多种目标端数据库中。 2.根据权利要求1所述的数据异构同步系统，其特征在于：所述目标端数据库为 elasticsearc h、 redis、 mysql、 pgsql中的一种或多种。 3.根据权利要求1所述的数据异构同步系统，其特征在于：在消费kafka中的数据同步到一种或多种目标端数据库中之后，基于kafka的消息队列数量及消费情况，核对源数据库和目标库中数据量，并针对未成功消费的数据进行数据补偿同步。 4.根据权利要求1所述的数据异构同步系统，其特征在于：其工作过程包括以下步骤：步骤S1：采用canal作为采集源数据的工具，基于主从复制的协议从mysql主节点中获取binlog日志数据， canal模拟mysql的slave节点；步骤S2：配置canal相关信息，包括源数据库信息、需同步源表信息、写入的kafka数据源信息、 kafka主题，并开启canal监听程序，将数据库表变更信息以json格式写入到kafka 中；步骤S3：根据kafka的主题topic，声明一个监听类用于接收相应topic的kafka消息数据；步骤S4：解析kafka消息中的JSON数据；步骤S5：配置同步目标数据库的信息，对应写入的目标数据的类型；步骤S6：根据不同的目标数据库，设配不同数据库的处理和写入或更新程序，用于生成更新语句、更新逻辑，为数据更新做准备；步骤S7：连接配置的目标数据库，构建执行器，将生成更新语句、更新逻辑进行执行，达到目标数据库同步的效果；步骤S8：对同步的数据进行数据对账，以校验源数据和目标数据库的数据量是否一致。 5.根据权利要求4所述的数据异构同步系统，其特征在于：在步骤S2中，若需同时同步多个表，将同一个库中的多个表数据同步到同一个kafka的topic中；并在步骤S4中通过表名进行区分，便于做多表合并时的处理。 6.根据权利要求 4所述的数据异构同步系统，其特征在于：在步骤S4中， JSON数据中包括的信息有： 1）变更类型type，包括：新增、修改和删除； 2）源库、表信息，包括：源表的数据字段类型、长度的修改表结构信息； 3）变更数据集，以k ‑v的形式存储的表数据内容，数据主键，变更前的数据内容。 7.根据权利要求4所述的数据异构同步系统，其特征在于：步骤S5中对每个表配置源表和目标表的映射关系。 8.根据权利要求4所述的数据异构同步系统，其特征在于：步骤S7中基于步骤S6生成的可执行的sql或者请求，在数据批量或密集关系的场景下，将以分批的形式将数据进行归权　利　要　求　书 1/2 页 2 CN 115438122 A 2集，并以固定的频次调用执行器，以避免频繁调用执行器导致的目标数据库并发压力。 9.根据权利要求4所述的数据异构同步系统，其特征在于：在步骤S8中，基于kafka的消息队列数量及消费情况，核对源数据库和目标库中数据量，并针对未成功消费的数据进行数据补偿同步。 10.根据权利要求4所述的数据异构同步系统，其特征在于：所述数据补偿同步以设定的时间频率进行数据校验，如发现数据校验问题，则根据情况判断是否执行补偿机制进行数据修复；若补偿机制无法满足或存在数据缺失问题，则通知进行人工处理。权　利　要　求　书 2/2 页 3 CN 115438122 A 3

专利 数据异构同步系统

专利数据异构同步系统