说明:收录90万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211122878.3 (22)申请日 2022.09.15 (71)申请人 厦门市美亚柏科信息股份有限公司 地址 361000 福建省厦门市思明区软件园 二期观日路12号102-402单 元 (72)发明人 温平 朱海勇 周成祖 邓立峰 (74)专利代理 机构 厦门福贝知识产权代理事务 所(普通合伙) 35235 专利代理师 郭涵炜 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/2455(2019.01) G06F 16/2458(2019.01) (54)发明名称 一种基于分布式内存数据库的数据抽样方 法和装置 (57)摘要 本申请涉及一种基于分布式内存数据库的 数据抽样方法, 其将分布式内存 数据库当做过滤 容器, 数据过滤规则为过滤条件。 过滤容器属性 包括分布式集群服务器、 数据缓存大小、 数据缓 存策略。 过滤条件包括基于规则按MD5算法计算 出128位HASH值、 基于HASH值构建数据存储内存 数据库组织规则, 从而在大数据海量数据面前实 现快速并准确的根据自定义规则抽取数据。 其能 够满足PB设置各大量级别的数据抽样效果, 并能 够满足在业务使用过程中不影响业务的效率短 时间内得到需要的抽样结果数据效果。 在各种行 业中经过海量数据的抽样分析能够快速掌握态 势, 并提前做出各种预警和判断, 能够为生活生 产, 事情发展, 灾难预测等各个领域实战中具有 重大意义。 权利要求书2页 说明书7页 附图4页 CN 115470212 A 2022.12.13 CN 115470212 A 1.一种基于分布式 内存数据库的数据抽样方法, 其特 征在于: 所述方法包括以下步骤: S1: 基于流式处 理的程序等待数据到 达时基于预设规则计算出当前 数据的HASH值; S2: 构建存储过滤容器: 将分布式内存数据库按照系统可用资源池80%资源部署数据 库集群, 并划分多个子节点; S3: 将当前 数据的HASH值写入到分布式 内存数据库中; S4: 当下一条数据到达时, 基于预设规则计算出此条数据的HASH值, 根据此条数据的 HASH值去分布式内存 数据库中进 行匹配, 若分布式内存 数据库中存在相同的HASH值则过滤 此条数据, 若分布式内存数据库不存在相同的HAS H值则将此条数据存储到 分布式内存数据 库中。 2.根据权利要求1所述的一种基于分布式内存数据库的数据抽 样方法, 其特征在于: 所 述S1具体包括: S11: 基于流式处理的程序等待数据到达时计算当条记录的文件大小, 将大于10240KB 和小于等于10240KB的数据进行区分; S12: 对大于10240KB数据进行截取文件前1024KB和后1024KB数据进行MD5计算, 将小于 等于10240KB数据转化为byte类型后进行全数据反序计算, 然后 再进行MD5全数据计算, 从 而计算出当前 数据的HASH值。 3.根据权利要求1所述的一种基于分布式内存数据库的数据抽 样方法, 其特征在于: 在 所述S3中, 将当前 数据的HASH值写入到分布式 内存数据库后并赋值缓存失效时间。 4.根据权利要求1所述的一种基于分布式内存数据库的数据抽 样方法, 其特征在于: 在 所述S4中, 若分布式内存 数据库不存在相同的HAS H值则将此条数据存储到分布式内存 数据 库中, 并且把此 条数据加载到内存中赋值上缓存失效时间。 5.一种基于分布式 内存数据库的数据抽样装置, 其特 征在于: 所述装置包括: HASH值计算模块, 配置用于基于流式处理的程序等待数据到达时基于预设规则计算出 当前数据的HASH值; 存储过滤容器构建模块, 配置用于将分布式内存数据库按照系统可用资源池80%资源 部署数据库集群, 并划分多个子节点; HASH值存 储模块, 配置用于将当前 数据的HASH值写入到分布式 内存数据库中; 数据过滤模块, 当下一条数据到达时, 基于预设规则计算出此条数据的HASH值, 根据 此 条数据的HAS H值去分布式内存 数据库中进 行匹配, 若分布式内存数据库中存在相同的HAS H 值则过滤此条数据, 若分布式内存数据库不存在相同的HAS H值则将此条数据存储到 分布式 内存数据库中。 6.根据权利要求1所述的一种基于分布式内存数据库的数据抽 样方法, 其特征在于: 所 述基于流式处 理的程序等待数据到 达时基于预设规则计算出当前 数据的HASH值具体包括: 基于流式处理的程序等待数据到达时计算当条记录的文件大小, 将大于10240KB和小 于等于10240KB的数据进行区分; 对大于10240KB数据进行截取文件前1024KB和后1024KB数据进行MD5计算, 将小于等于 10240KB数据转化为byte类型后进行全数据反序计算, 然后再进行MD5全数据计算, 从而计 算出当前 数据的HASH值。 7.根据权利要求1所述的一种基于分布式内存数据库的数据抽 样方法, 其特征在于: 所权 利 要 求 书 1/2 页 2 CN 115470212 A 2述HASH值存 储模块将当前 数据的HASH值写入到分布式 内存数据库后并赋值缓存失效时间。 8.根据权利要求1所述的一种基于分布式内存数据库的数据抽 样方法, 其特征在于: 在 所述数据过滤模块中, 若分布式内存 数据库不存在相同的HAS H值则将此条数据存储到 分布 式内存数据库中, 并且把此 条数据加载到内存中赋值上缓存失效时间。 9.一种电子设备, 包括: 一个或多个处 理器; 存储装置, 用于存 储一个或多个程序; 当所述一个或多个程序被所述一个或多个处理器执行, 使得所述一个或多个处理器实 现如权利要求1 ‑4中任一所述的方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理 器执行时实现如权利要求1 ‑4中任一所述的方法。权 利 要 求 书 2/2 页 3 CN 115470212 A 3
专利 一种基于分布式内存数据库的数据抽样方法和装置
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:13
上传分享
举报
下载
原文档
(584.6 KB)
分享
友情链接
GB-T 41303-2022 塔式太阳能热发电站吸热器技术要求.pdf
美创 多云环境下的数据安全协同保护-王彦翔.pdf
GB-T 4423-2020 铜及铜合金拉制棒.pdf
GB-T 42809-2023 自动化集装箱码头操作系统技术要求.pdf
Cisco防火墙安全配置基线.doc
T-CI 073—2023 绿色低碳社区建设及评价技术指南.pdf
GB-T 21063.4-2007 政务信息资源目录体系 第4部分:政务信息资源分类.pdf
GB-T 30303-2013 工业用甲胺和甲胺水溶液试验方法.pdf
DB51-T 2621-2019 机关事务信息化建设指南 四川省.pdf
WS-T 796-2022 围手术期患者血液管理指南.pdf
GM-T 0035.4-2014 射频识别系统密码应用技术要求 第4部分:电子标签与读写器通信密码应用技术要求.pdf
GB-T 19001-2016 质量管理体系 要求.pdf
GB-T 20394-2019 体育用人造草.pdf
GB-T 17657-2022 人造板及饰面人造板理化性能试验方法.pdf
GB-T 38699-2020 村级公共服务中心建设与管理规范.pdf
HS-T 42-2014 海关信息系统运维服务保障等级定级规范.pdf
GB-T 26358-2022 旅游度假区等级划分.pdf
安华金和 数据安全治理白皮书5.0 行业数据安全治理实践集.pdf
T-CIECCPA 035—2023 浮选磷尾矿基生态修复基质土规范.pdf
GB-T 32686-2016 光敏材料用多官能团丙烯酸酯单体中有机溶剂的测定 顶空进样毛细管气相色谱法.pdf
1
/
14
评价文档
赞助2.5元 点击下载(584.6 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。