说明:收录90万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221071579 9.7 (22)申请日 2022.06.23 (71)申请人 北京市燃气集团有限责任公司 地址 100035 北京市西城区西直门南小街 22号 (72)发明人 王广清 方铁城 刘颖 申彦龙 陈宇翀 周树杰 李昕 白强 (74)专利代理 机构 北京天方智力知识产权代理 事务所(普通 合伙) 11719 专利代理师 路远 (51)Int.Cl. G06F 16/242(2019.01) G06F 16/28(2019.01) G06F 40/253(2020.01) G06F 40/30(2020.01)G06N 20/00(2019.01) (54)发明名称 一种基于机器学习的数据库基线确定方法 及装置 (57)摘要 本发明提供一种基于机器学习的数据库基 线确定方法及装置。 所述方法包括: 利用数据采 集技术对网络通信中的数据报文进行采集; 根据 采集数据的协议特征识别数据库类型, 并基于数 据库类型从采集数据中提取有效的sql语句; 对 sql语句进行语义和语法解析, 得到sql语句概要 信息; 构建以sql语句概要信息为输入、 以sql请 求正常和不正常为输出的sql模型, 利用训练好 的sql模型判定新的sql语句是否为正 常的sql请 求, 若正常, 则所述新的sql语句满足数据库基线 要求。 本发明通过对业务系统进行画像, 并基于 画像信息确定数据库基线, 能够对不同的业务系 统确定不同的数据库基线, 使数据库基线更精 确。 权利要求书2页 说明书6页 附图1页 CN 115017181 A 2022.09.06 CN 115017181 A 1.一种基于 机器学习的数据库基线确定方法, 其特 征在于, 包括以下步骤: 利用数据采集 技术对网络通信中的数据报文 进行采集; 根据采集数据的协议特征识别数据库类型, 并基于数据库类型从采集数据中提取有效 的sql语句; 对sql语句进行语义和语法解析, 提取出sql语句中的操作类型、 操作对象、 操作内容、 操作条件和条件内容, 得到sql语句概要信息; 构建以sql语句概要信息为输入、 以sql请求正常和不正常为输出的sql模型, 利用训练 好的sql模型判定新的sql语句是否为正常的sql请求, 若正常, 则所述新的sql语句满足数 据库基线 要求。 2.根据权利要求1所述的基于机器学习的数据库基线确定方法, 其特征在于, 所述利用 数据采集 技术对网络通信中的数据报文 进行采集, 还 包括: 提取数据通信的四元组(源地址, 源端口, 目的地址, 目的端口), 并根据所述四元组利 用数据散列算法形成数1~6 55350之间的通信会话标识。 3.根据权利要求1所述的基于机器学习的数据库基线确定方法, 其特征在于, 对sql模 型进行训练的方法包括: 通过对提取的sql语句概要信息进行语料预处理构建训练数据集, 所述语料预处理包 括: 剔除空值; 进行 特征标注, 将正常请求标注为 “正常”, 将非正常请求标注为 “不正常”; 采用潜语义分析 方法LSA, 基于构建的训练数据集对所述sql模型进行训练。 4.根据权利要求1所述的基于机器学习的数据库基线确定方法, 其特征在于, 所述方法 还包括针对不同的业 务系统确定不同的数据库基线, 方法如下: 基于业务系统的源目的IP地址、 时间、 数据库流量、 频次维度信息, 对所述业务系统的 数据库使用行为进行画像; 基于业务系统的画像信息确定业 务系统的数据库基线, 形成数据库的最小安全保障。 5.根据权利要求1所述的基于机器学习的数据库基线确定方法, 其特征在于, 所述方法 还包括: 当业务升级或者有新的业务功能时, 会产生新的sql语句, 提取sql语句概要信息, 并对 sql模型进行训练; 利用训练好的sql模型判断新的sql语句 是偶发sql, 还是新增的业务sql; 如果是新增 的业务sql, 将新的sql语句添加到数据库基线中。 6.一种基于 机器学习的数据库基线确定装置, 其特 征在于, 包括: 数据采集模块, 用于利用数据采集 技术对网络通信中的数据报文 进行采集; sql语句提取模块, 用于根据采集数据的协议特征识别数据库类型, 并基于数据库类型 从采集数据中提取有效的sql语句; 概要信息获取模块, 用于对sql语句进行语义和语法解析, 提取出sql语句中的操作类 型、 操作对象、 操作内容、 操作条件和条件内容, 得到sql语句概要信息; sql模型构 建模块, 用于构 建以sql语句概要信息为输入、 以sql请求正常和不正常为输 出的sql模型, 利用训练好的s ql模型判定新的s ql语句是否为正常的s ql请求, 若正常, 则所 述新的sql语句满足数据库基线 要求。 7.根据权利要求6所述的基于机器学习的数据库基线确定装置, 其特征在于, 所述数据权 利 要 求 书 1/2 页 2 CN 115017181 A 2采集模块还用于: 提取数据通信的四元组(源地址, 源端口, 目的地址, 目的端口), 并根据所述四元组利 用数据散列算法形成数1~6 55350之间的通信会话标识。 8.根据权利要求6所述的基于机器学习的数据库基线确定装置, 其特征在于, 对sql模 型进行训练的方法包括: 通过对提取的sql语句概要信息进行语料预处理构建训练数据集, 所述语料预处理包 括: 剔除空值; 进行 特征标注, 将正常请求标注为 “正常”, 将非正常请求标注为 “不正常”; 采用潜语义分析 方法LSA, 基于构建的训练数据集对所述sql模型进行训练。 9.根据权利要求6所述的基于机器学习的数据库基线确定装置, 其特征在于, 所述装置 还用于: 基于业务系统的源目的IP地址、 时间、 数据库流量、 频次维度信息, 对所述业务系统的 数据库使用行为进行画像; 基于业务系统的画像信息确定业 务系统的数据库基线, 形成数据库的最小安全保障。 10.根据权利要求6所述的基于机器学习的数据库基线确定装置, 其特征在于, 所述装 置还包括自动添加模块, 用于: 当业务升级或者有新的业务功能时, 会产生新的sql语句, 提取sql语句概要信息, 并对 sql模型进行训练; 利用训练好的sql模型判断新的sql语句 是偶发sql, 还是新增的业务sql; 如果是新增 的业务sql, 将新的sql语句添加到数据库基线中。权 利 要 求 书 2/2 页 3 CN 115017181 A 3
专利 一种基于机器学习的数据库基线确定方法及装置
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:08:04
上传分享
举报
下载
原文档
(468.6 KB)
分享
友情链接
T-CNFPIA 2002—2022 木材及其制品价值评估方法.pdf
CCSP AIO 考试指南 中文-第2版 .pdf
GB-T 33321-2016 黄磷生产技术规范.pdf
GB-T 20937-2018 硫酸钾镁肥.pdf
NB-T 10682-2021 数字化继电保护现场系统级检测规范.pdf
ISO 11551 2019 Optics and photonics — Lasers and laser-related equipment — Test method for absorptance of optical laser components.pdf
DB11-T 2049-2022 政务大数据安全技术框架 北京市.pdf
GM T 0011-2023 可信计算 可信密码支撑平台功能与接口规范.pdf
GB-T 22726-2008 多声道数字音频编解码技术规范.pdf
JR-T0067-2021 证券期货业网络安全等级保护测评要求.pdf
GB-T 20647.3-2006 社区服务指南 第3部分:文化、教育、体育服务.pdf
GB-T 36333-2018 智慧城市 顶层设计指南.pdf
GB-T 35075-2018 燃气燃烧器节能试验规则.pdf
GB-T 22452-2008 硼酸盐非线性光学单晶元件通用技术条件.pdf
ISO 17987-3-2016.pdf
GB-T 20979-2019 信息安全技术 虹膜识别系统技术要求.pdf
专利 数据资产风险发现方法和装置.PDF
GB-T 24600-2009 城镇污水处理厂污泥处置 土地改良用泥质.pdf
DB14-T 2136-2020 《特种设备风险分级管控实施指南》 山西省.pdf
DB11-T 1210-2015 工业照明设备运行节能监测 北京市.pdf
1
/
3
10
评价文档
赞助2.5元 点击下载(468.6 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。