专利 网络防御方法、控制设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211192687.4 (22)申请日 2022.09.28 (71)申请人中国农业银行股份有限公司地址 100005 北京市东城区建国门内大街 69号 (72)发明人王超　 (74)专利代理机构北京同立钧成知识产权代理有限公司 1 1205 专利代理师郭李君　黄健 (51)Int.Cl. H04L 9/40(2022.01) (54)发明名称网络防御方法、控制设备及存储介质 (57)摘要本申请提供一种网络防御方法、控制设备及存储介质，控制设备建立攻防博弈模型后，重复执行获得控制设备观察的攻击终端攻击目标工作终端的攻击策略信息和攻击终端的身份类型的先验类型，在该操作后根据攻击策略信息和先验概率，确定最优防御策略和对目标工作终端的最优攻击策略，并执行最优防御策略，控制设备根据最优防御策略和攻击策略信息，计算马尔科夫学习函数值，直至根据马尔科夫学习函数值，确定目标工作终端未处于安全状态时停止循环，控制设备根据目标工作终端获得的持续性的攻击策略信息确定目标工作终端的攻击状态，有助于其根据持续获得的信息确定隐蔽性的攻击，使其更好地保护目标工作终端。权利要求书3页说明书14页附图3页 CN 115550031 A 2022.12.30 CN 115550031 A 1.一种网络防御方法，其特征在于，所述方法应用于控制设备，所述控制设备位于目标系统中，所述目标系统包括至少一个工作终端和蜜网集群，所述方法包括：建立攻防博弈模型；其中，所述攻防博弈模型包括多个博弈参与方、各所述博弈参与方的策略空间、信号空间、先验概率、后验概率和各所述博弈参与方的收益；重复执行获得所述控制设备观察的攻击终端攻击目标工作终端的攻击策略信息和所述攻击终端的身份类型的先验概率；根据所述攻击策略信息和所述先验概率，确定最优防御策略和所述攻击终端针对所述最优防御策略的最优攻击策略，并执行所述最优防御策略；根据所述最优防御策略和所述攻击策略信息，计算马尔科夫学习函数值；根据所述马尔科夫学习函数值，确定所述目标工作终端是否处于安全状态并在所述目标工作终端未处于安全状态时终止循环。 2.根据权利要求1所述的方法，其特征在于，根据所述攻击策略信息和所述先验概率，确定最优防御策略和对所述目标工作终端的最优攻击策略，具体包括：根据所述攻击策略信息和所述先验概率，计算所述攻击终端的身份类型的后验概率；根据所述后验概率，确定所述攻击终端的身份类型；根据所述攻击策略信息和所述身份类型，确定系统成本和类型成本；根据所述系统成本、所述类型成本和所述攻击策略信息和所述后验概率，计算所述攻击终端的攻击者收益和所述目标系统的防御者收益；根据所述后验概率和所述防御者收益，确定最优防御策略和对所述目标工作终端的最优攻击策略。 3.根据权利要求2所述的方法，其特征在于，根据所述攻击策略信息和所述身份类型，确定系统成本和类型成本，具体包括：将所述攻击策略信息在系统成本映射表中查询，获得与所述攻击策略信息对应的系统成本；将所述攻击策略信息和所述身份类型在类型成本映射表中查询，获得与所述攻击策略信息对应的类型成本。 4.根据权利要求1所述的方法，其特征在于，所述博弈参与方的策略空间包含防御策略空间，所述防御策略空间中包含至少一个防御策略；根据所述最优防御策略和所述攻击策略信息，计算马尔科夫学习函数值，具体包括：根据所述最优防御策略和所述攻击策略信息，计算所述目标工作终端在当前状态下的攻防回报值；获得所述目标工作终端从最初状态到当前状态的累计回报值和所述目标工作终端在当前状态下的马尔科夫学习函数值；根据所述攻击终端针对所述最优防御策略的最优攻击策略、所有所述防御策略、所述累计回报值和所述攻防回报值，计算所述目标工作终端在下一状态下的最大累计回报值；根据所述当前状态下的攻防回报值、所述下一状态下的最大累计回报值和所述当前状态下的马尔科夫学习函数值，计算所述目标工作终端在当前状态的下一状态下的马尔科夫学习函数值。 5.根据权利要求4所述的方法，其特征在于，所述博弈参与方的策略空间还包括攻击策权　利　要　求　书 1/3 页 2 CN 115550031 A 2略空间，所述攻击策略空间中包含至少一个攻击策略；根据所述最优防御策略和所述攻击策略信息，计算所述目标工作终端在当前状态下的攻防回报值，具体包括：根据所述最优防御策略、所述攻击策略信息和攻防回报值计算公式，计算所述目标工作终端在当前状态下的攻防回报值：其中，所述攻防回报值计算公式具体包括：其中， sp表示所述目标工作终端所处的当前状态之后的第p个状态， Re(fx(sp))表示所述目标工作终端x在状态p下的攻防回报值， i表示所述防御策略空间中的防御标识， j表示所述攻击策略空间中的攻击标识， i＝0表示所述目标工作终端x在状态p时未受到防御， i≠ 0表示所述目标工作终端x在状态p时受到第i个防御策略的防御， j＝0表示所述目标工作终端x在状态p时未受到攻击， j≠0表示所述目标工作终端x在状态p时受到第j个攻击策略的攻击， P表示防护值， Di表示所述目标工作终端x受到第i个防御策略保护时的回报值， δi表示回报系数， D表示所述目标工作终端未受到防御策略的保护时受到攻击的攻击回报值， Pkij 表示博弈论模型采用第i个保护策略来抵抗第j个攻击策略时的回报值。 6.根据权利要求5所述的方法，其特征在于，根据攻击终端针对所述最优防御策略的最优攻击策略、所有所述防御策略、所述累计回报值和所述攻防回报值，计算所述目标工作终端在下一状态下的最大累计回报值，具体包括：根据攻击终端针对所述最优防御策略的最优攻击策略、各所述防御策略和攻防回报值公式，计算基于各所述防御策略调整的所述目标工作终端的下一状态下的攻防回报值；将各所述攻防回报值与所述累计回报值相加，计算基于各所述防御策略调整的所述目标工作终端的下一状态下的累计回报值；将各所述防御策略对应的下一状态下的累计回报值中的最大值确定为所述最大累计回报值。 7.根据权利要求6所述的方法，其特征在于，根据所述当前状态下的攻防回报值、所述下一状态下的最大累计回报值和所述当前状态下的马尔科夫学习函数值，计算所述目标工作终端在当前状态的下一状态下的马尔科夫学习函数值，具体包括：根据所述当前状态下的攻防回报值、所述下一状态下的最大累计回报值、所述当前状态下的马尔科夫学习函数值和学习函数更新公式，计算所述目标工作终端在当前状态的下一状态下的马尔科夫学习函数值；其中，所述学习函数更新公式具体包括：其中，表示所述目标工作终端在当前状态的下一状态下的马尔科夫学习函数值，表示所述目标工作终端在当前状态下的马尔科夫学习函数值， α 表示学习率参数， γ表权　利　要　求　书 2/3 页 3 CN 115550031 A 3

专利 网络防御方法、控制设备及存储介质

专利网络防御方法、控制设备及存储介质