(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210797298.8
(22)申请日 2022.07.08
(65)同一申请的已公布的文献号
申请公布号 CN 114866966 A
(43)申请公布日 2022.08.05
(73)专利权人 安徽创瑞信息技 术有限公司
地址 230000 安徽省合肥市高新区创新产
业园二期J2 楼A座11层
(72)发明人 吴锋 吴宪
(74)专利代理 机构 安徽思尔六知识产权代理事
务所(普通 合伙) 3424 4
专利代理师 闫啸
(51)Int.Cl.
H04W 4/14(2009.01)
H04W 12/128(2021.01)H04L 61/4511(2022.01)
G06F 40/30(2020.01)
(56)对比文件
EP 3270549 A1,2018.01.17
US 2016065534 A1,2016.0 3.03
CN 114554492 A,2022.05.27
CN 109698 820 A,2019.04.3 0
CN 105024969 A,2015.1 1.04
CN 110019773 A,2019.07.16
CN 110175221 A,2019.08.27
李润川等.基 于多特征融合的垃圾短信识
别. 《山东大学学报(理学版)》 .2017,(第07期),
审查员 金婷婷
(54)发明名称
一种基于大数据的短信用户管理方法
(57)摘要
本发明涉及大数据挖掘技术领域, 公开了一
种基于大数据的短信用户管 理方法, 包括以下步
骤: 提取恶意域名和第一域名关联的短信的信
息; 提取第一域名关联的用户的信息; 从第一域
名关联的短信中提取短信生 成第三短信集合; 从
恶意域名关联的短信中提取短信生成第四短信
集合; 计算第三短信集合与第四短信集合的短信
的第一内容的语义相似度, 计算平均相似度S; 提
取第三短信集合的短信的第二内容得到第一链
接集合; 提取第四短信集合的短信的第二内容得
到第二链接集合; 计算第一链接集合和第二链接
集合的相关系数R, 计算相 关度Q=S+R, 基于相 关
度Q判断第一域名关联的用户是否异常; 本发明
能够避免用户更 换域名逃避相似度的检测。
权利要求书3页 说明书7页 附图3页
CN 114866966 B
2022.09.06
CN 114866966 B
1.一种基于大 数据的短信用户管理方法, 其特 征在于, 包括以下步骤:
步骤S101, 提取恶意 域名关联的短信的信息;
提取第一 域名关联的短信的信息;
提取第一 域名关联的用户的信息;
短信的信息包括短信的内容, 短信的内容包括第一内容和第二内容, 第一内容是指短
信的内容中除短链接之外的内容, 第二内容是指短信的内容中的短链接;
步骤S102, 从第一域名关联的短信中选取其中一个作为第一短信, 从第一域名关联的
短信中搜索第二短信, 第二短信的第二内容与第一短信的第二内容相同, 并且第二短信的
第一内容与第一短信的第一内容 不同;
选择发送时间最接 近第一短信的一个第二短信作为第一标记短信;
提取发送时间在第一短信和第一标记短信之间的短信构成第一短信集 合;
步骤S103, 从恶意域名关联的短信中选取其中一个作为第三短信, 第三短信的第一内
容与第一短信的第一内容相似度大于设定的第二阈值;
从恶意域名关联的短信中搜索第四短信, 第四短信的第 二内容与第 三短信的第 二内容
相同, 并且第四短信的第一内容与第三短信的第一内容 不同;
选择发送时间最接 近第三短信的一个第四短信作为第二标记短信;
提取发送时间在第三短信和第二标记短信之间的短信构成第二短信集 合;
步骤S104, 整理第一短信集合和第二短信集合, 使第一短信集合和第二短信集合包含
的短信数量 一致;
步骤S105, 将第 一短信集合和第二短信集合中的短信按照发送时间的先后时间进行排
序分别获得第三短信集 合和第四短信集 合;
步骤S106, 计算第三短信集合与第四短信集合的短信的第一内容的语义相似度, 获得
相似度矩阵, 相似度矩阵的一个元素以sij表示, sij表示相似度矩阵的第i行第j列的元素,
sij表示第i个第三短信集 合的短信与第j个第四短信集 合的短信的相似度;
从相似度矩阵中每一行中提取最小的值得到相似度集合, 基于相似度集合计算平均相
似度S;
步骤S107, 提取第三短信集合的短信的第二内容, 并去除第二内容中的域名部分之后
得到第一进制数, 将第一进制数转换为10进制获得第二进制数, 集合第三短信集合的短信
获得的第二进制数 得到第一链接集 合;
步骤S108, 提取第四短信集合的短信的第二内容, 并去除第二内容中的域名部分之后
得到第三进制数, 将第三进制数转换为10进制获得第四进制数, 集合第四短信集合的短信
获得的第四进制数 得到第二链接集 合;
步骤S109, 计算第一链接集 合和第二链接集 合的相关系数R, 计算公式如下:
其中di为Xi和Yi之间的等级差, Xi表示第一链接集合中第i个项, Yi表示第二链接集合中
第i个项;权 利 要 求 书 1/3 页
2
CN 114866966 B
2Xi的等级是将第一链接集合中的项按照从小到大排序后, 这个项所在的位置; Yi的等级
是将第二链接集合中的项按照从小到大排序后, 这个项 所在的位置; 其中n为第一链接集合
包含的项的数量;
步骤S110, 基于平均相似度S和相关系数R计算相关度Q, 相关度Q=S+R, 如果相关度Q大
于设定的相关度阈值则判断第一域名关联的用户异常; 如果相关度Q小于或等于设定的相
关度阈值则判断第一 域名关联的用户不异常。
2.根据权利要求1所述的一种基于大数据的短信用户管理方法, 其特征在于, 用户的信
息包括用户的ID。
3.根据权利要求1所述的一种基于大数据的短信用户管理方法, 其特征在于, 步骤S102
中, 如果第一短信集 合中存在重复短信, 则只保留重复短信中的一个;
重复短信是指第一内容和第二内容相同的短信。
4.根据权利要求3所述的一种基于大数据的短信用户管理方法, 其特征在于, 第 二短信
的第二内容与第一短信的第二内容相同是指第二短信的第二内容与第一短信的第二内容
完全相同, 也即二 者的第二内容包 含相同的字符, 并且字符的排序也是相同的。
5.根据权利要求3所述的一种基于大数据的短信用户管理方法, 其特征在于, 第 二短信
的第一内容与第一短信的第一内容不同是指第二短信和第一短信的第一内容的相似度低
于设定的第一阈值。
6.根据权利要求1所述的一种基于大数据的短信用户管理方法, 其特征在于, 第四短信
的第二内容与第三短信的第二内容相同是指第四短信的第二内容与第三短信的第二内容
完全相同, 也即二 者的第二内容包 含相同的字符, 并且字符的排序也是相同的。
7.根据权利要求1所述的一种基于大数据的短信用户管理方法, 其特征在于, 第四短信
的第一内容与第三短信的第一内容不同是指第四短信和第三短信的第一内容的相似度低
于设定的第一阈值。
8.根据权利要求1所述的一种基于大数据的短信用户管理方法, 其特征在于, 步骤S104
中整理第一短信集合和第二短信集合的方法包括: 第一短信集合包含的短信的数量为M, 第
二短信集 合包含的短信的数量 为N;
如果第一短信集合包含的短信的数量M大于N, 则删除第一短信集合中部分短信直至M=
N;
如果第二短信集合包含的短信的数量N大于M, 则删除第二短信集合中部分短信直至M=
N。
9.根据权利要求8所述的一种基于大数据的短信用户管理方法, 其特征在于, 删除第 一
短信集合和第二短信集 合中的部分 短信是按照发送时间的先后顺序进行删除的。
10.根据权利要求1所述的一种基于大数据的短信用户管理方法, 其特征在于, 步骤
S104中整理第一短信集 合和第二短信集 合包括以下步骤:
步骤S201, 提取第一短信集合的短信的第二内容, 并去除第二内容中的域名部分之后
得到第五进制数, 将第五进制数转换为10进制获得第六进制数;
步骤S202, 在第 一短信集合中选择获得的第六进制数最小的一个短信作为第一基准短
信;
步骤S203, 从第一短信集 合中删除发送时间在第一基准短信之前的短信;权 利 要 求 书 2/3 页
3
CN 114866966 B
3
专利 一种基于大数据的短信用户管理方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:46上传分享