(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210855326.7
(22)申请日 2022.07.19
(71)申请人 中国电信股份有限公司
地址 100033 北京市西城区金融大街31号
(72)发明人 何晔 邓薇 高思雨
(74)专利代理 机构 北京律智知识产权代理有限
公司 11438
专利代理师 孙宝海
(51)Int.Cl.
G06F 21/10(2013.01)
G06K 9/62(2022.01)
G06F 16/2458(2019.01)
G06V 10/40(2022.01)
G06V 10/82(2022.01)
G06V 10/74(2022.01)
(54)发明名称
仿冒小程序 的自动识别方法、 系统、 设备及
存储介质
(57)摘要
本发明提供了仿冒小程序的自动识别方法、
系统、 设备及存储介质, 其中, 方法包括: 根据待
测小程序的名 称进行模糊搜索获得目标小程序
的集合; 通过抓取待测小程序和目标小程序的页
面进行图文识别, 获得小程序特征信息以及不同
页面的静态图像信息和动态字 符串信息; 根据预
设白名单和预设黑名单对目标小程序的集合进
行过滤; 获得剩余的每个目标小程序与待测小程
序基于小程序特征信息的第一相似度、 静态图像
信息的第二相似度和基于动态字符串信息的第
三相似度, 当满足预设阈值, 则该目标小程序是
仿冒小程序。 本发明能够有效的应用在小程序安
全分析领域中, 识别仿冒盗版的小程序, 避免信
息泄露、 财产损失等 风险。
权利要求书3页 说明书14页 附图8页
CN 115114587 A
2022.09.27
CN 115114587 A
1.一种仿冒小程序的自动识别方法, 其特 征在于, 包括以下步骤:
根据待测小程序的名称的关键 字进行模糊搜索, 获得目标小程序的集 合;
通过抓取所述待测小程序和每个所述目标小程序的运行过程中的页面进行图文识别,
获得小程序特征信息以及不同页面的静态图像信息和 动态字符串信息, 所述小程序特征信
息至少包括账号主体信息;
根据基于所述小程序特征信息的预设白名单和预设黑名单对所述目标小程序的集合
进行过滤;
获得剩余的每个所述目标小程序与所述待测小程序基于所述小程序特征信息的第一
相似度、 所述静态图像信息的第二相似度和基于所述动态字符串信息的第三相似度;
当所述第 一相似度、 第二相似度、 第 三相似度均满足预设阈值, 则所述目标小程序 是仿
冒小程序。
2.如权利要求1所述的仿冒小程序的自动识别方法, 其特征在于, 所述根据待测小程序
的名称的关键 字进行模糊搜索, 获得目标小程序的集 合包括:
根据所述待测小程序的名称, 提取关键 字;
根据所述关键 字在小程序库中进行模糊搜索, 将获得的目标小程序建立 集合。
3.如权利要求1所述的仿冒小程序的自动识别方法, 其特征在于, 所述通过抓取所述待
测小程序和每个所述目标小程序的运行过程中的页面进行图文识别, 获得小程序特征信息
以及不同页面的静态图像信息和 动态字符串信息, 所述小程序特征信息至少包括账号主体
信息, 包括:
抓取所述待测小程序和每 个所述目标小程序运行 过程中的页面;
通过进行图文识别, 获得小程序特征信 息以及不同页面的静态图像信 息和动态字符串
信息, 所述小程序特征信息至少包括: 账号主体信息、 被认证的程序应用编号、 服务类目; 所
述静态图像信息包括所述小程序的图标、 页面加载图片和前端页面中的至少一个; 所述动
态字符串信息包括动态统一资源定位符字符串、 IP地址 字符串、 域名字符串中的至少一种。
4.如权利要求3所述的仿冒小程序的自动识别方法, 其特征在于, 所述根据基于所述小
程序特征信息的预设白名单和预设黑名单对所述目标小程序的集 合进行过滤, 包括:
根据基于所述小程序特 征信息的预设白名单 过滤所述目标小程序中的正版小程序;
根据基于所述小程序特 征信息的预设黑名单 过滤所述目标小程序中的盗版小程序。
5.如权利要求3所述的仿冒小程序的自动识别方法, 其特征在于, 所述获得剩余的每个
所述目标小程序与所述待测小程序基于所述小程序特征信息的第一相似度、 所述静态图像
信息的第二相似度和基于所述动态字符串信息的第三相似度, 包括:
获得剩余的每个所述目标小程序与所述待测小程序基于所述小程序特征信息的字符
串编辑距离获得第一相似度;
获得剩余的每个所述目标小程序与所述待测小程序基于所述静态图像信息中所述小
程序的图标、 页面加载图片提取 的图片特征 的余弦距离获得的第二相似度和/或所述前端
页面中通过 结构相似性 提取特征向量获得的第二相似度;
获得剩余的每个所述目标小程序与所述待测小程序基于所述动态字符串信息的字符
串编辑距离获得第三相似度。
6.如权利要求5所述的仿冒小程序的自动识别方法, 其特征在于, 所述获得剩余的每个权 利 要 求 书 1/3 页
2
CN 115114587 A
2所述目标小程序与所述待测小程序基于所述静态图像信息中所述小程序的图标、 页面加载
图片提取的图片特征的余弦距离获得的第二相似度和/或所述前端页面中通过结构相似性
提取特征向量获得的第二相似度, 包括:
将剩余的每个所述目标小程序与所述待测小程序中所述小程序的图标和页面加载图
片的高宽统一缩放 为64*64;
通过经过训练的图片比对神经网络提取图片特 征;
通过余弦相似度计算特征向量之间的相似度, 设两张图片的特征向量分别表示为A=
[a1,…,an], B=[b1,…,bn], 两向量之间的余弦距离为
ai为特征向量A中的一个元 素, bi为特征向量B中的一个元 素, i小于等于n。
7.如权利要求6所述的仿冒小程序的自动识别方法, 其特征在于, 所述获得剩余的每个
所述目标小程序与所述待测小程序基于所述静态图像信息中所述小程序的图标、 页面加载
图片提取的图片特征的余弦距离获得的第二相似度和/或所述前端页面中通过结构相似性
提取特征向量获得的第二相似度, 还 包括:
将剩余的每个所述目标小程序与所述待测小程序中的前端页面的高宽统一缩放为
768*256;
通过经过训练的图片比对神经网络提取图片特 征;
获得提取的特征向量之间的结构相似性参数, 假设两张前端页面的图片分别用x, y表
示, 两张前端页面的图片的结构相似性简化计算公式如下:
其中, 设两张图片的像素值的平均值 分别表示为 μx和 μy, σx2是第一前端页面的像素值的
方差, σy2是第二前端页面的像素值的方差, σxy是第一前端页面与第二 前端页面的协方差, C1
=(K1L)2,C2=(K2L)2是用来维持稳定的常数, L是像素值的动态范围, K1=0.01, K2=0.03。
8.如权利要求1所述的仿冒小程序的自动识别方法, 其特征在于, 所述当所述第 一相似
度、 第二相似度、 第三相似度均满足预设阈值, 则所述目标小程序是仿冒小程序, 包括:
当所述第 一相似度、 第二相似度都大于预设第一阈值, 同时, 当第三相似度小于预设第
二阈值, 则所述目标小程序是仿冒小程序; 所述预设第一阈值的取值范围是70%至90%, 所
述预设第二阈值的取值范围是3 0%至50%。
9.如权利要求1所述的仿冒小程序的自动识别方法, 其特 征在于, 还 包括以下步骤:
当目标小程序的账号主体信息与预设白名单中具有关联公司关系的小程序的账号主
体信息的编辑距离大于预设阈值, 且账号主体信息的相似度低于预设第三阈值, 所述预设
第三阈值的取值范围是3 0%至50%, 则所述目标小程序是仿冒小程序。
10.一种仿冒小程序的自动识别方法, 其特 征在于, 包括:
模糊搜索模块, 根据待测小程序的名称的关键字进行模糊搜索, 获得目标小程序的集
合;权 利 要 求 书 2/3 页
3
CN 115114587 A
3
专利 仿冒小程序的自动识别方法、系统、设备及存储介质
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:02上传分享