说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210792373.1 (22)申请日 2022.07.05 (71)申请人 南京航空航天大 学 地址 211106 江苏省南京市江宁区将军大 道29号 (72)发明人 陶传奇 陈梦瑶 郭虹静  (74)专利代理 机构 江苏圣典律师事务所 32 237 专利代理师 贺翔 (51)Int.Cl. G06F 8/74(2018.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于深度学习的移动应用安全缺陷摘 要生成方法 (57)摘要 本发明公开了一种基于深度学习的移动应 用安全缺陷摘要生成方法, 步骤如下: 对在移动 应用商店获得的原始用户评论进行预处理; 对预 处理后的评论句子进行情感分析, 剔除情感倾向 为积极的句子, 保留情感倾向为中立和消极的句 子; 对处理后的评论句子进行分类, 并采用逻辑 回归算法将其分为安全缺陷相关的评论和安全 缺陷无关的评论, 构建与安全缺陷相关的评论数 据集; 从安全缺陷相关的评论中提取<方面 ‑观 点‑不良行为>三元组, 构成安全缺陷相关的评论 摘要。 本发 明能够在非结构化的用户评论中抽取 出表示安全缺陷的三元组, 利用深度学习技术构 建针对移动应用安全缺陷的评论摘要生成模型, 为待测移动应用提供安全缺陷的关键信息 。 权利要求书2页 说明书6页 附图2页 CN 115357288 A 2022.11.18 CN 115357288 A 1.一种基于深度学习的移动应用安全缺陷摘要生成方法, 其特 征在于, 步骤如下: 1)对在移动应用商店获得的原始用户评论进行预处理, 包括句子分割, 拼写错误改正, 缩写和缩略式扩充; 2)对预处理后的评论句子进行情感分析, 剔除情感倾向为积极的句子, 保留情感倾向 为中立和 消极的句子; 3)对经步骤2)处理的评论句子进行分类, 并采用逻辑回归算法将其分为安全缺陷相关 的评论和安全缺陷无关的评论, 构建与安全缺陷相关的评论数据集; 4)从安全缺陷相关的评论中提取<方面 ‑观点‑不良行为>三元组, 构成安全缺陷相关的 评论摘要。 2.根据权利要求1所述的基于深度学习的移动应用安全缺陷摘要生成方法, 其特征在 于, 所述步骤1)具体包括: 11)句子分割: 采用分隔符结合pytho n第三方库re库的spl it()方法进行句子分割; 12)拼写错误改正: 采用python自带的拼写检查库PyEnchant, 对评论句子进行错误检 查, 若检测到拼写错 误的单词, 则将其 替换; 13)缩写和缩略式扩充: 采用正则表达式将评论句子中的缩写替换为完整的表达形式。 3.根据权利要求1所述的基于深度学习的移动应用安全缺陷摘要生成方法, 其特征在 于, 所述步骤2)具体包括: 21)采用自然语言处理工具包自带的情感分析模块Vader对预处理后的评论数据进行 情感分析, 对评论句 子所表达的情感进行判别, 分为积极、 消极和中立三类极性, 获得该评 论句子的三类情感极性的概率和一个复合得分; 所述复合得分的计算方法是将词典中每个 单词的效价分数相加, 并根据规则进行调整, 然后归一 化为‑1和1之间; 22)根据步骤21)获得的复合得分判别评论句子的情 感倾向, 提取出情感倾向为消极和 中立的评论句子 。 4.根据权利要求1所述的基于深度学习的移动应用安全缺陷摘要生成方法, 其特征在 于, 所述步骤3)具体包括: 31)构造分类模型的数据集: 使用步骤2)中获得的部分评论句子构造分类模型的数据 集, 以csv文件格式进行存储, 文件第一列为lab el即该评论句子的类别, 用1表示该条评论 与安全性相关的评论, 0表示该评论与安全性无关的评论; 第二列为review即用户评论的内 容, 采用人工标注的方式构造分类模型的训练测试集; 32)采用词频 ‑逆文档频率算法进行特征提取; 从SparkML库中导入HashingTF, IDF和 Tokenizer; 构造文档集合, 创建一个DataFrame, 每一个句子代表一个文档; 得到文档集合 后, 用tokenizer对句子进行分词; 得到分词后的文档序列后, 使用HashingTF的transform ()方法把句子哈希成特征向量, 每一个单词被 哈希成一个不同的索引值; 使用IDF对单纯 的词频特征向量进行修正, 使其体现不同词汇对文本的区别能力, 调用fit()方法并将词 频特征向量传入, 产生一个IDFModel; 调用ID FModel的trans form()方法, 得到每一个单词 对应的TF ‑IDF矩阵; 33)采用pytho n的sklearn库的L ogisticRegres sion()方法进行逻辑回归 模型的构建; 34)采用十折交叉验证方法训练和测试逻辑回归模型; 再将未分类的评论数据输入到 训练后的逻辑回归模型中, 将其分为安全性相关和安全性无关, 得到安全缺陷相关的评论权 利 要 求 书 1/2 页 2 CN 115357288 A 2数据集。 5.根据权利要求1所述的基于深度学习的移动应用安全缺陷摘要生成方法, 其特征在 于, 所述步骤4)具体包括: 41)采用人工标注的方式构造BERT ‑BiLSTM‑CRF模型和textCN N模型的数据集; 42)BERT‑BiLSTM‑CRF模型中, BERT为一个用Transfor mers作为特征抽取器的深度双向 预训练语言理解模型, 用于提取出安全缺陷相关的评论句 子中的词级特征、 语法结构特征 和语义特征; 双向长短期记忆神经网络模型由前向LSTM与后向LSTM组合而成; 通过BERT ‑ BiLSTM‑CRF模型提取出代表方面、 观 点、 不良行为的词或短语, 得到<方面 ‑观点‑不良行为> 三元组; 43)训练textCNN模型, textCNN为一个 由卷积神经网络衍生出来的用于文本分类 的神 经网络, textCNN模 型包含: 词嵌入层、 卷积层、 池化层、 全连接层; 通过词嵌入层得到词向量 矩阵, 在词向量矩阵上使用不同大小的卷积核卷积, 提取输入的部 分特征, 然后 将卷积结果 经过激活函数处理后输入到池化层, 池化层生成更高维的向量; 将池化层的结果通过 dropout层随机 选择后通过全连接层连接, 得到分类结果; 44)使用训练后的textCNN模型对步骤42)中得到 的三元组进行分类, 分为无效和有效 三元组, 过 滤掉无效的三元组; 45)采用python的自然语言处理工具包对上述步骤44)中得到的有效三元组中的方面 词和不良行为词进行词形还原, 形成最终的评论摘要三元组。 6.根据权利要求1所述的基于深度学习的移动应用安全缺陷摘要生成方法, 其特征在 于, 所述方法还包括步骤5): 采用雷达图对上述步骤4)中得到的安全缺陷相关的评论摘要 进行可视化总结。 7.根据权利要求6所述的基于深度学习的移动应用安全缺陷摘要生成方法, 其特征在 于, 所述步骤5)具体包括: 将具有相同方面的三元组进行分组, 对于每个方面, 三元组的数量被计算为频率; 采用 python自带的pyg al库绘制雷达图, 调用Rader类设置雷达图的参数。权 利 要 求 书 2/2 页 3 CN 115357288 A 3

.PDF文档 专利 一种基于深度学习的移动应用安全缺陷摘要生成方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度学习的移动应用安全缺陷摘要生成方法 第 1 页 专利 一种基于深度学习的移动应用安全缺陷摘要生成方法 第 2 页 专利 一种基于深度学习的移动应用安全缺陷摘要生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:08:14上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。