说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210571526.X (22)申请日 2022.05.24 (71)申请人 南京优慧信安科技有限公司 地址 210012 江苏省南京市雨 花台区西春 路1号创智大厦南楼一楼- 019 (72)发明人 杨鹏 赵翰林 冷俊成 李文军  (74)专利代理 机构 南京众联专利代理有限公司 32206 专利代理师 杜静静 (51)Int.Cl. G06F 16/9536(2019.01) G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 50/00(2012.01) (54)发明名称 一种基于多维度语义表示的攻击性评论检 测方法 (57)摘要 本发明公开了一种基于多维度语义表示的 攻击性评论检测方法, 所述方法包括以下步骤: 步骤1: 评论文本 数据采集及预处理; 步骤2: 文本 多维度语义向量生成; 步骤3: 多维度语义向量交 叉编码; 步骤4: 层级融合 分类器预测攻击性检测 结果。 本发 明可以有效解决攻击性评论检测中存 在的现有文本表示方法难以深入挖掘语义信息, 信息表示维度单一且关联信息 较弱等问题。 权利要求书3页 说明书5页 附图2页 CN 114861082 A 2022.08.05 CN 114861082 A 1.一种基于多维度语义表示的攻击性评论检测方法, 其特征在于, 所述方法包括以下 步骤: 步骤1: 评论文本数据采集及预处 理; 步骤2: 文本多维度语义向量 生成; 步骤3: 多维度语义向量交叉编码; 步骤4: 层级融合分类 器预测攻击性检测结果。 2.根据权利要求1所述的基于多维度语义表示的攻击性评论检测方法, 其特征在于, 步 骤1: 评论文本数据采集及预处理, 具体如下: 首先, 通过各社交媒体平台的API采集用户评 论数据, 积累用户评论数据集, 数据集中的每个样本包含评论内容和用户ID, 接着, 对数据 集中每一个样本进行 预处理, 包括分词、 替换、 分割和去除操作。 3.根据权利要求2所述的基于多维度语义表示的攻击性评论检测方法, 其特征在于, 步 骤2: 文本多维度语义向量生成, 对预处理后的评论文本, 从针对目标和语义内容两个维度 进行全方位的深度挖掘, 通过直接目标、 广义目标、 显式语义和隐式语义四个角度生成文本 的词向量表示; 并挖掘用户的历史关联信息生成用户的个性特征和文体特征实现隐喻层级 的语义信息表示, 以此达 到暗讽性文本的高准确率检测。 4.根据权利要求3所述的基于多维度语义表示的攻击性评论检测方法, 其特征在于, 步 骤3: 多维度语义向量交叉编码, 根据步骤2 生成的文本词向量, 采用注意力机制交叉编码方 法来实现目标维度和语义维度之间的关联性增强。 5.根据权利要求4所述的基于多维度语义表示的攻击性评论检测方法, 其特征在于, 步 骤4: 层级融合分类器预测检测结果, 根据步骤3获得的目标向量和语义向量, 通过层级融合 分类器将维度不一致的两种向量进行融合, 并最大程度还原文本初始意义, 最后送入分类 器里得到预测结果。 6.根据权利要求1所述的基于多维度语义表示的攻击性评论检测方法, 其特征在于, 步 骤2, 文本多维度语义向量生成, 具体如下: 假设某社交平台上的用户评 论数据集为Ds={s1, s2,…,sL}, 其中si是数据集中第i个句子, L是数据集的长度, 给定一个单词序列W={w1, w2,…,wn} 表 示 文 本 句 子 , 攻 击 性 语 言 检 测 定 义 成 为 每 个 句 子 分 配 标 签 以区分句子是否具有攻击性; 再为每个攻击性句子(OFF)分配标签 指示句子是具有针对性的攻击还是非针对性的攻击, 该步骤 实施过程 分为4个子步骤: 子步骤2‑1, 特定目标攻击向量表示, 目标是指特定 的个人或实体, 使用ELMo和BiLSTM 进行训练的命名实体识别方法, 对文本进 行特定目标攻击向量表示, 对于输入的文本序列W ={w1,w2,…,wn}, 首先通过BIOES方法进行标注, 得到标注后的字向量序列x={x1,x2,…, xn}, 针对标注后的序列, 文本多维度语义向量生成器分别使用CNN和ELMo来提取其特征, CNN主要提取字符级别的特征, ELMO则提取词语的动态特征, 最后将CNN提取的基于字符的 字向量和ELMo提取的动态字向量拼接到一起, 形成新向量x ′={x′1,x′2,…,x′n}送入到 BiLSTM中, BiLSTM通过在输出层将 每个词的特征解码为每个对应标签类别的对 数概率作为 命名实体标签分数, 并输出最优标注序列作为特定目标攻击向量表示ST, 如公式(1)所示, 其中 为文本序列W中对应的第i个词的特定目标向量表示:权 利 要 求 书 1/3 页 2 CN 114861082 A 2子步骤2‑2, 广义目标攻击向量表示, 通过一个性别去偏置模型从给定语料库中学习性 别保留去偏词嵌入作为广义目标攻击向量表示GT, 如公式(2)所示, 其中 为文本序列W中 对应的第i个词的广义目标向量表示, 子步骤2‑3, 显式语义攻击向量表示, 对于显性攻击, 使用dict2vec定义给定文本中单 词的强对和弱对, 每个单词都由一个 向量表示, 如果两个词的k近邻在某个弱对之间, 那么 弱对可以被提升为 强对, 根据与预训练的词嵌入的余弦距离选择最接近的K个词, 发现使用 K=5很好地权衡语义和句法提取信息, 在这种机制下, 即可学习到一条文本的显式语义攻 击向量表示即ES, 如公式(3)所示, 其中 为文本序列W中对应的第i个词的显式语义向量表 示, 子步骤2‑4, 隐式语义攻击向量表示, 隐式攻击性语言并不直接表示辱骂, 需要采用内 容和上下文驱动的混合建模方法来检测在线 社交媒体讨论中的讽刺, 首先收集用户的所有 注释以及历史评论数据, 并通过使用特殊的分隔符附加它们来创建文档, 每个用户文档及 其中的所有单词首先被映射成唯一的向量, 每个向量分别由矩阵 和 中的一列表示, 这里, ds表示嵌入大小, |V|表示词汇表的大小, 然后采用段落向 量的无监督表示学习方法进行训练, 经过训练文档D学习用户的文档向量, 这些文档向量代 表用户的文体特征和偏好特征, 接着采用预训练的CNN提取用户的个性特征, 并将 个性特征 包含在用户嵌入中, 通过提取CNN的最后一个隐藏层向量的激活, 即个性特征 然后将用 户对所有评论的个性特征的期望定义为总体个性特征向量 通过多视角融合器CCA将用 户的文体特征和个性特征融合起来, 最后得到根据本文数据集训练的内在语义讽刺向量表 示IS, 如公式(4)所示, 其中 为文本序列W中对应的第i个词的显式语义向量表示, 7.根据权利要求1所述的基于多维度语义表示的攻击性评论检测方法, 其特征在于, 步 骤3, 多维度语义向量交叉编码, 对于步骤2从目标维度和语义维度得到的四种文本表示 {ST,GT,ES,IS}, 首先使用连接函数将{ST,GT}拼接成目标向量表示XT; 同理, {ES,IS}被拼接成 内容向量表示XS, 拼接完成后, XT和XS作为输入发送到Transformer机制, 为了实现目标和语 义两个维度之 间的关联性增强作用, 将目标和语义进 行交叉计算, 得到文本的编 码表示, 如 公式(5)和(6)所示, 权 利 要 求 书 2/3 页 3 CN 114861082 A 3

.PDF文档 专利 一种基于多维度语义表示的攻击性评论检测方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多维度语义表示的攻击性评论检测方法 第 1 页 专利 一种基于多维度语义表示的攻击性评论检测方法 第 2 页 专利 一种基于多维度语义表示的攻击性评论检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:07:44上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。