专利 一种基于语义规则的蒙古语反向重构情感分布学习方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210530295.8 (22)申请日 2022.05.16 (71)申请人内蒙古工业大学地址 010080 内蒙古自治区呼和浩特市土默特左旗内蒙古工业大学金川校区 (72)发明人苏依拉　杨蕾　朱苏东　司赟　杨佩恒　邱占杰　仁庆道尔吉　吉亚图　 (74)专利代理机构西安智大知识产权代理事务所 61215 专利代理师段俊涛 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/335(2019.01) G06F 16/35(2019.01)G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称一种基于语义规则的蒙古语反向重构情感分布学习方法 (57)摘要一种基于语义规则的蒙古语反向重构情感分布学习方法，从预处理后的蒙古语情感语料中提取情感词、程度词和否定词，通过语义规则和词语搭配对情感语料所对应的情绪类型赋予不同的权重；利用情感词典和情感轮对情感语料进行数据增强，生成情感分布；在训练模型中引入反向重构损失，对得到的情感分布数据集进行情感分布预测任务的训练；利用训练好的模型对测试集中的蒙古语情感语料进行情感分布预测。本发明在基于情感词典和情感轮标记增强方法的基础上融入语义规则，使单标记情感数据集增强得到的情感分布数据集更为准确。在模型训练过程中引入反向重构损失，缓解了在正向映射过程中由于维度降低而引起的信息丢失问题，以此来提高模型训练的准确率。权利要求书3页说明书8页附图3页 CN 115146024 A 2022.10.04 CN 115146024 A 1.一种基于语义规则的蒙古语反向重构情感分布学习方法，其特征在于，包括如下步骤：步骤1，对蒙古语情感语料进行预处理；步骤2，从预处理后的蒙古语情感语料中提取情感词、程度词和否定词，通过语义规则和词语搭配对情感语料所对应的情绪类型赋予不同的权重；步骤3，利用情感词典和情感轮对情感语料进行数据增强，生成情感分布；步骤4，在训练模型中引入反向重构损失，对步骤3得到的情感分布数据集进行情感分布预测任务的训练；步骤5，利用训练好的模型对测试集中的蒙古语情感语料进行情感分布预测。 2.根据权利要求1所述基于语义规则的蒙古语反向重构情感分布学习方法，其特征在于，所述步骤1中，先对蒙古语情感语料进行数据清洗操作，再利用BP E对蒙古语进行分词操作，分词时以每个蒙古语单词作为最小单元。 3.根据权利要求1所述基于语义规则的蒙古语反向重构情感分布学习方法，其特征在于，所述步骤2包括：步骤2.1，从预处理后的蒙古语情感语料中提取所有的情感词、程度词和否定词；步骤2.2，根据语义规则判断情感词组合类型，为情感词修改权重。 4.根据权利要求3所述基于语义规则的蒙古语反向重构情感分布学习方法，其特征在于，所述步骤2.1中，通过情感词典提取情感词，为提取得到的所有情感词赋值权重 “1”，通过程度词典和否定词典分别提取程度词和否定词。 5.根据权利要求3或4所述基于语义规则的蒙古语反向重构情感分布学习方法，其特征在于，所述步骤2.2中，将蒙古语情感语料中的情感词组合类型归纳为以下6种： (1)只有情感词； (2)程度词和情感词，情感词被程度词修饰； (3)否定词和情感词，情感词被否定词修饰； (4)否定词修饰程度词情感词组合； (5)程度词修饰否定词情感词组合； (6)多个否定词和情感词组合；在提取情感词时，如果发现有否定词则情感词对应的情感极性变为反向，此时为情感词的权重乘以 “‑1”；如果不仅发现有而且在其后还发现有则情感词的情感极性不变，情感词的权重按照对应的情感词组合类型中的语义规则确定；将程度词分为高量和低量2个等级，每个等级分别对应不同的权重，在提取情感词时，如果识别到有程度词出现，则通过查询程度词词典对其进行程度级别的判断，并结合上述的6种情感词组合类型为对应的情绪类别修改权重。 6.根据权利要求1所述基于语义规则的蒙古语反向重构情感分布学习方法，其特征在于，所述步骤3包括：步骤3.1，为经过步骤2赋予不同的权重后的情感词建立情感词集合，并为每个情感词找到其在情感轮中对应的情绪标签集合；步骤3.2，利用普鲁契克情感轮的心理学距离为蒙古语情感语料对应的真实情绪标签权　利　要　求　书 1/3 页 2 CN 115146024 A 2生成高斯分布；步骤3.3，利用普鲁契克情感轮的心理学距离为蒙古语情感语料中权重较大的前N个情感词所对应的情绪标签生成高斯分布；步骤3.4，将两个高斯分布叠加为统一的情感分布。 7.根据权利要求6所述基于语义规则的蒙古语反向重构情感分布学习方法，其特征在于，所述步骤3.1，对句子si中提取的所有带权重的情感词建立对应的情感词集合每个情感词wi,k有若干个关联的情绪标签对于权重为负的情感词为其对应与原本情绪相反的情绪，一个句子的文本中包含多个情感词，或没有情感词；每个情感词至少关联一个情绪标签；所述步骤3.2，采用离散高斯分布将情绪标签α 扩展为高斯分布是以 α 为中心，与剩余的其他7种情绪标签e构成的离散高斯分布，其计算公式如下：其中， C是情绪标签的数量， σ是离散高斯分布的标准差， Z是归一化因子，使得 |e‑α|是e与α 之间的情感轮距离，情绪标签e，有8种， 1代表愤怒、 2代表期待、 3 代表高兴、 4代表信任、 5代表恐惧、 6代表惊讶、 7代表悲伤、 8代表厌恶， e＝1代表其初值为1；取α 为句子si的真实情绪标签li，生成其高斯分布所述步骤3.3，选取情感词中权重绝对值较大的前N个情感词，取α为该N个情感词在情感轮中所对应的情绪标签生成高斯分布所述步骤3.4，将和进行叠加，得到综合的情感分布di，计算公式如下：其中， ni是si中情感词的数量， mk是句子si的第k个情感词wi,k的情绪标签数量，是情感词wi,k的第t个情绪标签的高斯分布， λ是真实情绪标签li的权重系数，用于控制分布在情感分布di中的比例。 8.根据权利要求1所述基于语义规则的蒙古语反向重构情感分布学习方法，其特征在于，所述步骤4包括：步骤4.1，为训练模型建立从情感分布到情感语料的反向映射，通过引入反向重构损失函数重构模型的损失函数；步骤4.2，利用步骤3得到的情感分布数据集和所述训练模型进行情感分布预测任务的权　利　要　求　书 2/3 页 3 CN 115146024 A 3

专利 一种基于语义规则的蒙古语反向重构情感分布学习方法

专利一种基于语义规则的蒙古语反向重构情感分布学习方法