专利 一种基于信息抽取和图模型的法律长文本相似度计算方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210779228.X (22)申请日 2022.07.01 (71)申请人电子科技大学地址 611731 四川省成都市高新区（西区）西源大道 2006号 (72)发明人贾海涛　唐小龙　林思远　李家伟　任利　周焕来　贾宇明　许文波　 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/211(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于信息抽取和图模型的法律长文本相似度计算方法 (57)摘要本发明提出了一种基于信息抽取和图模型的法律长文本相似度计算方法，所述方法包括以下步骤：从法律文本中抽取出实体和行为；用文本分类从行为中筛选出过错行为；将两个长文本中抽取出的实体和过错行为构成图模型；根据图模型中的结构和语义信息求出两个长文本的相似度。类案类判的目的为法官手头正在处理的案件寻找相似甚至相同的案件，提高判案的速度和准确性。本发明旨在更好地求解法律案件之间的相似度，解决传统方法中无法抓住案件要点的问题，为实现类案检索提供算法基础。权利要求书2页说明书7页附图4页 CN 115034229 A 2022.09.09 CN 115034229 A 1.一种基于信息抽取和图模型的法律长文本相似度计算方法，该方法包括以下步骤：步骤1：实体和行为抽取。本发明使用LTP语义依存分析树进行实体抽取和行为抽取。对于实体抽取，本发明提出使用LTP语义依存分析中的主体角色、客体角色，以及情景角色中的工具和材料来实现。对于行为抽取，本发明提出以“主体角色+动作+客体角色 ”的结构，构建出语义依存分析子树来实现。步骤2：文本二分类。对于抽取出来的行为，需要通过文本分类的方法，将过错行为从行为中筛选出来。本发明在预训练模型RoBERTa ‑wwm‑ext‑large的基础上进行微调，完成文本的二分类任务，将过错行为从行为中筛选出来。步骤3：构建图模型。在前两步中抽取出了实体和行为，并对行为进行了筛选得到了过错行为后，需要进行图模型的构建。首先构建出A的实体和B的实体之间的图模型，接着再构建出A的行为和B的行为之间的图模型。步骤4：基于图模型计算相似度。相似度计算方法包含两个层级的计算，一个是求解实体和实体之间的相似度、行为和行为之间的相似度，另一个是根据上一步构建的图模型计算出两个长文本之间的相似度。 2.如权利要求1所属方法，其特征在于，步骤1提出使用LTP语义依存分析树进行实体抽取和行为抽取。语义依存分析(SDP)是分析句子各个语言单位之间的语义关联，并将语义关联以依存结构呈现。 LTP的语义依存分析的模型是Electra Small+BiAffine，在CCL2020数据集上的准确率达到76.62％，在同类算法中具有非常领先的效果。对于实体抽取，本发明创新性地使用LTP 语义依存分析中的主体角色、客体角色，以及情景角色中的工具和材料来实现，即包括施事、当事、受事、客事、涉事、系事、工具、材料。对于行为抽取，本发明创新性地提出以“主体角色+动作+客体角色 ”的结构来实现，将LTP语义依存分析树得到的主体角色关系和客体角色关系，构成若干以动作为核心的子树，按照 “主体角色+动作+客体角色 ” 的结构来抽取出行为。 3.如权利要求1所属方法，其特征在于，步骤2提出使用在预训练模型RoBERTa ‑wwm‑ ext‑large的基础上进行微调，完成文本的二分类任务，将过错行为从行为中筛选出来。 RoBERTa‑wwm‑ext‑large相比于BERT主要有如下优化： RoBERTa预训练模型训练语料、模型参数和bacth size大大增加，使用了更复杂的24层Tran sformer(BERT使用12层)模型；去掉下一句预测(NSP)任务；使用动态掩码，每次向模型输入一个序列时都会生成新的掩码模式；采用全词掩码(Whole Word Masking,wwm)技术，即如果某个词的部分子词被掩码，则整个词都会被掩码；采用最大长度512进行训练。 4.如权利要求1所属方法，其特征在于，步骤3提出实体图模型和过错行为图模型的构建方法。首先需要构建出长文本A的实体和长文本B的实体之间的图模型，两个长文本之间按照语义相似度的高低来连接实体。接着再构建出长文本A的行为和长文本B的行为之间的图模型，同一文本之间的行为按照时序关系进行连接，两个长文本之间按照语义相似度的高低来连接行为。 5.如权利要求1所属方法，其特征在于，步骤4提出一种基于图模型的相似度计算方法。相似度计算方法包含两个层级的计算，一个是实体和实体之间，或者行为和行为之间的相似度，另一个是根据上一步构建的图模型计算出两个长文本之间的相似度。对于第一个层级的计算，本发明采用Sentence ‑BERT(SBERT)进行计算。对于第二个层级的计算，由于行为权　利　要　求　书 1/2 页 2 CN 115034229 A 2具有时序性，本发明创新性地提出一种基于图模型的相似度计算方法，充分结合了结构和语义两方面的信息，在步骤三建立的行为图模型上进行计算。实体不具有时序性，只结合语义信息在步骤三建立的实体图模型上进行计算。 6.如权利要求5所属方法，其特征在于，步骤4中要先将所有案件中实体和行为抽取出来，并把它们的Sentence ‑BERT(SBERT)嵌入存储到json文件中，这样在计算相似度时，只需要从json文件中找到对应的向量，然后计算余弦距离即可。经过实验验证，使用此方法比直接以文本形式存储案件信息，速度快10 到20倍。权　利　要　求　书 2/2 页 3 CN 115034229 A 3

专利 一种基于信息抽取和图模型的法律长文本相似度计算方法

专利一种基于信息抽取和图模型的法律长文本相似度计算方法