说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210779228.X (22)申请日 2022.07.01 (71)申请人 电子科技大 学 地址 611731 四川省成 都市高新区 (西区) 西源大道 2006号 (72)发明人 贾海涛 唐小龙 林思远 李家伟  任利 周焕来 贾宇明 许文波  (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/211(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于信息抽取和图模型的法律长文本 相似度计算方法 (57)摘要 本发明提出了一种基于信息抽取和图模型 的法律长文本相似度计算方法, 所述方法包括以 下步骤: 从法律文本中抽取出实体和行为; 用文 本分类从行为中筛选出过错行为; 将两个长文本 中抽取出的实体和过错行为构成图模 型; 根据图 模型中的结构和语义信息求出两个长文本的相 似度。 类案类判的目的为法官手头正在处理的案 件寻找相似甚至相同的案件, 提高判案的速度和 准确性。 本发 明旨在更好地求解法律案件之间的 相似度, 解决传统方法中无法抓住案件要点的问 题, 为实现类 案检索提供算法基础。 权利要求书2页 说明书7页 附图4页 CN 115034229 A 2022.09.09 CN 115034229 A 1.一种基于信息抽取和图模型的法律长文本相似度计算方法, 该 方法包括以下步骤: 步骤1: 实体和行为抽取。 本发明使用LTP语义依存分析树进行实体抽取和行为抽取。 对 于实体抽取, 本发明提出使用LTP语义依存分析中的主体角色、 客体角色, 以及情景角色中 的工具和材料来 实现。 对于行为抽取, 本发 明提出以“主体角色+动作+客体角色 ”的结构, 构 建出语义依存分析子树 来实现。 步骤2: 文本二分类。 对于抽取出来的行为, 需要通过文本分类的方法, 将过错行为从行 为中筛选出来。 本发明在预训练模型RoBERTa ‑wwm‑ext‑large的基础上进行微调, 完成文本 的二分类任务, 将过错行为从行为中筛 选出来。 步骤3: 构建图模型。 在前两步中抽取出了实体和行为, 并对行为进行了筛选得到了过 错行为后, 需要进 行图模型的构建。 首先构建出A的实体和B的实体之 间的图模型, 接着再构 建出A的行为和B的行为之间的图模型。 步骤4: 基于图模型计算相似度。 相似度计算方法包含两个层级的计算, 一个是求解实 体和实体之间的相似度、 行为和行为之间的相似度, 另一个是根据上一步构建的图模型计 算出两个长文本之间的相似度。 2.如权利要求1所属方法, 其特征在于, 步骤1提出使用LTP语义依存分析树进行实体抽 取和行为抽取。 语义依存分析(SDP)是分析句子各个语 言单位之间的语义关联, 并将 语义关 联以依存结构呈现。 LTP的语义依存分析的模型是Electra  Small+BiAffine, 在CCL2020数 据集上的准确率达到76.62%, 在同类算法中具有非常领先的效果。 对于实体抽取, 本发明 创新性地使用LTP 语义依存分析中的主体角色、 客体角色, 以及情景角色中的工具和材料来 实现, 即包括施事、 当事、 受事、 客事、 涉事、 系事、 工具、 材料。 对于行为抽取, 本发明创 新性 地提出以“主体角色+动作+客体角色 ”的结构来实现, 将LTP语义依存分析树得到的主体角 色关系和客体角色关系, 构成若干以动作为核心的子树, 按照 “主体角色+动作+客体角色 ” 的结构来抽取 出行为。 3.如权利要求1所属方法, 其特征在于, 步骤2提出使用在预训练模型RoBERTa ‑wwm‑ ext‑large的基础上进行微调, 完成文本的二分类任务, 将过错行为从行为中筛选出来。 RoBERTa‑wwm‑ext‑large相比于BERT主要有如下优化: RoBERTa预训练模型训练语料、 模型 参数和bacth size大大增加, 使用了更复杂的24层Tran sformer(BERT使用12层)模型; 去 掉 下一句预测(NSP)任务; 使用动态掩码, 每次向模型输入一个序列时都会生成新的掩码模 式; 采用全词掩码(Whole  Word Masking,wwm)技术, 即如果某 个词的部分子词被掩码, 则整 个词都会被掩码; 采用最大长度512进行训练。 4.如权利要求1所属方法, 其特征在于, 步骤3提出实体图模型和过错行为图模型的构 建方法。 首先需要构建出长文本A的实体和长文本B的实体之间的图模型, 两个长文本之间 按照语义相似度的高低来连接实体。 接着再构建出长文本A的行为和长文本B的行为之 间的 图模型, 同一文本之间的行为按照时序关系进行连接, 两个长文本之间按照语义相似度的 高低来连接行为。 5.如权利要求1所属方法, 其特征在于, 步骤4提出一种基于图模型的相似度计算方法。 相似度计算方法包含两个层级的计算, 一个是实体和实体之间, 或者行为和行为之间的相 似度, 另一个是根据上一步构建的图模型计算出两个长文本之间的相似度。 对于第一个层 级的计算, 本发 明采用Sentence ‑BERT(SBERT)进行计算。 对于第二个层级的计算, 由于行为权 利 要 求 书 1/2 页 2 CN 115034229 A 2具有时序性, 本发明创新性地提出一种基于图模型 的相似度计算方法, 充分结合了结构和 语义两方面的信息, 在步骤三建立的行为图模型上进 行计算。 实体不具有时序性, 只结合语 义信息在步骤三建立的实体图模型 上进行计算。 6.如权利要求5所属方法, 其特征在于, 步骤4中要先将所有案件中实体和行为抽取出 来, 并把它们的Sentence ‑BERT(SBERT)嵌入存储到json文件中, 这样在计算相似度时, 只需 要从json文件中找到对应的向量, 然后计算余弦距离 即可。 经过实验验证, 使用此方法比直 接以文本形式存 储案件信息, 速度快10 到20倍。权 利 要 求 书 2/2 页 3 CN 115034229 A 3

.PDF文档 专利 一种基于信息抽取和图模型的法律长文本相似度计算方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于信息抽取和图模型的法律长文本相似度计算方法 第 1 页 专利 一种基于信息抽取和图模型的法律长文本相似度计算方法 第 2 页 专利 一种基于信息抽取和图模型的法律长文本相似度计算方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:07:25上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。