说明:收录90万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210779228.X (22)申请日 2022.07.01 (71)申请人 电子科技大 学 地址 611731 四川省成 都市高新区 (西区) 西源大道 2006号 (72)发明人 贾海涛 唐小龙 林思远 李家伟 任利 周焕来 贾宇明 许文波 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/211(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于信息抽取和图模型的法律长文本 相似度计算方法 (57)摘要 本发明提出了一种基于信息抽取和图模型 的法律长文本相似度计算方法, 所述方法包括以 下步骤: 从法律文本中抽取出实体和行为; 用文 本分类从行为中筛选出过错行为; 将两个长文本 中抽取出的实体和过错行为构成图模 型; 根据图 模型中的结构和语义信息求出两个长文本的相 似度。 类案类判的目的为法官手头正在处理的案 件寻找相似甚至相同的案件, 提高判案的速度和 准确性。 本发 明旨在更好地求解法律案件之间的 相似度, 解决传统方法中无法抓住案件要点的问 题, 为实现类 案检索提供算法基础。 权利要求书2页 说明书7页 附图4页 CN 115034229 A 2022.09.09 CN 115034229 A 1.一种基于信息抽取和图模型的法律长文本相似度计算方法, 该 方法包括以下步骤: 步骤1: 实体和行为抽取。 本发明使用LTP语义依存分析树进行实体抽取和行为抽取。 对 于实体抽取, 本发明提出使用LTP语义依存分析中的主体角色、 客体角色, 以及情景角色中 的工具和材料来 实现。 对于行为抽取, 本发 明提出以“主体角色+动作+客体角色 ”的结构, 构 建出语义依存分析子树 来实现。 步骤2: 文本二分类。 对于抽取出来的行为, 需要通过文本分类的方法, 将过错行为从行 为中筛选出来。 本发明在预训练模型RoBERTa ‑wwm‑ext‑large的基础上进行微调, 完成文本 的二分类任务, 将过错行为从行为中筛 选出来。 步骤3: 构建图模型。 在前两步中抽取出了实体和行为, 并对行为进行了筛选得到了过 错行为后, 需要进 行图模型的构建。 首先构建出A的实体和B的实体之 间的图模型, 接着再构 建出A的行为和B的行为之间的图模型。 步骤4: 基于图模型计算相似度。 相似度计算方法包含两个层级的计算, 一个是求解实 体和实体之间的相似度、 行为和行为之间的相似度, 另一个是根据上一步构建的图模型计 算出两个长文本之间的相似度。 2.如权利要求1所属方法, 其特征在于, 步骤1提出使用LTP语义依存分析树进行实体抽 取和行为抽取。 语义依存分析(SDP)是分析句子各个语 言单位之间的语义关联, 并将 语义关 联以依存结构呈现。 LTP的语义依存分析的模型是Electra Small+BiAffine, 在CCL2020数 据集上的准确率达到76.62%, 在同类算法中具有非常领先的效果。 对于实体抽取, 本发明 创新性地使用LTP 语义依存分析中的主体角色、 客体角色, 以及情景角色中的工具和材料来 实现, 即包括施事、 当事、 受事、 客事、 涉事、 系事、 工具、 材料。 对于行为抽取, 本发明创 新性 地提出以“主体角色+动作+客体角色 ”的结构来实现, 将LTP语义依存分析树得到的主体角 色关系和客体角色关系, 构成若干以动作为核心的子树, 按照 “主体角色+动作+客体角色 ” 的结构来抽取 出行为。 3.如权利要求1所属方法, 其特征在于, 步骤2提出使用在预训练模型RoBERTa ‑wwm‑ ext‑large的基础上进行微调, 完成文本的二分类任务, 将过错行为从行为中筛选出来。 RoBERTa‑wwm‑ext‑large相比于BERT主要有如下优化: RoBERTa预训练模型训练语料、 模型 参数和bacth size大大增加, 使用了更复杂的24层Tran sformer(BERT使用12层)模型; 去 掉 下一句预测(NSP)任务; 使用动态掩码, 每次向模型输入一个序列时都会生成新的掩码模 式; 采用全词掩码(Whole Word Masking,wwm)技术, 即如果某 个词的部分子词被掩码, 则整 个词都会被掩码; 采用最大长度512进行训练。 4.如权利要求1所属方法, 其特征在于, 步骤3提出实体图模型和过错行为图模型的构 建方法。 首先需要构建出长文本A的实体和长文本B的实体之间的图模型, 两个长文本之间 按照语义相似度的高低来连接实体。 接着再构建出长文本A的行为和长文本B的行为之 间的 图模型, 同一文本之间的行为按照时序关系进行连接, 两个长文本之间按照语义相似度的 高低来连接行为。 5.如权利要求1所属方法, 其特征在于, 步骤4提出一种基于图模型的相似度计算方法。 相似度计算方法包含两个层级的计算, 一个是实体和实体之间, 或者行为和行为之间的相 似度, 另一个是根据上一步构建的图模型计算出两个长文本之间的相似度。 对于第一个层 级的计算, 本发 明采用Sentence ‑BERT(SBERT)进行计算。 对于第二个层级的计算, 由于行为权 利 要 求 书 1/2 页 2 CN 115034229 A 2具有时序性, 本发明创新性地提出一种基于图模型 的相似度计算方法, 充分结合了结构和 语义两方面的信息, 在步骤三建立的行为图模型上进 行计算。 实体不具有时序性, 只结合语 义信息在步骤三建立的实体图模型 上进行计算。 6.如权利要求5所属方法, 其特征在于, 步骤4中要先将所有案件中实体和行为抽取出 来, 并把它们的Sentence ‑BERT(SBERT)嵌入存储到json文件中, 这样在计算相似度时, 只需 要从json文件中找到对应的向量, 然后计算余弦距离 即可。 经过实验验证, 使用此方法比直 接以文本形式存 储案件信息, 速度快10 到20倍。权 利 要 求 书 2/2 页 3 CN 115034229 A 3
专利 一种基于信息抽取和图模型的法律长文本相似度计算方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:07:25
上传分享
举报
下载
原文档
(890.8 KB)
分享
友情链接
GB-T 34990-2017 信息安全技术 信息系统安全管理平台技术要求和测试评价方法.pdf
GB-T 40665.4-2021 中医四诊操作规范 第4部分:切诊.pdf
思度安全-DSMM-007 数据脱敏安全管理规范V1.0.pdf
ISO IEC 27017-2015.pdf
GB-T 21294-2024 服装理化性能的检验方法.pdf
DB31-T 1446-2023 公共数据安全分级指南 上海市.pdf
GB-T 1499.3-2022 钢筋混凝土用钢 第3部分:钢筋焊接网.pdf
T-CES 177—2022 磷酸铁锂电池储能舱早期安全预警系统技术规范.pdf
T-ACEF 110—2023 公民绿色低碳行为温室气体减排量化指南 行:机动车停驶.pdf
T-CAAM 016—2014 循证针灸临床实践指南:过敏性鼻炎.pdf
GB-T 2518-2019 连续热镀锌和锌合金镀层钢板及钢带.pdf
GB-T 13171.1-2022 洗衣粉 第1部分:技术要求.pdf
GB-T 33490-2017 展览展示工程服务基本要求.pdf
IATF安全框架 中文版 .pdf
GB-T 34120-2017 电化学储能系统储能变流器技术规范.pdf
GB-T 10789-2015 饮料通则.pdf
火绒安全 2021终端安全情报年鉴.pdf
ISO IEC 19770-6 2024 Information technology — IT asset management — Part 6 Hard.pdf
NY-T 2259-2012 橡胶树主要病虫害防治技术规范.pdf
XF-T 999-2012 防排烟系统性能现场验证方法热烟试验法.pdf
1
/
3
14
评价文档
赞助2.5元 点击下载(890.8 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。