说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210550303.5 (22)申请日 2022.05.20 (71)申请人 大连大学 地址 116622 辽宁省大连市经济技 术开发 区学府大街10号 (72)发明人 汪祖民 徐畅 季长清 秦静  (74)专利代理 机构 大连智高专利事务所(特殊 普通合伙) 2123 5 专利代理师 盖小静 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于生成对抗网络的规范医疗文本改 写方法 (57)摘要 本发明公开了一种基于生成对抗网络的规 范医疗文本改写方法, 包括: 抽取口语化和规范 化的医疗问答语料进行处理, 获得数据集; 采用 Transformer模型构建规范化医疗文本生成器与 口语化医疗文本生成器, 通过用户健康术语映射 表进行预训练, 得到规范化医疗文本; 采用LSTM 神经网络构建规范化医疗文本判别器与口语化 医疗文本判别器; 结合医疗文本特征, 使用损失 函数分别优化规范化医疗文本判别器与口语化 医疗文本判别器; 采用强化学习方式优化规范化 医疗文本生成器与口语化医疗文本生成器。 本发 明实现了口语化文本与规范化文本之间相互迁 移改写, 解决传统文本迁移模型对 标注语料的过 分依赖问题, 使模型在没有平行语料的情况下仍 然可靠, 减少人工标注数据需要耗费的工作量。 权利要求书4页 说明书7页 附图2页 CN 114757188 A 2022.07.15 CN 114757188 A 1.一种基于生成对抗网络的规范医疗文本改写方法, 其特 征在于, 包括: 抽取口语化和规范化的医疗问答语料进行处 理, 获得数据集; 采用Tran sformer模型构建规范化医疗文本生成器 与口语化医疗文本生成 器 通过用户健康术语映射表进行 预训练, 得到规范化医疗文本; 采用LSTM神经网络构建规范化医疗文本判别器DΦ1(Y)(Y)与口语化医疗文本判别器 DΦ2(X)(X); 结合医疗文本特征, 使用 损失函数分别优化规范化医疗文本判别器DΦ1(Y)(Y)与口语化 医疗文本判别器DΦ2(X)(X); 采用强化学习方式优化规范化医疗文本生成器 与口语化医疗文本生成器 2.根据权利要求1所述一种基于生成对抗网络的规范医疗文本改写方法, 其特征在于, 所述数据集中口语化的语句作为X风格样本, 包含规范化词语的语句作为要转换的Y目标风 格的伪平行样本; 通过用户健康术语映射表对测试集中能够与术语映射的口语化语句进 行 标注, 作为隐藏层提供 给规范化医疗文本生成器 3.根据权利要求2所述一种基于生成对抗网络的规范医疗文本改写方法, 其特征在于, 所述数据集包括: 数据集X={x1, x2,…, xi,…, xn}, 数据集Y={y1, y2,…, yi,…, yn}, 其中, i 表示第i条样本, n表示共有n条样 本, x与y分别表 示口语化风格的样本语句与规范化风格的 样本语句; 口语化风格的样本语句表示为: 表示句子的第t个词, T表示句子长 度, 即词的数量; 为了能够使口语化风格的样本语句与规范化风格的样本语句相互关联, 通过分词识别 出每条语句中的医疗实体后, 结合用户健康术语映射表对未规范的口语化风格的样本语句 进行标注, 标注序列记为 其中, 需要进行规范化的样本语句对应位置标注为 1, 无需规范化的样本语句则标注为0 。 4.根据权利要求1所述一种基于生成对抗网络的规范医疗文本改写方法, 其特征在于, 采用Transformer模型构建规范化医疗文本生成器 与口语化医疗文本生成器 具体为: 采用C ycleGAN结构, 构建规范化医疗文本生 成器 与口语 化医疗文本 生成器 两个生成器的生成方向相反, 连接后能够形成闭环互相提 供反馈信息 。 5.根据权利要求4所述一种基于生成对抗网络的规范医疗文本改写方法, 其特征在于, 使用最大似然估计预训练规范化医疗文本生成器 与口语化医疗文本生成器 具体方式为: 设置生成句式最长长度为30个词, 给定词嵌入维度Embedding_ size值为512, 编码器Encoder和解码器Decoder均为六层结构; 将用户健康术语映射表设为 生成词表, 使用从口语化风格样本语句与规范化风格样本语句中划分出的训练集一起预训 练词向量, 生成单词对应的Embed ding初始值。 6.根据权利要求1所述一种基于生成对抗网络的规范医疗文本改写方法, 其特征在于, 采用LSTM神经网络构建规范化医疗文本判别器DΦ1(Y)(Y)与口语化医疗文本判别器DΦ2(X)权 利 要 求 书 1/4 页 2 CN 114757188 A 2(X), 具体为: 将LSTM神经网络的最后一个隐藏层Hn替换为二元逻辑回归层, 确定输入的医疗文本是 来自于数据集Y的真实样本还是由规范化医疗文本生成器生成的样本 对于输入的医疗文本高维序列进行非线性转换, 得到序列中单词的Embeddin g, 然后输 入到每个基本单元cell中, 结合全连接隐藏层得到 输出每个单词的概 率。 7.根据权利要求1所述一种基于生成对抗网络的规范医疗文本改写方法, 其特征在于, 使用损失函数分别优化规范化医疗文本判别器DΦ1(Y)(Y)与口语化医疗文本判别器DΦ2(X) (X), 具体为: 在生成器可调 参数θ1固定的情况下随机采样数据集Y的真实样本以及规范化医疗文本 生成器生成的样本 然后最小化交叉熵; 规范化医疗文本判别器DΦ1(Y)(Y)的损失函数如 下: Lall=β1L1+β2L2 其中L1为规范化医疗文本判别器的生成对抗损失, β1为损失项系数, L2为序列标注损 失, β2为损失项系数, β1与β2的范围均小于 0.5; 在生成器可调 参数θ2固定的情况下随机采样数据集X的真实样本以及口语化医疗文本 生成器生成的样本 然后最小化交叉熵; 口语化医疗文本判别器DΦ2(X)(X)的损失函数如 下: L′all=β1L′1+β2L′2 其中L′1为口语化医疗文本判别器的生成对抗损失, β1为损失项系数, L ′2为序列标注损 失, β2为损失项系数, β1与β2的范围均小于 0.5。 8.根据权利要求1所述一种基于生成对抗网络的规范医疗文本改写方法, 其特征在于, 采用强化学习方式优化 规范化医疗文本生成器, 具体为: 规范化医疗文本生成器采用最小化交叉熵损失函数来优化: 上述公式的梯度等于下式: 结合强化学习机制, 获取规范化医疗文本生成器 的奖励函数为:权 利 要 求 书 2/4 页 3 CN 114757188 A 3

.PDF文档 专利 一种基于生成对抗网络的规范医疗文本改写方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于生成对抗网络的规范医疗文本改写方法 第 1 页 专利 一种基于生成对抗网络的规范医疗文本改写方法 第 2 页 专利 一种基于生成对抗网络的规范医疗文本改写方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:08:20上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。