说明:收录90万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210861283.3 (22)申请日 2022.07.20 (71)申请人 杭州一知智能科技有限公司 地址 311200 浙江省杭州市萧 山区启迪路 198号杭州湾信息 港F座7楼 (72)发明人 张涛 姜兴华 陈煦 (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 郑海峰 (51)Int.Cl. G06N 3/08(2006.01) G06N 3/04(2006.01) G06K 9/62(2022.01) G06F 40/30(2020.01) (54)发明名称 一种基于鉴别器思想的文本蒸馏方法、 系统 和存储介质 (57)摘要 本发明公开了一种基于鉴别器思想的文本 蒸馏方法、 系统和存储介质, 属于自然语言处理 领域。 方法包括: 获取已标注的第一文本数据集 和未标注的第二文本数据集; 利用所述的第一文 本数据集对 预训练模型进行训练, 将训练好的预 训练模型作为教师模型; 所述的预训练模型包括 若干相同的网络层; 构建学生模型, 利用第二文 本数据集对教师模型和学生模型进行知识蒸馏 训练, 并采用掩码训练法测试学生模 型的学习效 果, 结合知识蒸馏损失和掩码训练损失更新学生 模型的参数; 将训练好的学生模型代替教师模 型。 本发明对传统的知识蒸馏算法进行了改进, 让学生模型在参数量尽可能小的情况下提高性 能, 使其在性能表现上像教师模型一样优秀。 权利要求书2页 说明书8页 附图2页 CN 115271064 A 2022.11.01 CN 115271064 A 1.一种基于鉴别器思想的文本蒸馏方法, 其特 征在于, 包括: 获取已标注的第一文本数据集和未 标注的第二文本数据集; 利用所述的第 一文本数据集对预训练模型进行训练, 将训练好的预训练模型作为教师 模型; 所述的预训练模型包括 n个相同的网络层; 构建由m个与所述的预训练模型相同的网络层组成的学生模型, 利用第二文本数据集 对教师模型和学生模型进行知识蒸馏训练, 并采用掩码训练法测试学生模型 的学习效果, 结合知识蒸馏损失和掩码训练损失更新学生模型的参数; 其中, m<n; 将训练好的学生模型代替教师模型。 2.根据权利要求1所述的基于鉴别器思想的文本蒸馏方法, 其特征在于, 所述的预训练 模型由12层t ransformer网络组成。 3.根据权利要求1所述的基于鉴别器思想的文本蒸馏方法, 其特征在于, 还包括测试训 练好的学生模型的训练效果的步骤, 具体为: 测试教师模型和学生模 型的准确率的差值, 若 差值高于阈值, 则构建由m+1个与所述的预训练模型相同的网络层组成的学生模型重新进 行训练。 4.根据权利要求3所述的基于鉴别器思想的文本蒸馏方法, 其特征在于, 所述的学生模 型初始化 为由2‑4个与所述的预训练模型相同的网络层构成。 5.根据权利要求1所述的基于鉴别器思想的文本蒸馏方法, 其特征在于, 所述的学生模 型中的最后一层网络层之后还设有一层或多层全连接层。 6.根据权利要求5所述的基于鉴别器思想的文本蒸馏方法, 其特征在于, 所述的采用掩 码训练法测试 学生模型的学习效果, 包括: 对第二文本数据集中的原始文本语句进行随机掩码, 将教师模型作为生成器, 将掩码 后的文本语句作为教师模型 的输入, 由教师模型输出将掩码部分填充后的预测文本语句; 对比预测文本语句和原始文本语句, 将不一致的字符标记 为1, 其余标记为0, 将标记结果作 为每一条 预测文本语句的真实标签; 将学生模型作为为鉴别器, 将预测文本语句作为学生模型的输入, 由学生模型判断预 测文本语句中每一个字符是否经 过修改, 由全连接层输出 预测结果; 根据教师模型生成的真实标签和学生模型生成的预测结果计算掩码训练损失。 7.一种基于鉴别器思想的文本蒸馏系统, 其特 征在于, 包括: 文本数据获取模块, 其用于获取已标注的第一文本数据集和未标注的第二文本数据 集; 第一训练模块, 其用于利用所述的第一文本数据集对预训练模型进行训练, 将训练好 的预训练模型作为教师模型; 所述的预训练模型包括 n个相同的网络层; 学生模型构建模块, 其用于构建由m个与所述的预训练模型相同的网络层组成的学生 模型; 第二训练模块, 其用于利用第二文本数据集对教师模型和学生模型进行知识蒸馏训 练, 计算知识蒸馏损失; 掩码测试模块, 其用于采用掩码训练法测试 学生模型的学习效果, 计算掩码训练损失; 学生模型参数更新模块, 其用于结合知识蒸馏损失和掩码训练损失更新学生模型的参 数。权 利 要 求 书 1/2 页 2 CN 115271064 A 28.根据权利要求7 所述的基于鉴别器思想的文本蒸馏系统, 其特 征在于, 还 包括: 训练效果测试模块, 其用于测试教师模型和学生模型的准确率的差值, 若差值高于阈 值, 则由学生模型构建模块构建由m+1个与所述的预训练模型相同的网络层组成的学生模 型重新进行训练。 9.一种电子设备, 其特 征在于, 包括存 储器和处 理器; 所述存储器, 用于存 储计算机程序; 所述处理器, 用于当执行所述计算机程序时, 实现如权利要求1至6任一项所述的基于 鉴别器思想的文本蒸馏方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时, 实现如权利要求1至 6任一项所述的基于鉴别器思想的文本蒸馏方法。权 利 要 求 书 2/2 页 3 CN 115271064 A 3
专利 一种基于鉴别器思想的文本蒸馏方法、系统和存储介质
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:08:41
上传分享
举报
下载
原文档
(489.7 KB)
分享
友情链接
JY-T 0584-2020 扫描电子显微镜分析方法通则.pdf
GB-T 26269-2010 网络入侵检测系统技术要求.pdf
LLMs解决进攻性安全挑战的实证评估-2402.11814.pdf
上海市网络安全事件应急预案 2019.pdf
DB3301-T 0385—2022 大学生创业园服务规范 杭州市.pdf
GB-T 19392-2013 车载卫星导航设备通用规范.pdf
360 2022年智能网联汽车信息安全研究报告.pdf
GB-T 19867.6-2016 激光-电弧复合焊接工艺规程.pdf
GB-T 33817-2017 铜及铜合金管材内表面碳含量的测定方法.pdf
DB51-T 2247-2016 重点用能单位节能管理规范 四川省.pdf
GB-T 20520-2006 信息安全技术 公钥基础设施 时间戳规范.pdf
JR-T 0071.3—2020 金融行业网络安全等级保护实施指引 第3部分:岗位能力要求和评价指引.pdf
GB-T 38699-2020 村级公共服务中心建设与管理规范.pdf
DB4404-T 13-2021 中小企业卓越绩效评价准则 珠海市.pdf
NB-T 10561-2021 风力发电机叶片检修规范.pdf
GB-T 29171-2012 岩石毛管压力曲线的测定.pdf
专利 针对APT攻击的安全编排与自动化响应方法、装置及系统.PDF
GB-T 19964-2024 光伏发电站接入电力系统技术规定.pdf
DB37-T 3483-2019 人民防空可视化互联平台功能要求 山东省.pdf
GB-T 36627-2018 信息安全技术 网络安全等级保护测试评估技术指南.pdf
1
/
3
13
评价文档
赞助2.5元 点击下载(489.7 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。