说明:收录90万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210835785.9 (22)申请日 2022.07.15 (71)申请人 南京云问网络技 术有限公司 地址 210000 江苏省南京市 鼓楼区建宁路 65号2楼203室 (72)发明人 侯洁 (74)专利代理 机构 南京瑞华腾知识产权代理事 务所(普通 合伙) 32368 专利代理师 胡海 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/216(2020.01)G06N 3/04(2006.01) (54)发明名称 一种基于非结构化文本的考题自动生成设 计方法 (57)摘要 本发明公开了一种基于非结构化文本的考 题自动生 成设计方法, 将本地文档和内部数据进 行数据处理; 段落数据抽取并只保留文本数据; 以内部数据为基础抽取考题时查询获取具有相 同关联数据作为抽取干扰项的待处理数据; 调用 干扰项抽取模 型抽取干扰项数据; 基于段落数据 调用考题抽取模 型执行抽取动作生成考题; 将相 似干扰项、 干扰项数据和考题抽取模 型抽取的考 题进行考题的组装; 人工审核校验编辑后存储入 库。 该基于非结构化文本的考题自动生成设计方 法, 可实现上传非结构化文本, 自动化抽取文本 段落, 并生成单选题、 多选题、 填空题、 判断题、 简 答题等不同类型的考题, 极大程度上提高了考题 创建效率, 节省了大量的人力物力, 节约成本 。 权利要求书2页 说明书4页 附图1页 CN 115168543 A 2022.10.11 CN 115168543 A 1.一种基于非结构化文本的考题自动生成设计方法, 其特 征在于, 包括如下步骤: 1)数据处 理, 将本地文档和内部数据加载到内存中; 2)API抽取段落数据, 通过API解析本地文档的样式进行段落数据抽取并只保留文本数 据; 3)模型抽取段落数据, 调用段落抽取模型进行内部数据的段落数据抽取并只保留文本 数据; 4)存储段落数据, 保存步骤2)和3)抽取的段落数据; 5)获取关联数据, 以内部数据为基础抽取考题时查询获取具有相同关联数据作为抽取 干扰项的待处 理数据; 6)模型抽取干扰项, 调用干扰项抽取模型从步骤5)的关联 数据中抽取干扰项数据; 7)保存干扰项数据, 保存步骤6)抽取的干扰项数据; 8)模型抽取考题数据, 基于段落数据调用考题抽取模型执行抽取动作生成考题, 生成 的考题内容包括题目、 正确答案和考题来源; 9)考题组装, 根据考题的正确答案以及步骤7)中保存的干扰项数据调用相似干扰项抽 取模型抽取正确答案的相似干扰项, 相似干扰项抽取后整合干扰项数据和考题抽取模型抽 取的考题进行考题的组装; 10)考题审核, 通过页面审核组装的考题, 进行人工审核校验, 编辑组装的考题信息, 可 进行修改、 保存、 删除操作; 11)存储考题数据, 校验、 编辑完毕后, 执 行入库操作, 将考题数据存 储入库。 2.根据权利要求1所述的一种基于非结构化文本的考题自动生成设计方法, 其特征在 于: 所述步骤1)中本地文档是指本地 word文档, 内部数据是指待抽取考题的数据。 3.根据权利要求1所述的一种基于非结构化文本的考题自动生成设计方法, 其特征在 于: 所述步骤2)API抽取段落数据, 具体方法为采用java语 言编写的封装方法根据文档格式 进行抽取。 4.根据权利要求1所述的一种基于非结构化文本的考题自动生成设计方法, 其特征在 于: 所述步骤3)模型抽取段落数据的步骤为, 首先采用正则加约束的方式抽取对应的标题 段落, 其次采用CNN ‑BILSTM‑CRF模型进行段落抽取, 分别采用B、 I、 E、 S表示段落的开头、 中 间、 结尾以及单个段落。 5.根据权利要求1所述的一种基于非结构化文本的考题自动生成设计方法, 其特征在 于: 所述步骤8)模型抽取考题数据根据题型采用不同的方法: (1)填空题采用的是关键词抽取和实体识别: ①关键词抽取: 首先对待抽取问题进行分词, 获取问题词语和词性信 息, 同时通过背景 语料库获取词语的数量、 词频、 TF ‑IDF、 长度的统计信息; 对于分词信息, 将其送入 Transformer Encoder模型, 所述Tran sformer Encoder模型通过自注意力机制将词语映射 为高维空间的语义表征; 对于词性信息, 通过POS Embedding网络将词性映射为高维稠 密向 量; 对于统计信息, 做归一化处理以避免数值两极化, 然后进 行拼接作为每一个词的统计信 息向量; 将分词信息、 词性信息和统计信息进行拼接获取每个词语的最 终向量表示, 将词语 的最终向量 通过SoftMax网络层即可获取分类结果。 ②实体识别: 根据数据集的大小以及硬件资源是否充沛采用不同的模型, 在数据量低权 利 要 求 书 1/2 页 2 CN 115168543 A 2于100条的小数据集上, 使用CRF模型; 而在数据量大于1000条的大数据集上, 使用BILSTM ‑ CRF模型; 在硬件资源充沛的情况 下, 采用BERT ‑CRF模型; (2)判断题是根据预置的同义词典进行抽取问题及答案数据; (3)单选题、 多选题、 简答题: 默认采用的是QA ‑Net模型, 用CNN+attention代替传统的 RNN模型来完成阅读理解任务, 在硬件设备情况允许的情况下采用bert模 型, 将问题和文档 通过BERT模 型, 获取问题和文档对应的token embedding的表示, 再将问题和文档连接两个 全连接层, 获取每 个token embedding对应的起始标签和结束标签的概 率; 最终获取答案 。 6.根据权利要求5所述的一种基于非结构化文本的考题自动生成设计方法, 其特征在 于: 所述步骤6)模型抽取干扰项具体采用关键词抽取和实体识别的方法进行干扰项的抽 取。 7.根据权利要求1所述的一种基于非结构化文本的考题自动生成设计方法, 其特征在 于: 所述步骤9)中抽取相似干扰项的相似干扰项抽取模型为sentence bert模型。权 利 要 求 书 2/2 页 3 CN 115168543 A 3
专利 一种基于非结构化文本的考题自动生成设计方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:08:43
上传分享
举报
下载
原文档
(315.4 KB)
分享
友情链接
GB-T 25069-2022 信息安全技术 术语.pdf
NY-T 1520-2021 木薯.pdf
GB-T 4423-2020 铜及铜合金拉制棒.pdf
GW0204-2014 国家电子政务外网 安全管理系统技术要求与接口规范.pdf
商用密码应用安全性测评机构能力评审实施细则(试行).pdf
T-CI 046—2021 医用锗[68Ge]镓[68Ga]发生器及医用镓[68Ga]放射性药物的质量标准.pdf
GB-T 41852-2022 半导体器件 微机电器件 MEMS结构黏结强度的弯曲和剪切试验方法.pdf
南京市民用建筑节能条例.pdf
GB-T 30428.7-2017 数字化城市管理信息系统 第7部分:监管信息采集.pdf
舟山市科技创新促进条例.pdf
GB-T 35008-2018 串行NOR型快闪存储器接口规范.pdf
GB-T 20257.1-2017 国家基本比例尺地图图式 第1部分:1500 11 000 12 000地形图图式.pdf
GB-T 5624-2019 汽车维修术语.pdf
DB3305-T 244-2022 数字法院信息系统运维管理规范 湖州市.pdf
GB-T 37076-2018 信息安全技术 指纹识别系统技术要求.pdf
GB-T 35229-2017 地面气象观测规范 雪深与雪压.pdf
ISO 17825-2016.pdf
北京网络安全大会 中小企业如何做好工业互联网安全防护.pdf
GB-T 36456.3-2018 面向工程领域的共享信息模型 第3部分:测试方法.pdf
DB50-T 1275.6-2022 生猪智慧养殖数字化应用与管理 第6部分:养殖 重庆市.pdf
1
/
3
8
评价文档
赞助2.5元 点击下载(315.4 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。