说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210560027.0 (22)申请日 2022.05.23 (71)申请人 大连理工大 学 地址 116024 辽宁省大连市甘井 子区凌工 路2号 (72)发明人 盛昳媛 许圣 赖越 叶子旺  刘秀平  (74)专利代理 机构 大连理工大 学专利中心 21200 专利代理师 戴风友 (51)Int.Cl. G06T 11/00(2006.01) G06F 40/30(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01)G06F 40/205(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于改进版文本解析器的文本至图像 生成算法 (57)摘要 本发明属于计算机视觉技术领域, 具体涉及 一种基于改进版文本解析器的文本至图像生成 算法。 本发 明是一种端到端从文本到图像的生成 器, 它可以解析文本, 提取出主、 谓、 宾三元组, 从 而生成符合文本描述的布局图, 最终依据布局生 成图像。 本发明标注词性, 识别文本并提取出文 本中(主、 谓、 宾)三元组, 然后通过人工分类网络 及学习出来的关系自动分类网络进行6种几何映 射, 从而依据最终三元组生 成符合文本描述的布 局图。 基于语义表达的多样性, 我们的映射关系 是一对多而非一对一的, 如此得到的布局图也具 有多样性。 最后我们从布局图得到复杂场景, 并 融合了风格 迁移, 可生成具有特殊 风格的图像 。 权利要求书4页 说明书5页 附图4页 CN 115018941 A 2022.09.06 CN 115018941 A 1.一种基于改进版文本解析器的文本至图像生成算法, 其特征在于, 该方法包括以下 步骤: 步骤S1: 提取COCO数据集中的文本信息并进行统计与分类, 完成信息统计工作; 步骤S2: 基于精细分类构建 关系映射数据集, 并将其划分训练集、 验证集与测试集; 步骤S3: 构建关系自动分类网络, 并基于步骤S2中的分类数据集进行预训练, 实现复杂 语义关系到几何 空间关系的映射; 所述步骤S3具体为: 步骤S31: 构建embedding  layer模块, 即使用预训练好的word2vec模型, 得到文本、 三 元组、 关系词中分别对应的词嵌入向量, 具体而言: 该模块中, 文本t、 每个三元组ci以及关 系词ri都输入到加载了预训练权重的word2vec模型中, 分别得到文本嵌入向量 三元组 嵌入向量 与词向量的特 征 步骤S32: 构建LSTM网络, 对文本及三元组的嵌入向量进行进一步处理, 提取语义特征 向量; 即在每个LSTM单元利用遗忘门控制决定丢弃上一层中的文本特征信息, 利用输入门 存放有效的文本特征信息, 利用输出门对每层的输出文本信息进行过滤; 将文本嵌入向量 输入LSTM网络, 通过LSTM单元, 输出文本特征ft; 将源自文本的三元组嵌入向量 输入 LSTM网络, 通过LSTM单 元, 输出三元组特 征 步骤S33: 基于步骤S31中的embedding  layer模块、 步骤S32中的LSTM模块, 再融合MLP 模块共同构建关系自动分类网络; 具体而言, 将关系词向量 文本特征ft, 三元组特征 拼接在一起得到特征f, 即定义 其中, [; ]表示拼接; 将f输入多层感知机 (MLP)得到6维向量, 向量中每一个元素代表着一类COCO数据集中可 以处理的几何位置关 系; 步骤S34: 使用步骤S2中构 建的关系映射数据集对步骤S33中构 建的关系自动分类网络 进行预训练, 并使用Adam优化器来 最小化损失; 步骤S4: 构建文本自动处 理模块, 实现对输入文本的关键信息提取; 步骤S5: 基于步骤S3中的关系自动分类网络与步骤S4中的文本自动处理模块, 构建改 进版的文本的解析器, 输入文本描述, 输出解析后的结构化 三元组, 进 而得到场景图; 步骤S6: 基于场景图至图像生成算法sg2im构建布局预测网络, 并将场景图输入到布局 预测网络中, 得到场景布局; 步骤S7: 结合Real ‑Time Style Transfer风格转移与LostGANs图像生成模型构建风格 化图像生成网络, 并将布局输入风格化图像生成网络中, 得到具有不同艺 术风格的图像; 步骤S8: 基于步骤S5中的改进版文本解析器, 步骤S6中的布局预测网络, 步骤S7中的风 格化图像生成网络, 按照S5、 S6、 S7的顺序 实现整体的文本至图像生成算法, 并将算法嵌入 网页后台, 实现网络设计, 以方便用户使用。 2.根据权利要求1所述的一种基于改进版文本解析器的文本至图像算法, 其特征在于, 所述步骤S1具体为: 步骤S11: 将COCO数据集中的文本信息进行解析; 首先, 对一句话中的所有词语进行词 性标注; 其次, 搜索并记录句子的名词和他们的修饰语; 随后, 确定动词的主语(包括名词主权 利 要 求 书 1/4 页 2 CN 115018941 A 2语, 介词宾语); 而后, 找到各个名词之间的关系; 最后, 根据找到的名词及关系, 生成形如 (主, 谓, 宾)的结构化 三元组; 步骤S12: 将所有关系词提取整合成一个集 合, 作为待学习的关系集 合; 步骤S13: 对关系词进行粗分类处理; 即, 将频次大于等于30的关系词 汇进行粗分类, 分 为Geometric(几何关系), Po ssessive(从属关系), Semantic(语义 关系), Misc(其他)四类, 对数据集信息 完成初步统计。 3.根据权利要求1或2所述的一种基于改进版文本解析器的文本至图像算法, 其特征在 于, 所述步骤S2具体为: 步骤S21: 结合步骤S11中对文本的解析, 对文本中的关系词进行细分类处理, 将关系集 合内的所有关系都映射到6种几何关系(Left  of、 Right  of、 Above、 Below、 Surrounding、 Inside)中; 步骤S22: 将6种几何关系类别转为6维向量, 其中将步骤S21中的人工分类的几何关系 类数值设置1, 其 余类别数值设置 0, 并以该向量作为原关系词的分类标签, 完成数据处 理; 步骤S23: 基于步骤S11中的输入文本、 解析出的三元组、 关系词以及步骤S22得到的类 别标签, 构建关系映射数据集, 并按照 80%, 10%, 10%的比例将其进一步划分为训练集、 测 试集与验证集。 4.根据权利要求1或2所述的一种基于改进版文本解析器的文本至图像算法, 其特征在 于, 所述步骤S4具体为: 步骤S41: 改进对于文本中含有and前后连词的并列关系提取不好的问题; 首先, 将含有 and等连词连接的文本先识别划分, 然后再进 行词性标注, 对(主, 谓, 宾)三元 组结构化信息 进行提取; 步骤S42: 改进对于数量词修饰的物体只能提取一个的问题; 首先, 利用spacy判断修饰 词是否属于数量词, 若 是, 根据识别的数量词数目, 添加上对应数目的物体和(主, 谓, 宾)结 构化三元组; 步骤S43: 改进对于含有be动词的文本信息提取不好的问题; 首先, 进行词性标注, 在提 取(主, 谓, 宾)三元组之前, 将be动词识别并删除; 步骤S44: 实现文本自动处理模块的构建; 输入文本后, 按照步骤S41、 步骤S42、 步骤S43 的顺序对文本进行处 理。 5.根据权利要求3所述的一种基于改进版文本解析器的文本至图像算法, 其特征在于, 所述步骤S4具体为: 步骤S41: 改进对于文本中含有and前后连词的并列关系提取不好的问题; 首先, 将含有 and等连词连接的文本先识别划分, 然后再进 行词性标注, 对(主, 谓, 宾)三元 组结构化信息 进行提取; 步骤S42: 改进对于数量词修饰的物体只能提取一个的问题; 首先, 利用spacy判断修饰 词是否属于数量词, 若 是, 根据识别的数量词数目, 添加上对应数目的物体和(主, 谓, 宾)结 构化三元组; 步骤S43: 改进对于含有be动词的文本信息提取不好的问题; 首先, 进行词性标注, 在提 取(主, 谓, 宾)三元组之前, 将be动词识别并删除; 步骤S44: 实现文本自动处理模块的构建; 输入文本后, 按照步骤S41、 步骤S42、 步骤S43权 利 要 求 书 2/4 页 3 CN 115018941 A 3

.PDF文档 专利 一种基于改进版文本解析器的文本至图像生成算法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于改进版文本解析器的文本至图像生成算法 第 1 页 专利 一种基于改进版文本解析器的文本至图像生成算法 第 2 页 专利 一种基于改进版文本解析器的文本至图像生成算法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:07:56上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。