专利 一种基于改进版文本解析器的文本至图像生成算法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210560027.0 (22)申请日 2022.05.23 (71)申请人大连理工大学地址 116024 辽宁省大连市甘井子区凌工路2号 (72)发明人盛昳媛　许圣　赖越　叶子旺　刘秀平　 (74)专利代理机构大连理工大学专利中心 21200 专利代理师戴风友 (51)Int.Cl. G06T 11/00(2006.01) G06F 40/30(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01)G06F 40/205(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于改进版文本解析器的文本至图像生成算法 (57)摘要本发明属于计算机视觉技术领域，具体涉及一种基于改进版文本解析器的文本至图像生成算法。本发明是一种端到端从文本到图像的生成器，它可以解析文本，提取出主、谓、宾三元组，从而生成符合文本描述的布局图，最终依据布局生成图像。本发明标注词性，识别文本并提取出文本中(主、谓、宾)三元组，然后通过人工分类网络及学习出来的关系自动分类网络进行6种几何映射，从而依据最终三元组生成符合文本描述的布局图。基于语义表达的多样性，我们的映射关系是一对多而非一对一的，如此得到的布局图也具有多样性。最后我们从布局图得到复杂场景，并融合了风格迁移，可生成具有特殊风格的图像。权利要求书4页说明书5页附图4页 CN 115018941 A 2022.09.06 CN 115018941 A 1.一种基于改进版文本解析器的文本至图像生成算法，其特征在于，该方法包括以下步骤：步骤S1：提取COCO数据集中的文本信息并进行统计与分类，完成信息统计工作；步骤S2：基于精细分类构建关系映射数据集，并将其划分训练集、验证集与测试集；步骤S3：构建关系自动分类网络，并基于步骤S2中的分类数据集进行预训练，实现复杂语义关系到几何空间关系的映射；所述步骤S3具体为：步骤S31：构建embedding layer模块，即使用预训练好的word2vec模型，得到文本、三元组、关系词中分别对应的词嵌入向量，具体而言：该模块中，文本t、每个三元组ci以及关系词ri都输入到加载了预训练权重的word2vec模型中，分别得到文本嵌入向量三元组嵌入向量与词向量的特征步骤S32：构建LSTM网络，对文本及三元组的嵌入向量进行进一步处理，提取语义特征向量；即在每个LSTM单元利用遗忘门控制决定丢弃上一层中的文本特征信息，利用输入门存放有效的文本特征信息，利用输出门对每层的输出文本信息进行过滤；将文本嵌入向量输入LSTM网络，通过LSTM单元，输出文本特征ft；将源自文本的三元组嵌入向量输入 LSTM网络，通过LSTM单元，输出三元组特征步骤S33：基于步骤S31中的embedding layer模块、步骤S32中的LSTM模块，再融合MLP 模块共同构建关系自动分类网络；具体而言，将关系词向量文本特征ft，三元组特征拼接在一起得到特征f，即定义其中， [； ]表示拼接；将f输入多层感知机 (MLP)得到6维向量，向量中每一个元素代表着一类COCO数据集中可以处理的几何位置关系；步骤S34：使用步骤S2中构建的关系映射数据集对步骤S33中构建的关系自动分类网络进行预训练，并使用Adam优化器来最小化损失；步骤S4：构建文本自动处理模块，实现对输入文本的关键信息提取；步骤S5：基于步骤S3中的关系自动分类网络与步骤S4中的文本自动处理模块，构建改进版的文本的解析器，输入文本描述，输出解析后的结构化三元组，进而得到场景图；步骤S6：基于场景图至图像生成算法sg2im构建布局预测网络，并将场景图输入到布局预测网络中，得到场景布局；步骤S7：结合Real ‑Time Style Transfer风格转移与LostGANs图像生成模型构建风格化图像生成网络，并将布局输入风格化图像生成网络中，得到具有不同艺术风格的图像；步骤S8：基于步骤S5中的改进版文本解析器，步骤S6中的布局预测网络，步骤S7中的风格化图像生成网络，按照S5、 S6、 S7的顺序实现整体的文本至图像生成算法，并将算法嵌入网页后台，实现网络设计，以方便用户使用。 2.根据权利要求1所述的一种基于改进版文本解析器的文本至图像算法，其特征在于，所述步骤S1具体为：步骤S11：将COCO数据集中的文本信息进行解析；首先，对一句话中的所有词语进行词性标注；其次，搜索并记录句子的名词和他们的修饰语；随后，确定动词的主语(包括名词主权　利　要　求　书 1/4 页 2 CN 115018941 A 2语，介词宾语)；而后，找到各个名词之间的关系；最后，根据找到的名词及关系，生成形如 (主，谓，宾)的结构化三元组；步骤S12：将所有关系词提取整合成一个集合，作为待学习的关系集合；步骤S13：对关系词进行粗分类处理；即，将频次大于等于30的关系词汇进行粗分类，分为Geometric(几何关系)， Po ssessive(从属关系)， Semantic(语义关系)， Misc(其他)四类，对数据集信息完成初步统计。 3.根据权利要求1或2所述的一种基于改进版文本解析器的文本至图像算法，其特征在于，所述步骤S2具体为：步骤S21：结合步骤S11中对文本的解析，对文本中的关系词进行细分类处理，将关系集合内的所有关系都映射到6种几何关系(Left of、 Right of、 Above、 Below、 Surrounding、 Inside)中；步骤S22：将6种几何关系类别转为6维向量，其中将步骤S21中的人工分类的几何关系类数值设置1，其余类别数值设置 0，并以该向量作为原关系词的分类标签，完成数据处理；步骤S23：基于步骤S11中的输入文本、解析出的三元组、关系词以及步骤S22得到的类别标签，构建关系映射数据集，并按照 80％， 10％， 10％的比例将其进一步划分为训练集、测试集与验证集。 4.根据权利要求1或2所述的一种基于改进版文本解析器的文本至图像算法，其特征在于，所述步骤S4具体为：步骤S41：改进对于文本中含有and前后连词的并列关系提取不好的问题；首先，将含有 and等连词连接的文本先识别划分，然后再进行词性标注，对(主，谓，宾)三元组结构化信息进行提取；步骤S42：改进对于数量词修饰的物体只能提取一个的问题；首先，利用spacy判断修饰词是否属于数量词，若是，根据识别的数量词数目，添加上对应数目的物体和(主，谓，宾)结构化三元组；步骤S43：改进对于含有be动词的文本信息提取不好的问题；首先，进行词性标注，在提取(主，谓，宾)三元组之前，将be动词识别并删除；步骤S44：实现文本自动处理模块的构建；输入文本后，按照步骤S41、步骤S42、步骤S43 的顺序对文本进行处理。 5.根据权利要求3所述的一种基于改进版文本解析器的文本至图像算法，其特征在于，所述步骤S4具体为：步骤S41：改进对于文本中含有and前后连词的并列关系提取不好的问题；首先，将含有 and等连词连接的文本先识别划分，然后再进行词性标注，对(主，谓，宾)三元组结构化信息进行提取；步骤S42：改进对于数量词修饰的物体只能提取一个的问题；首先，利用spacy判断修饰词是否属于数量词，若是，根据识别的数量词数目，添加上对应数目的物体和(主，谓，宾)结构化三元组；步骤S43：改进对于含有be动词的文本信息提取不好的问题；首先，进行词性标注，在提取(主，谓，宾)三元组之前，将be动词识别并删除；步骤S44：实现文本自动处理模块的构建；输入文本后，按照步骤S41、步骤S42、步骤S43权　利　要　求　书 2/4 页 3 CN 115018941 A 3

专利 一种基于改进版文本解析器的文本至图像生成算法

专利一种基于改进版文本解析器的文本至图像生成算法