说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210863967.7 (22)申请日 2022.07.21 (71)申请人 华南农业大 学 地址 510642 广东省广州市天河区五山路 483号 (72)发明人 邓小玲 郭雅琦 陈奇真 兰玉彬  陈欣 林晓晴  (74)专利代理 机构 北京慕达星云知识产权代理 事务所 (特殊普通合伙) 11465 专利代理师 符继超 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/764(2022.01)G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于视觉问答的果树全生长期农事作 业决策方法 (57)摘要 本发明公开了一种基于视觉问答的果树全 生长期农事作业决策方法, 包括: 获取用于目标 果树生长周期的图像样本和第一文本样本; 第一 文本样本包括果树病害治理问题; 分别对图像样 本和第一文本样本进行特征提取, 获得对应的 图 像特征向量和问题关键词特征向量; 引入多模态 融合模型; 将图像特征向量和问题关键词特征向 量分别传入多模态融合模型, 输出融合后的多模 态特征; 将融合后的多模态特征输入至训练好的 分类器中, 输出与果树病害治理问题对应的正确 答案; 通过该方法可以将多模态数据融合和视觉 问答相结合, 应用于果树图像文本数据集上, 得 到较好的准确率, 实现了一种基于视觉问答的果 树全生长期农事作业决策方法。 权利要求书2页 说明书6页 附图3页 CN 115223021 A 2022.10.21 CN 115223021 A 1.一种基于 视觉问答的果 树全生长期农事作业决策 方法, 其特 征在于, 包括: S1、 获取用于目标果树生长周期的图像样本和第一文本样本; 所述第一文本样本包括 果树病害治理问题; S2、 分别对所述图像样本和所述第一文本样本进行特征提取, 获得对应的图像特征向 量和问题关键词特 征向量; S3、 引入多模态融合模型; 将所述图像特征向量和问题关键词特征向量分别传入所述 多模态融合模型, 输出融合后的多模态特 征; S4、 将所述融合后的多模态特征输入至训练好的分类器中, 输出与所述果树病害治理 问题对应的正确答案 。 2.如权利要求1所述的一种基于视觉问答的果树全生长期农事作业决策方法, 其特征 在于, 所述S2中, 所述图像特 征向量包括 果树图像特 征向量和病害图像位置特 征向量。 3.如权利要求1所述的一种基于视觉问答的果树全生长期农事作业决策方法, 其特征 在于, 所述S2具体包括: 通过基于残差 网络ResNet ‑152的目标检测算法对所述图像样本进行特征提取, 获得图 像特征向量; 使用词向量嵌入法和长短期记忆神经网络对所述第 一文本样本进行特征提取, 获得问 题关键词特 征向量。 4.如权利要求3所述的一种基于视觉问答的果树全生长期农事作业决策方法, 其特征 在于, 所述图像特征向量, 即将每个图像样本划分为多个区域; 每个所述区域均采用一个 2048维的向量表示, 作为后续网络的输入; 其中, 对每个所述区域配置对应的对象检测器和属性分类器; 每个对象检测器的对象 包围框均具有一个对应的属性类。 5.如权利要求3所述的一种基于视觉问答的果树全生长期农事作业决策方法, 其特征 在于, 所述使用词向量嵌入法和长短期记忆神经网络对所述第一文本样本进行特征提取, 获得问题关键词特 征向量, 具体包括: 将输入的所述果树病害治理问题处理为多个单个单词, 在所述多个单个单词中截取N 个单词; 若所述多个单个单词的数量少于N, 则用0填充; 结合300维的词向量模型捕捉所截取的单词的语义特征, 并将所述语义特征转化为问 题特征向量; 利用长短期记忆神经网络对所述问题特征向量进行编码, 并从中抽取问题关键词特征 信息, 获得问题关键词特 征向量。 6.如权利要求1所述的一种基于视觉问答的果树全生长期农事作业决策方法, 其特征 在于, 所述S4中, 分类 器通过如下 方式进行训练: 获取大量用于果树生长周期的图像样本和第 二文本样本; 所述第 二文本样本包括果树 病害治理问题, 以及与所述 果树病害治理问题对应的真实答案; 分别对所述图像样本和所述第 二文本样本进行特征提取, 获得图像特征向量和问题关 键词特征向量; 对所述图像特 征向量和问题关键词特 征向量进行 预处理; 引入多模态融合模型; 将预处理后的图像特征向量和问题关键词特征向量分别传入所权 利 要 求 书 1/2 页 2 CN 115223021 A 2述多模态融合模型, 输出融合后的多模态特 征; 将融合后的多模态特征作为输入, 将与果树病害治理问题对应的真实答案作为输出, 用于训练分类 器。 7.如权利要求6所述的一种基于视觉问答的果树全生长期农事作业决策方法, 其特征 在于, 所述预处 理具体包括: 通过多视角注意力机制从所述图像特征向量中提取出果树图像特征向量和病害图像 位置特征向量; 捕捉所述果树图像特征向量和问题关键词特征向量之间的关系, 进行文本表示学习, 获得目标果 树的果树图像特 征与问题关键词特 征之间的相关性; 对所述果树图像特征向量和病 害图像位置特征向量进行交互, 获取果树图像特征和病 害图像位置特 征之间的相关性。 8.如权利要求7所述的一种基于视觉问答的果树全生长期农事作业决策方法, 其特征 在于, 所述多模态融合模型采用多视角注意力机制, 根据问题关键词特征向量对病害图像 位置区域嵌入进行评分, 并计算 一个全局视 觉向量作为由这些分数加权的和池。 9.如权利要求6所述的一种基于视觉问答的果树全生长期农事作业决策方法, 其特征 在于, 所述多模态融合模型采用了基于张量分解的双线性融合机制; 通过全张量来模拟所 述果树图像特征向量和问题关键词特征向量之 间的相关性; 采用双线性融合法对所述全张 量进行分解, 得到一个具有三个内模态 矩阵以及一个核心张量的结构。 10.如权利要求9所述的一种基于视觉问答的果树全生长期农事作业决策方法, 其特征 在于, 所述核心张量的复杂度是通过对张量切片矩阵的结构稀疏约束来控制的。权 利 要 求 书 2/2 页 3 CN 115223021 A 3

.PDF文档 专利 一种基于视觉问答的果树全生长期农事作业决策方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于视觉问答的果树全生长期农事作业决策方法 第 1 页 专利 一种基于视觉问答的果树全生长期农事作业决策方法 第 2 页 专利 一种基于视觉问答的果树全生长期农事作业决策方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:08:29上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。