说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211078512.0 (22)申请日 2022.09.05 (71)申请人 中国科学院合肥物质科 学研究院 地址 230031 安徽省合肥市蜀山区蜀山湖 路350号 (72)发明人 汪增福 姜飞  (74)专利代理 机构 安徽省合肥新 安专利代理有 限责任公司 34101 专利代理师 陆丽莉 何梅生 (51)Int.Cl. G06V 30/412(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/764(2022.01) G06V 10/774(2022.01)G06V 10/82(2022.01) G06V 30/413(2022.01) (54)发明名称 基于傅里叶级数编码的任意形状文本的检 测与矫正方法及应用 (57)摘要 本发明公开了一种基于傅里叶级数编码的 任意形状文本检测与矫正方法及应用, 其步骤包 括: 1构建训练数据集, 包括数据的获取以及预处 理; 2构建任意形状文本检测网络, 训练网络, 调 整参数, 得到最优的任意形状文本检测 网络, 具 体采用以ResNet 50为基础的神经网络架构, 整个 网络包括特征提取器、 编码器以及解码器; 3检测 结果后处理, 具体采用双线性插值矫正处理。 本 发明能用于对自然场景图片中任意形状文本的 高精度检测和形状矫正, 从而能提高图片中任意 形状文本的识别精度。 权利要求书3页 说明书7页 附图2页 CN 115393879 A 2022.11.25 CN 115393879 A 1.一种基于傅里叶级数编码的任意形状文本的检测与矫正方法, 其特征在于, 包括以 下步骤: 步骤1: 构建训练数据集, 包括数据的获取以及预处 理: 步骤1.1: 获取文本图像数据集记为I={I1,I2,...,Ip,...,Iu}, Ip表示文本图像数据集 I中第p张文本图像, u表示文本图像数据集 I中文本图像的总数目; 步骤1.2: 提取第 p张文本图像Ip中的文本区域, 得到相对应的文本区域边界点集合记为 并形成文本区域边界, 其中, 表示第 p张文本图像Ip中文本区域的第q个边界点 坐标, l表示文本区域的边界点数目; 步骤1.3: 获取第p张文本图像Ip中文本区域trp的文本中心线区域tcrgtp、 文本头部区 域thrgtp、 文本尾部区域ttrgtp、 文本上下边界区域tbrgtp; 从而得到文本图像数据集I的文 本中心线区域集合记为tcrgt={tcrgt1,tcrgt2,...,tcrgtp,...tcrgtu}; 文本头部区域集 合记为thrgt ={thrgt1,thrgt2,...,thrgtp,...,thrgtu}, 文本尾部区域集合记为ttrgt = {ttrgt1,ttrgt2,...,ttrgtp,...ttrgtu}, 文本上下边界区域集合记为tbr={tbrgt1, tbrgt2,...,tbrgtp,...,tbrgtu}; 步骤1.4: 在极坐标系下对第p张文本图像Ip进行建模, 得到相 对应的文本图像 从而 得到极坐标系下的文本图像集 合为 步骤1 .5: 获取第p张文本图像 内文本区域的中心点(xp,yp), 且 以文本区域的中心点(xp,yp)为发射点, 按照相同的角度间隔发射k条射线, 并 与所述文本区域边界相交, 得到文本区域中心点到文本区域边界点之间的距离集合记为 其中, 表示第p张文本图像 内文本区域的中心点(xp,yp)到 文本区域的第s个边界点 间的距离, 从而得到文本图像集合 的距离集合记 为reggt ={reggt1,reggt2,...,reggtp,...,reggtu}; 步骤2: 构建任意形状文本检测网络, 包括: 特征提取器、 编码器和解码器; 并将所述的 文本图像集 合 输入所述任意形状文本检测网络中; 步骤2.1所述特 征提取器由ResNet5 0网络, 反卷积网络和特 征金字塔网络组成; 所述第p张文本图像 依次经过RestNet50网络、 反卷积网络和特征金字塔网络后输出 第p个特征图resultp; 从而由特征提取网络输出文本图像集合 的特征图集合result= {result1,result2,...,resultp,...,resultu}; 步骤2.2所述编码器, 包括: 分类编码器和回归编码器; 其中, 所述分类编码器由r个卷 积核为e×e的二维卷积层和r个ReLU非线性激活层交替连接而成; 所述回归编码 器由v个卷 积核为c×c的二维卷积层和v个ReLU非线性激活层交替连接而成; 所述特征图resultp经过分类编码器的处 理后, 输出第p个分类特 征图clsp; 所述特征图resultp经过回归编码器的处 理后, 输出第p个回归特 征图regp;权 利 要 求 书 1/3 页 2 CN 115393879 A 2步骤2.3所述解码器, 包括: 分类解码器和回归解码器; 其中, 所述分类解码器依次由1 个卷积核为f ×f的二维卷积层, 1个 softmax函数 组成; 所述回归解码器依次由1个卷积核为 w×w的二维卷积层, 1个反傅里叶变换函数组成; 所述第p个分类特征图clsp经过分类解码器的处理后, 输出预测的第p个文本中心线区 域tcrpredp, 预测的第p个文本头部区域thrpredp、 预测的第p个文本尾部区域ttrpredp、 预 测的第p个文本上下边界区域tbrpredp; 从而由分类解码 器输出文本图像集合 预测的文本 中心线区域集合tcrpred={tcrpred1,tcrpred2,...,tcrpredp,...,tcrpredu}, 预测的文 本头部区域集合thrpred={thrpred1,thrpred2,...,thrpredp,...,thrpredu}, 预测的文 本尾部区域集合ttrpred={ttrpred1,ttrpred2,...,ttrpredp,...,ttrpredu}, 预测的文 本上下边界区域 集合tbrpred={tbrpred1,tbrpred2,...,tbrpredp,...,tbrpredu}; 所述第p个回归特征图regp经过回归解码器的处理后, 输出预测的第p个距离集合 其中, 表示由任意形状文本检测网络预测的第p张文本图像 内文本区域中心点(xp,yp)到文本区域的第g个边界点 的距离; 从而由回归解码器 输出文本图像集 合 预测的距离集 合记为: regpred={regpred1,regpred2,...,regpredp,...,regpredu}; 步骤2.4使用式(1)建立反向传播的损失函数L: L=Ltcr+Lthr+Lttr+Ltbr+Lreg        (1) 式(1)中, Ltcr, Lthr, Lttr, Ltbr均为交叉熵损失, 并分别由式(2), 式(3), 式(4), 式(5)得 到; 式(1)中, Lreg是smoothl1损失, 并由式(6)得到; 步骤2.5: 基于所述文本图像集合 利用梯度下降法对任意形状文本 检测网络进 行训练, 并计算损失函数L, 当训练迭代次数达到 设定的次数或者损失误差小于 设定的阈值时, 训练停止, 从而得到最优的任意形状文本检测网络; 步骤3: 检测结果后处 理, 包括: 双线性插值 矫正处理;权 利 要 求 书 2/3 页 3 CN 115393879 A 3

.PDF文档 专利 基于傅里叶级数编码的任意形状文本的检测与矫正方法及应用

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于傅里叶级数编码的任意形状文本的检测与矫正方法及应用 第 1 页 专利 基于傅里叶级数编码的任意形状文本的检测与矫正方法及应用 第 2 页 专利 基于傅里叶级数编码的任意形状文本的检测与矫正方法及应用 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:42:19上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。