(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211078512.0
(22)申请日 2022.09.05
(71)申请人 中国科学院合肥物质科 学研究院
地址 230031 安徽省合肥市蜀山区蜀山湖
路350号
(72)发明人 汪增福 姜飞
(74)专利代理 机构 安徽省合肥新 安专利代理有
限责任公司 34101
专利代理师 陆丽莉 何梅生
(51)Int.Cl.
G06V 30/412(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/764(2022.01)
G06V 10/774(2022.01)G06V 10/82(2022.01)
G06V 30/413(2022.01)
(54)发明名称
基于傅里叶级数编码的任意形状文本的检
测与矫正方法及应用
(57)摘要
本发明公开了一种基于傅里叶级数编码的
任意形状文本检测与矫正方法及应用, 其步骤包
括: 1构建训练数据集, 包括数据的获取以及预处
理; 2构建任意形状文本检测网络, 训练网络, 调
整参数, 得到最优的任意形状文本检测 网络, 具
体采用以ResNet 50为基础的神经网络架构, 整个
网络包括特征提取器、 编码器以及解码器; 3检测
结果后处理, 具体采用双线性插值矫正处理。 本
发明能用于对自然场景图片中任意形状文本的
高精度检测和形状矫正, 从而能提高图片中任意
形状文本的识别精度。
权利要求书3页 说明书7页 附图2页
CN 115393879 A
2022.11.25
CN 115393879 A
1.一种基于傅里叶级数编码的任意形状文本的检测与矫正方法, 其特征在于, 包括以
下步骤:
步骤1: 构建训练数据集, 包括数据的获取以及预处 理:
步骤1.1: 获取文本图像数据集记为I={I1,I2,...,Ip,...,Iu}, Ip表示文本图像数据集
I中第p张文本图像, u表示文本图像数据集 I中文本图像的总数目;
步骤1.2: 提取第 p张文本图像Ip中的文本区域, 得到相对应的文本区域边界点集合记为
并形成文本区域边界, 其中,
表示第
p张文本图像Ip中文本区域的第q个边界点 坐标, l表示文本区域的边界点数目;
步骤1.3: 获取第p张文本图像Ip中文本区域trp的文本中心线区域tcrgtp、 文本头部区
域thrgtp、 文本尾部区域ttrgtp、 文本上下边界区域tbrgtp; 从而得到文本图像数据集I的文
本中心线区域集合记为tcrgt={tcrgt1,tcrgt2,...,tcrgtp,...tcrgtu}; 文本头部区域集
合记为thrgt ={thrgt1,thrgt2,...,thrgtp,...,thrgtu}, 文本尾部区域集合记为ttrgt =
{ttrgt1,ttrgt2,...,ttrgtp,...ttrgtu}, 文本上下边界区域集合记为tbr={tbrgt1,
tbrgt2,...,tbrgtp,...,tbrgtu};
步骤1.4: 在极坐标系下对第p张文本图像Ip进行建模, 得到相 对应的文本图像
从而
得到极坐标系下的文本图像集 合为
步骤1 .5: 获取第p张文本图像
内文本区域的中心点(xp,yp), 且
以文本区域的中心点(xp,yp)为发射点, 按照相同的角度间隔发射k条射线, 并
与所述文本区域边界相交, 得到文本区域中心点到文本区域边界点之间的距离集合记为
其中,
表示第p张文本图像
内文本区域的中心点(xp,yp)到
文本区域的第s个边界点
间的距离, 从而得到文本图像集合
的距离集合记 为reggt
={reggt1,reggt2,...,reggtp,...,reggtu};
步骤2: 构建任意形状文本检测网络, 包括: 特征提取器、 编码器和解码器; 并将所述的
文本图像集 合
输入所述任意形状文本检测网络中;
步骤2.1所述特 征提取器由ResNet5 0网络, 反卷积网络和特 征金字塔网络组成;
所述第p张文本图像
依次经过RestNet50网络、 反卷积网络和特征金字塔网络后输出
第p个特征图resultp; 从而由特征提取网络输出文本图像集合
的特征图集合result=
{result1,result2,...,resultp,...,resultu};
步骤2.2所述编码器, 包括: 分类编码器和回归编码器; 其中, 所述分类编码器由r个卷
积核为e×e的二维卷积层和r个ReLU非线性激活层交替连接而成; 所述回归编码 器由v个卷
积核为c×c的二维卷积层和v个ReLU非线性激活层交替连接而成;
所述特征图resultp经过分类编码器的处 理后, 输出第p个分类特 征图clsp;
所述特征图resultp经过回归编码器的处 理后, 输出第p个回归特 征图regp;权 利 要 求 书 1/3 页
2
CN 115393879 A
2步骤2.3所述解码器, 包括: 分类解码器和回归解码器; 其中, 所述分类解码器依次由1
个卷积核为f ×f的二维卷积层, 1个 softmax函数 组成; 所述回归解码器依次由1个卷积核为
w×w的二维卷积层, 1个反傅里叶变换函数组成;
所述第p个分类特征图clsp经过分类解码器的处理后, 输出预测的第p个文本中心线区
域tcrpredp, 预测的第p个文本头部区域thrpredp、 预测的第p个文本尾部区域ttrpredp、 预
测的第p个文本上下边界区域tbrpredp; 从而由分类解码 器输出文本图像集合
预测的文本
中心线区域集合tcrpred={tcrpred1,tcrpred2,...,tcrpredp,...,tcrpredu}, 预测的文
本头部区域集合thrpred={thrpred1,thrpred2,...,thrpredp,...,thrpredu}, 预测的文
本尾部区域集合ttrpred={ttrpred1,ttrpred2,...,ttrpredp,...,ttrpredu}, 预测的文
本上下边界区域 集合tbrpred={tbrpred1,tbrpred2,...,tbrpredp,...,tbrpredu};
所述第p个回归特征图regp经过回归解码器的处理后, 输出预测的第p个距离集合
其中,
表示由任意形状文本检测网络预测的第p张文本图像
内文本区域中心点(xp,yp)到文本区域的第g个边界点
的距离; 从而由回归解码器
输出文本图像集 合
预测的距离集 合记为:
regpred={regpred1,regpred2,...,regpredp,...,regpredu};
步骤2.4使用式(1)建立反向传播的损失函数L:
L=Ltcr+Lthr+Lttr+Ltbr+Lreg (1)
式(1)中, Ltcr, Lthr, Lttr, Ltbr均为交叉熵损失, 并分别由式(2), 式(3), 式(4), 式(5)得
到;
式(1)中, Lreg是smoothl1损失, 并由式(6)得到;
步骤2.5: 基于所述文本图像集合
利用梯度下降法对任意形状文本
检测网络进 行训练, 并计算损失函数L, 当训练迭代次数达到 设定的次数或者损失误差小于
设定的阈值时, 训练停止, 从而得到最优的任意形状文本检测网络;
步骤3: 检测结果后处 理, 包括: 双线性插值 矫正处理;权 利 要 求 书 2/3 页
3
CN 115393879 A
3
专利 基于傅里叶级数编码的任意形状文本的检测与矫正方法及应用
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 16:42:19上传分享