多方向文字检测-AdvancedEast详解

2020-03-10 20:01 作者:知书少年刚刚酱 0人读过 | 我要投稿

（本文作者）

前言

AdvancedEast是场景文字检测算法，基于EAST算法，对EAST在长文本检测地方的缺陷进行了重大改进，使长文本预测更加准确。总体来说AdvancedEast检测算法在多角度文字检测方面表现良好，没有明显的缺陷。出于对作者的尊重，给出github链接：AdvancedEast：

https://github.com/huoyijie/AdvancedEAST

作者由于时间问题给出的资料非常有限，网上大多的资料也是基本照搬作者的描述，本文将对AdvancedEast的实现细节进行详细的讲解。AdvancedEast在整体的设计上还是延续East，在最终的输出与推测部分进行了精巧的设计，也是本文重点介绍部分。

1.structure

在模型结构上面，AdvancedEast与EAST差别不大(下方图片分别为AdvancedEast、EAST结构图)，都是由特征提取、特征融合、输出三部分组成。

特征提取部分，AdvancedEast采用vgg16而EAST在论文中采用PVANet，但是在github实现上面EAST多用vgg16或resnet50。

AdvancedEast利用在ImageNet数据集上预训练的卷积网络参数初始化，在VGG16的4个阶段输出作为特征融合阶段的输入，其大小分别为输入图像的1/4 1/8 1/16 1/32(对应图中f4、f3、f2、f1)

特征融合部分，AdvancedEast沿用EAST结构，使用多尺度特征融合的办法解决目标检测中的难题-多尺寸目标检测。

目标检测算法中非常需要注意的是感受野的问题，感受野过小容易造成大目标检测不准确，感受野过大会导致丢失的信息过多，在小目标检测上面表现不佳。将不同感受野的feature map进行融合，可以补充不同尺寸目标信息来实现对不同尺寸物体的检测。

每个融合阶段，特征提取部分不同阶段的输出感受野不一样，特征图尺寸也不一样(相邻阶段输出的feature map是2倍关系)，所以需要将感受野更大的feature map输入到unpooling层扩大其大小；然后，与当前层特征图进行合并（通道）；合并之后虽然包含了不同尺度的feature map。

但是其中还是有大量的没用的信息，这种信息会加大计算代价，而且现在的合并只是单纯的进行通道上的合并，还需要进行进一步的融合；将合并后的结果通过1×1的卷机神经网络减少通道数量和计算量；再用3×3的卷积神经网络将局部信息融合以最终产生该合并阶段的输出；

此次类推将每个阶段的feature map进行合并，如图中特征融合部分所示，在最后一个合并阶段之后，conv3×3层会生成合并分支的最终特征图并将其送到输出层。

输出部分，这部分AdvancedEast进行了重要的改进，也是跟EAST区别最大的地方，下面会单独进行展开说明。

2.output layer

输出部分是AdvancedEAST最大的改动地方，主要是解决EAST在长文本预测的限制问题，所以在进行输出部分讲解之前，先介绍下EAST为什么在长文本预测表现不佳。下图是EAST的输出，输出的feature map是原图像的四分之一。

score map：置信度，点在文本框内的概率；

RBOX：4个通道分别表示从像素位置到矩形的顶部，右侧，底部，左侧边界的4个距离；

text rotation angle：表示文本框的旋转角度

QUAD：8个通道分别表示从矩形的四个顶点到像素位置的坐标偏移，由于每个距离偏移量都包含两个数字（Δxi;Δyi）。

RBox与QUAD两种模式选一即可，不管选择哪一种都有一个共用的问题，这里以RBox举例，在预测边框和顶点之前，第一步要根据score map筛选出文本框内的点，下图是举例说明确定边框的过程，下图表示一张图片中的一个文本框，框内的点都有个预测到四条边的距离，根据文本内每个点所预测的距离(顶点)进行加权平均，得出边框或者顶点。

在文本框比较小的时候没有问题，但是最终输出的feature map中每个点都有感受野的限制，当文本很长的时候，用一端的点去预测另外一端的边的距离的时候，就会出现携带信息没有那条边的信息，所以EAST在预测长文本的时候会出现断裂或者预测不出来的情况。

AdvancedEast算法采用另外的一种思路解决。先看一下输出：

score map：和EAST一样，点在文本内的置信度；

vertex code：第一通表示是否是边界元素的置信度。第二通表示是头/尾元素，0表示头部元素，1表示尾部元素；

vertex geo：4通分别代表左上(右上)X、左上(右上)Y、左下(右下)X、左下(右下)Y，这里不是真正的X\Y坐标，而是根据当前点坐标的X/Y偏移量。

这里面不太好理解的应该是vertex geo，为什么同样是4通的输出，但是表达的含义不同，这里主要的原因是，为了解决East感受野的问题，AdvancedEast不再用所有的点进行预测顶点了，而是用头部元素预测左上、左下点，尾部元素预测右上右下点。

也就是说vertex geo的输出只对头部和尾部元素有意义，且根据预测出的头/尾元素进行加权平均得到4个顶点。这样说有点抽象，下面会对预测过程展开讲解。

3.预测过程

预测过程整体的流程如下：

01.根据score map输出的值确定activatin point；

02.遍历所有activation point，在feature map中左右相邻的activation point合并形成若干region list；

03.遍历所有region list，在feature map中上下相邻的region list合并形成region group；

04.遍历region group中的点，根据vertex code输出的值确定头/尾元素；

05.每个region group中的头部(尾部)元素预测的vertex geo进行加权平均得到最终文本框顶点。

下面用一张示例图模拟整个过程，为了简化问题，这里模拟一张图片中只有一个文本域的情况，图中每个点有7通取值，对应模型的输出(score map、vertex code、vertex geo)。

第一步遍历feature map中所有点，这里feature map指模型的输出(score map、vertex code、vertex geo)，筛选出score map值高于threshole的点，得到activation point(激活元素)，如下图，得到所有activation point(文本框内元素)

遍历上一步获得的所有activation point，将在feature map中左右相邻(X坐标相差1，Y坐标相同)的activation point进行合并，得到若干 region list，如下图，红色虚线框表示region list。

遍历上一步得到的region list，将feature map中上下相邻的region list进行合并成为region group，具体上下相邻规则是如果region list1中所有元素向下平移一个单位后，和其他的region list有重合点，则进行合并，否则不进行合并。

这里的region group是文本域的大致位置，为什么要这么说，在我的图片示例中展示的是一个文本的情况，并且是所有的点很规整的情况，但是在真正的预测的时候并不是所有的点都会预测出来或者可能会出现噪音点。并不能根据这些点很完整的确定出具体的文本，还需要进行进一步的计算。

遍历每个region group中的点，根据vertex code输出的值找到其中的头/尾元素，头/尾需要满足的规则是vertex code中第一通输出的是否是边界元素置信度的值高于阈值，且vertex code中的分类置信度满足阈值(默认情况下阈值为0-0.1表示头部元素,0.9-1表示尾部元素)，如代码中红线部分。

现在确定了每个region group中的头尾元素，如下图所示，根据头部(尾部)元素所预测的左上(右上)X、左上(右上)Y、左下(右下)X、左下(右下)Y偏移量进行加权平均，确定最终预测的4个顶点。具体的加权平均的方式如下,n表示当前文本域内边界元素数量。

这里有点小细节需要注意，前面有提到，最终的输出不是原图size，而是其1/4，所以feature map中的坐标要对应回原图坐标需要进行处理(只对feature map中的坐标对应回原图坐标，预测的偏移量是原图的偏移量不需要进行处理)，处理方式如下：

经过上述过程完成文本检测，效果图如下：

<< 滑动查看文本检测效果>>

<< 滑动查看文本检测效果>>

后厂理工学院（www.houchangtech.com）是慧科教育科技集团有限公司旗下一所专注前沿互联网技术领域的创新实战大学。

后厂理工学院（以下简称“后厂理工”）由原百度教育事业部总经理张高博士基于“开课吧”孵化创立并担任首任院长。后厂理工与全球知名IT和互联网企业达成深度战略合作，共同打造前沿互联网技术领域的高端实战课程，并通过线上线下结合的沉浸式实战授课方式全方位培养泛互联网领域技术开发、应用和管理等高端人才，目前已与百度、阿里巴巴、腾讯、华为、滴滴、微软等领头羊企业共同开发了人工智能、大数据、云计算和边缘计算等前沿实战型体系化课程。基于慧科近十年在高教领域的产教融合经验和教学研发体系，并依托于“开课吧”丰富的学科品类、多元化的课程形态以及强大的人才赋能系统-“驭风系统”，后厂理工旨在成为一所专注前沿互联网技术领域的创新实战大学。

你与AI菁英只差这一门课程的距离。

了解更多请加AI小助手：kkb0826

标签：

多方向文字检测-AdvancedEast详解

多方向文字检测-AdvancedEast详解的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

多方向文字检测-AdvancedEast详解

本文作者的其他文章

多方向文字检测-AdvancedEast详解的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

多方向文字检测-AdvancedEast详解的评论 (共条)