CV经典论文推荐：10篇OCR论文

2022-01-06 18:26 作者:深度之眼官方账号 0人读过 | 我要投稿

本周最后一篇CV方向论文推荐，今天的主角是OCR，一共有10篇，5篇识别和5篇检测。好好珍惜它！

下周我们即将开启NLP方向经典论文的介绍！期待不？那就关注学姐啊！

废话不多说，来看OCR的经典论文。

# 识别

CRNN

最常用的识别网络，任意长度输入，模型小，参数少

期刊日期

TPAMI 2017

论文名称

《An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition》

描述

论文思路和方法

1)问题范围：单词识别；2)CNN层：使用标准CNN提取图像特征，利用Map-to-Sequence表示成特征向量；3)RNN层：使用双向LSTM识别特征向量，得到每列特征的概率分布；4)Transcription层：利用CTC和前向后向算法求解最优的label序列；

亮点和创新点

1)端到端可训练（把CNN和RNN联合训练）；2)任意长度的输入（图像宽度任意，单词长度任意）；3)训练集无需有字符的标定；4)带字典和不带字典的库（样本）都可以使用；5)性能好，而且模型小（参数少）

论文链接

https://arxiv.org/pdf/1507.05717.pdf

本论文关注【学姐带你玩AI】后台回复“CRNN”领取课件资料代码

Attention_OCR

该方法处理普通文本，不针对弯曲文本，后续方法都针对弯曲文本

期刊日期

IEEE，2017

论文名称

《Attention-based Extraction of Structured Information from Street View Imagery》

描述

提出了一种神经网络模型-基于卷积神经网络，回归神经网络和一种新颖的注意机制-在具有挑战性的法国街道名称标志（FSNS）数据集上达到84.2％的准确率，明显优于先前的技术水平（Smith'）16），达到72.46％。此外，我们的新方法比以前的方法更简单，更通用。为了证明我们模型的一般性，我们证明它在从Google街景视图中衍生的更具挑战性的数据集上也表现良好，其目标是从商店前端提取商业名称。最后，我们研究了使用不同深度的CNN特征提取器产生的速度/准确度权衡。令人惊讶的是，我们发现更深层次并不总是更好（在准确性和速度方面）。我们生成的模型简单，准确，快速，可以在各种具有挑战性的真实文本提取问题上大规模使用。

论文链接

https://arxiv.org/abs/1704.03549

代码：

https://github.com/tensorflow/models

ASTER

引入注意力机制，整合矫正和识别，改善大规则文字识别

期刊日期

TPAMI 2018

论文名称

《An Attentional scene text recognizer with flexible rectification》

描述

场景文本识别的一个具有挑战性的方面是处理扭曲或不规则布局的文本。尤其是透视文字和曲线文字在自然场景中比较常见，难以识别。

在这项工作中，我们引入了 ASTER，这是一种端到端的神经网络模型，包括一个整流网络和一个识别网络。修正网络自适应地将输入图像转换为新图像，修正其中的文本。它由灵活的 Thin-Plate Spline 转换提供支持，该转换可处理各种文本不规则性，并在没有人工注释的情况下进行训练。

识别网络是一种注意力序列到序列模型，它直接从校正后的图像中预测字符序列。整个模型是端到端的训练，只需要图像和它们的真实文本。

通过大量实验，我们验证了整改的有效性，并展示了 ASTER 最先进的识别性能。此外，我们证明 ASTER 是端到端识别系统中的一个强大组件，因为它具有增强检测器的能力。

论文链接

http://122.205.5.5:8071/UpLoadFiles/Papers/ASTER_PAMI18.pdf

代码：

https://github.com/bgshih/aster

MORAN

加入了注意力机制的文本识别

期刊日期

PR 2019

论文名称

《A Multi-Object Rectified Attention Network for Scene Text Recognition》

描述

MORAN分为两部分一个是对形变input image的校正网络MORN（multi-object rectification network）和对矫正后照片的识别网络ASRN（attention-based sequence network）。

除了整体架构，作者还强调了两种提升训练效果的方法，因为这个端到端的网络比较难训练。一个是fractional pickup method用于提升ASRN的训练效果，一个是curriculum learning用于训练MORAN这个端到端的网络。

论文链接

https://arxiv.org/abs/1901.03003

代码：

https://github.com/Canjie-Luo/MORAN_v2

FOTS

识别检测端到端的网络，解决了角度文本端到端识别的问题

期刊日期

CVPR 2018

论文名称

《FOTS: Fast Oriented Text Spotting with a Unified Network》

描述

偶然场景文本识别被认为是文档分析社区中最困难和最有价值的挑战之一。大多数现有方法将文本检测和识别视为单独的任务。

在这项工作中，我们提出了一个统一的端到端可训练快速定向文本识别 (FOTS) 网络，用于同时检测和识别，在两个互补任务之间共享计算和视觉信息。特别地，引入了 RoIRotate 以在检测和识别之间共享卷积特征。

受益于卷积共享策略，我们的 FOTS 与基线文本检测网络相比计算开销很小，并且联合训练方法学习了更多的通用特征，使我们的方法比这些两阶段方法表现更好。

论文链接

https://arxiv.org/pdf/1801.01671.pdf

识别检测端到端的网络（工程应用场景较少）

# 检测

CTPN实现端到端检测，改进RPN

期刊日期

ECCV 2016

论文名称

《Detecting Text in Natural Image withConnectionist Text Proposal Network》

描述

我们提出了一种新颖的 Connectionist Text Proposal Network (CTPN)，可以准确定位自然图像中的文本行。CTPN 直接在卷积特征图中检测一系列精细文本提议中的文本行。我们开发了一种垂直锚点机制，可以联合预测每个固定宽度提议的位置和文本/非文本分数，从而显着提高定位精度。顺序提议由循环神经网络自然连接，循环神经网络无缝地合并到卷积网络中，从而形成端到端的可训练模型。这使得 CTPN 能够探索图像的丰富上下文信息，使其能够强大地检测极其模糊的文本。CTPN 在多尺度和多语言文本上可靠地工作，无需进一步的后处理，与以前需要多步后处理的自下而上的方法不同。它在 ICDAR 2013 和 2015 基准上实现了 0.88 和 0.61 F-measure，大大超过了最近的结果 [8, 35]。通过使用非常深的 VGG16 模型 [27]，CTPN 的计算效率为 0:14s/image。

论文链接

https://arxiv.org/abs/1609.03605

EAST & AdvancedEAST

全卷积网络+非极大值抑制，缩短检测时间

期刊日期

CVPR 2017

论文名称

《EAST: An Efficient and Accurate Scene Text Detector 》

描述

以前的场景文本检测方法已经在各种基准测试中取得了有希望的性能。

然而，即使配备了深度神经网络模型，它们在处理具有挑战性的场景时通常也表现不佳，因为整体性能取决于管道中多个阶段和组件的相互作用。在这项工作中，我们提出了一个简单而强大的管道，可以在自然场景中进行快速准确的文本检测。

管道直接预测完整图像中任意方向和四边形形状的单词或文本行，使用单个神经网络消除不必要的中间步骤（例如，候选聚合和单词分区）。

我们管道的简单性允许集中精力设计损失函数和神经网络架构。在包括 ICDAR 2015、COCO-Text 和 MSRA-TD500 在内的标准数据集上的实验表明，所提出的算法在准确性和效率方面都明显优于最先进的方法。

在 ICDAR 2015 数据集上，所提出的算法在 720p 分辨率下以 13.2fps 获得了 0.7820 的 F-score。

论文链接

https://arxiv.org/pdf/1704.03155.pdf

PSENet

多个尺度预测结果，准确检测区分临近文本行

期刊日期

CVPR 2019

论文名称

《PSENet: Shape Robust Text Detection with Progressive Scale Expansion Network 》

描述

文章认为其提出的方法能避免现有bounding box回归的方法产生的对弯曲文字的检测不准确的缺点（如下图b所示），也能避免现有的通过分割方法产生的对于文字紧靠的情况分割效果不好的缺点（如下图c所示）。

该文章的网络框架是从FPN中受到启发采用了U形的网络框架，先通过将网络提取出的特征进行融合然后利用分割的方式将提取出的特征进行像素的分类，最后利用像素的分类结果通过一些后处理得到文本检测结果。

论文链接

https://arxiv.org/pdf/1903.12473.pdf

代码：

https://github.com/whai362/PSENet

PANNET

号称PSENet的二代

期刊日期

ICCV 2019

论文名称

《Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network》

描述

有低计算成本的分割部分和可学习的后处理。分割分割部分由特征金字塔增强模块（FPEM）和特征融合模块（FFM）组成。FPEM是可级联的U形模块，可以引入多级信息来指导更好的分割。

FFM可以将不同深度的FPEM提供的特征收集到最终特征中进行分割。可学习的后处理是通过像素聚合（PA）实施的，该算法可以通过预测的相似度矢量精确地聚合文本像素。

论文链接

https://arxiv.org/pdf/1908.05900.pdf

代码

https://github.com/whai362/pan_pp.pytorch

DBNe

将二值化融入网络，速度极快

期刊日期

AAAI 2020

论文名称

《Real-time Scene Text Detection with Differentiable Binarization》

描述

由于分割网络的结果可以准确描述诸如扭曲文本的场景，因而基于分割的自然场景文本检测方法变得流行起来。基于分割的方法其中关键的步骤是其后处理部分，这步中将分割的结果转换为文本框或是文本区域。

这篇文章的文本检测方法也是基于分割的，但是通过提出Differenttiable Binarization module（DB module）来简化分割后处理步骤（加了一个边的预测），并且可以设定自适应阈值来提升网络性能。文章的方法在现有5个数据上在检测精度与速度上均表现为state-of-art。

在换用轻量级的backbone（ResNet-18）之后可以将检测帧率提升到62FPS，其与其它一些文本检测算法的性能与速率关系见图1所示。

论文链接

https://arxiv.org/pdf/1911.08947.pdf

代码：

https://github.com/MhLiao/DB

免责声明：所载内容来源互联网，仅供参考。转载稿件版权归原作者和机构所有，如有侵权，请联系我们删除。

关注学姐拿更多论文资料

标签：

CV经典论文推荐：10篇OCR论文

CRNN

最常用的识别网络，任意长度输入，模型小，参数少

Attention_OCR

该方法处理普通文本，不针对弯曲文本，后续方法都针对弯曲文本

ASTER

引入注意力机制，整合矫正和识别，改善大规则文字识别

MORAN

加入了注意力机制的文本识别

FOTS

识别检测端到端的网络，解决了角度文本端到端识别的问题

CTPN实现端到端检测，改进RPN

EAST & AdvancedEAST

全卷积网络+非极大值抑制，缩短检测时间

PSENet

多个尺度预测结果，准确检测区分临近文本行

PANNET

号称PSENet的二代

DBNe

将二值化融入网络，速度极快