欢迎光临散文网 会员登陆 & 注册

【本科启蒙论文】图像处理技术在文字识别领域的应用

2022-09-25 16:38 作者:当心山药  | 我要投稿

前言:因为不想在本科期间认真写的文章,只是给课程评个分就消失,所以在专栏投一下稿。

这个系列就叫【本科启蒙论文】

摘要:图像中的文字识别技术受众广泛,在各大文字编辑软件中都是炙手可热的收费服务。本篇主要介绍了文字识别技术的基本实现原理、传统的OCR技术、文字识别的MATLAB实现、业内技术现状、以及腾讯旗下的领头技术标准,以此来介绍图像处理技术在文字识别领域的情况。

关键词:计算机视觉、图像处理技术、文字识别、OCR技术


随着知识爆炸,借助纸质媒体、网络媒体等途径,我们每天都在接触大量的信息。但是当我们发现某些信息是有启发性、有价值的,又苦于如何将这些信息保存下来。由于这些信息的载体丰富多样,有的是纸质书,有的是网页报道,有的是PDF文件,没有按照统一的方式存储,不利于对其进行整理归纳。再加上这些内容往往是不可直接修改的,无法对里面的内容编辑整理。举个例子:当我们看书发现一篇文章写得针砭时弊,想记录下来同时写点感想,此时我们通常需要将文章部分内容输入到word等编辑器中,然后再写下自己的心得体会;又比如当我们手握一大堆纸质报表,需要核算其中的数据信息,此时我们通常需要将报表内容输入到Excel中,然后才能进行数据分析。这种繁琐的工作限制了我们的想象,我们百分之九十左右的时间基本花费在将这些内容转成word、Excel等编辑器中,严重影响学习工作效率。如果能够高效自动地将优质纸质文档转成可直接编辑的电子文档,将极大解放键盘上忙碌的双手,提高学习工作的效率。

随着图像分析技术不断发展,我们可以将各类非同源文档通过移动终端转成图片,然后通过相关技术重建出可以直接编辑的电子文档,具体流程如下:获得用户拍摄或者上传的图片;交由图像AI进行相关处理;最后生成可编辑的电子文档[1]

将纸质文档转为电子文档的时候,通常使用的方法是将纸质文档拍照后进行OCR识别,将照片中的文字提取出来,然后复制粘贴为电子文档[1]


OCR文字识别技术

光学字符识别简称为“OCR”。是指对包含文本资料的图像文件进行分析处理,获取文字及版面信息的技术。主要过程包含:图像输入、图像预处理、版面分析、字符切割、字符识别、版面恢复、图像后处理与核对。

由于OCR只能识别图片中的文字,用户在粘贴之后还需要进行重新将电子文档排版、修正,这将会花费用户大量的时间。同时因拍摄的纸质文档中会存在大量的文字外内容,例如表格、图片、段落样式、文字样式、排版,如果使用单一的OCR通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的能力,则无法将图片中的数据准确的识别,并且图片等不需要识别的内容也无法保留下来。如下图所示因无法判断是否为图片,将地图中的文字也进行了识别,并且表格也无法保留,导致后期需要大量的时间进行文档的修改。

 

MATLAB实现文字识别[2]

我们已经学习过使用的MATLAB软件就可以使用代码实现图片中的文字识别。

从人的思维方式出发,我们发现识别文字主要有三步。一、提取文字。找到想要查询的字。二、特征提取。找到想要查询的文字的特征或者结构组成。三、识别文字。在字典中找到对应的字。在程序中我们依然是执行这三步。依次对原始图像进行灰度处理:将要处理的图片以二维矩阵形式存储并进行中值滤波。中值滤波可以消除图片中的噪声,是空域内的非线性滤波;膨胀和腐蚀:边缘检测算法,强度小于阈值0.25的边缘被省略掉,对边缘检测后的图像进行腐蚀后进行平滑处理;选择文字区域:移除干扰的小方块之后选择剩余的文字区域;进行字符分割:按照字符的间隔进行自动的字符分割;创建字符模板;字符与数据库中进行匹配;对图像中文字识别输出;

 

业内技术现状

主流市场的文字识别软件能够识别出图片中的表格、图片、公式、段落样式、文字样式、排版等内容,并可以在保证内容不丢失的情况下直接插入到文档中,将纸质文档一键转换成可直接编辑的电子文档。它们解决了传统方案中识别内容丢失和文档格式不兼容等问题,减少了用户后期重复编辑的时间,大大提升了用户的工作效率[1]

他们的系统框架主要包括以下三个环节:

(1)先对文档进行版面分析,版面分析是对版面内的图像、文本、表格信息和位置关系进行自动分析、识别和理解的过程,决定了恢复出来文档的完整性和质量;

(2)版面分析得到段落、图片、表格等结构化信息后,再进行OCR识别和表格恢复; (3)生成用户可以直接编辑的格式。

 

目前业界在版面分析领域,一般采用对二值化图像提取连通域的方法,设计人为经验规则提取相应特征,然后利用决策树、SVM分类器得到每个区域的类别。整个流程依赖人为设计的特征,对倾斜旋转图像不够鲁棒,泛化性较差。在OCR识别领域:主要通过深度学习如Faster-RCNN、EAST算法、LSTM\RNN等技术检测识别文本行。在表格恢复领域:目前业界一般利用Canny算子提取边缘,计算单元格坐标位置从而恢复出表格,对模糊等低质图像效果不理想,后处理繁杂。

因此,针对版面分析、表格重建痛点问题,腾讯会议利用端到端深度学习模型对文档图像进行语义分割,进而提取结构化的语义信息,最后对不同类型的区域进行相应的增强恢复。特别针对表格重建,同时引入CNN提取表格边线,免去许多复杂后处理流程。

 

腾讯使用的文字识别技术[1]

腾讯的技术方案从用户的角度出发,能够实现对包含文档的图像进行检测,对扭曲的文档进行校正。然后通过版面分析模块,得到段落、图表等兴趣区域,针对每个区域进行相应增强恢复处理。最后根据阅读顺序,生成用户可以直接编辑的电子文档。

输入模块主要是进行预处理操作,分为自动框选和扭曲矫正两个步骤。自动框选利用HED深度学习模型对图片中文档区域进行框选,扭曲矫正算法利用DocNet深度学习模型对文档图片进行扭曲矫正。这两个步骤目的是生成高质量的文档图片,提供版面分析效果。

版面分析模块利用了图像分割模型UNet对文档版面进行学习,分割出图片中的段落、表格、图片、公式等元素,为了处理多栏、环绕等复杂版面,我们特意设计的版本分割线的学习,这样有利用提高版本分析的效果。后处理模块,主要是对图像分割模型产生mask图片进行处理,处理mask图像中的相交、包含等区域,划分出各个类型的子块,根据各个子块的位置以及分割线生成版面信息。

排版模块的工作是根据版面信息生成最终的word文档,对于不同类型的子块进行差异化处理。对于文字类型的子块,组段算法是利用OCR技术对文字块图片的文字信息进行组段,生成有语义信息的段落,并且利用了图像分割技术对文字块进行字体识别,识别出文字块中粗体、斜体、下划线、宋体、隶书等字体信息。对于表格类型的子块,运用图像分割技术对表格框线像素进行识别,再结合OCR文本框坐标关系,推断出单元格的位置,最后对单元格内容进行分析,进一步得到单元格字号和对齐方式。而对于图片、公式类型,直接切图输出图片。最后,为了提高用户的阅读体验,腾讯设计了阅读顺序算法,根据子块的位置、语义信息,复原文档的阅读排序[1]

未来展望

如果运用深度学习针对拍照图片中文档的格式进行学习识别,采用实体抽取技术实现了一键提取图片中文档的表格、图片、公式、段落样式、文字样式、排版等格式,并将包含文字、段落、排版的内容自动插入到电子文档中,如图片中识别出表格和表格的内容,会把图片中的表格还原成一个真的电子表格并插入到文档中。相比传统的OCR文档识别,就可以更加完整地恢复文档中的表格、段落样式、文字样式、和文档版面。使这一项文字识别技术真正成为一项生产力工具。在未来也能够结合更多的技术创新,如实时翻译、多语言识别等技术,取代更多传统的职业技术,为人们的生活带来更多的便利。

2018年由阿里云举行的天池ICPR MTWI 2018 挑战赛接受了1424名队伍的报名[3]。选手们就网络图像的文本检测的主题,在大赛上摩擦出激烈的火花,也创造出许多的技术。为文字识别提取技术开拓出一篇蓝海。

在2021年的CVPR顶会上,PaddleOCR团队对最新发布版本内容进行了技术深入解读。2021年9月7日发布的V2.3版本CP推理速度相对于PP-OCR server提升了220%,效果相比PP-OCR mobile提升了7%[4]

短短几年的快速发展,显示出该领域的仍未展先出的潜力。相信相关从业者、也就人员也会在这项技术走入普通民众的办公工具中的路上,对这项技术更加的完善,粉饰。创造出更多的价值。


参考文献

[1] totoralin.走进AI时代的文档识别技术之文档重建[J/OL]..2019-06-17.

[2]矮脚兽.MATLAB数字图像处理-识别广告牌上的文字[J/OL].2020-6-22.

[3]阿里云.天池大赛.ICPR MTWI 2018 挑战赛二:网络图像的文本检测[EB/OL]

[4] PaddlePaddle.PaddleOCRv2.3[EB/OL]


【本科启蒙论文】图像处理技术在文字识别领域的应用的评论 (共 条)

分享到微博请遵守国家法律