不再为PDF扫描发愁:Meta AI 推出 Nougat,数学公式OCR的新革命。


Meta AI 推出了一款名为 Nougat 的 OCR 工具,专门针对 PDF 文件,尤其是包含复杂数学公式的文件。传统上,PDF 文件中的信息,特别是数学公式,很难转换为其他格式,因为转换过程中可能会丢失大量信息。Nougat 基于 Transformer 模型构建,能够轻松地将 PDF 文档转换为 MultiMarkdown 格式,甚至可以处理扫描版的 PDF。除了可以识别简单的数学公式,Nougat 还能准确地转换复杂的数学公式,并能识别表格和处理扫描产生的畸变文本。但是,Nougat 生成的文档中不包含图片。
关于模型:
该模型的架构是一个编码器-解码器 Transformer 架构,允许端到端的训练过程。该模型基于 Donut 架构。模型不需要任何与OCR相关的输入或模块。文本是由网络隐式识别的。
- 编码器:视觉编码器接收一个文档图像 x ∈ R3×H0 ×W0,裁剪边缘并调整图像大小以适应固定大小的矩形 (H, W)。如果图像小于矩形,将添加额外的填充以确保每个图像具有相同的维度。使用的是一个 Swin Transformer,这是一个分层的视觉 transformer。
- 解码器:编码后的图像 z 被解码为一个令牌序列,使用一个带有交叉注意力的 transformer 解码器架构。令牌以自动回归的方式生成,使用自注意力和交叉注意力分别关注输入序列和编码器输出的不同部分。最后,输出被投影到词汇表 v 的大小,产生 logits \( \ell \in R^v \)。根据 Kim 等人的工作,使用了 mBART 解码器的实现。
在学术领域,研究人员经常需要引用、整理和分析大量的文献,其中很多都是 PDF 格式。传统的 OCR 工具很难处理复杂的数学公式,这给研究带来了很大的困扰。Nougat 的出现,将极大地提高研究人员的工作效率,使他们能够更容易地引用和整理文献。而且,PDF作为一种高质量的多模态语料,Nougat可以快速的把很多文本信息等直接做到规则化,形成AI可以训练的语料库。
在商业领域,很多企业的文档也是 PDF 格式,尤其是技术文档和合同。Nougat 可以帮助企业更容易地管理和整理这些文档,提高工作效率。并且结合大模型,可以低成本地把原本的材料做到企业知识库中,让AI协助企业办公。


论文地址:https://readpaper.com/paper/4793741334057844737
特邀作者:早稻田大学计算机系在读博士 王军杰