基于modi的ocr教程
之前使用pdg2pic的时候,软件弹出提示:“找不到MODI_Engine.exe”,导致pdg无法在转换成pdf的同时ocr。
于是我去翻老马博客,发现老马又对ocr相关程序进行了更新,见:用MODI一次OCR一整本书并将结果发送到WORD[1],新增了桥接器MODI_Engine。各软件不再直接调用modi,而是通过桥接器MODI_Engine.exe进行调用。提示也说少的是这个东西。
我安装modi比较早,那时还需要从office2003、2007中复制文件和注册表项。这种方法不需要MODI_Engine,所以能一直用到现在,只是不知道为啥突然就不能使用了。
此次老马更新的ocr教程更适合新手使用,只需无脑安装程序就行。因此做个分享。
需要安装的程序
下载地址:https://www.cnblogs.com/stronghorse/p/14594337.html
总共需要安装3个程序,分别是:
MODI_Engine.exe(位于原创软件
文件夹下)
Setup_MODI_From_Office2007SP3.exe
Setup_MODI_OCR_Engine_From_Office2007SP3.exe(都位于OCR>>精简版独立安装包
文件夹下)


报错:“应用程序缺少组件。请重新安装该应用程序。”
这是因为我安装过旧版的MODI引擎,与新版生冲突。
需要删除以下文件夹:
C:\Program Files (x86)\Common Files\microsoft shared\OFFICE12
如果是x86版Windows,则删除:
C:\Program Files\Common Files\microsoft shared\OFFICE12
注意:MODI_Engine.exe最好在设置里以管理员方式运行。
好了,以上就是安装的步骤了。很简单。然后就是如何使用。
应用场景
1.pdg转pdf、pic转pdf、djvu转pdf的过程中顺便ocr,生成双层pdf
这三种情况都可以直接使用老马软件。
因为大部分扫描电子书的源文件都是pdg,所以这样应用的频率应该是最高的。

2. 直接对pdf进行ocr,生成双层pdf
对于不想折腾各种格式的电子书的人来说,绝大部分电子书都是pdf的。
如果用老马的软件在pdf的基础上进行ocr,需要将pdf导出为png,然后用Pic2Pdf转换,还是多了一道流程。(当然,如果要用ComicEnhancerPro(CEP)对png进行处理,更方便阅览的话,则不算麻烦。)
因此,可以选择同样基于modi进行ocr的软件:pdf补丁丁。
下载地址:https://www.cnblogs.com/pdfpatcher/

pdf补丁丁还有一个优点:方便校对ocr的文字。老马给出的校对方案是显示隐藏文本后用Foxit Phantom校对,见:《校对双层PDF中的隐藏文本》[2]。而pdf补丁丁会直接生成xml文件,用txt打开即可校对修改。
• 注意
如果无法ocr,请尝试将软件以管理员方式运行。
3. ocr并导出结果至word
这种情况是只需要文本,而不需要原来的扫描pdf。ocr后的文本可以进行更多的操作,比如制作epub格式的电子书。
此外,modi发送到word中的ocr结果是经过段落合并的。上面两种ocr生成的双层pdf,文字只会按行合并。复制出来每行要删除空格。老马此次折腾为的就是这个。
安装精简版MODI后,会在桌面上创建MSPVIEW图标。
MSPVIEW只能导入tiff和mdi两种格式。因为所有的ocr操作均只针对二值化(纯黑白)图像,而modi内部处理的二值化效果不如老马开发的cep。
首先需要用cep将图像导出为“纯黑白”的单页tiff。然后用TiffToy(软件可在原创软件
中找到)把全部单页tiff合并成一个多页tiff文件(此多页tiff文件最好不要超过300页,不然ocr可能会出问题)。
导入多页tiff文件到MSPVIEW后,点击工具栏的“使用ocr识别文本”、“将文本发送到word”即可。

从理论上来说,把jpg、png等文件用TiffToy直接合并成多页tiff可是可以的。只是ocr效果可能不如经过cep处理的。
各种ocr软件综评
ocr的模型大多数是各个公司训练的。微软的这个不知道自office之后有没有更新。但文中非印刷的繁体竖排识别效果不如白描(用的百度接口)。
相比于天若、白描这些软件,modi的方便之处在于纯免费,不用联网,可批量处理。更重要的是,与老马系列软件可以完美配合,所以更适用于电子书的ocr。
引用链接
[1]
用MODI一次OCR一整本书并将结果发送到WORD:https://www.cnblogs.com/stronghorse/p/16324372.html[2]
《校对双层PDF中的隐藏文本》:https://www.cnblogs.com/stronghorse/p/4913425.html