欢迎光临散文网 会员登陆 & 注册

搭建日语书籍OCR工作流:briss+Acrobat

2020-10-17 14:18 作者:今天修bug了吗  | 我要投稿

这篇稍稍有点硬核,需要各位掌握基础的命令行操作(或者至少知道终端/命令提示符怎么打开)。

毕竟……

1. ABBYY/Acrobat单软件OCR工作流的问题

起因是这样的,我们教授要搞读书会,书籍通过扫描件的方式分享给参加的人。

这包浆看上去有点年头了

又因为我在所有文档导入之前会喜欢先过一遍OCR,所以之前一般我会使用Acrobat先处理一遍。

但是Acrobat对于日语的识别经常不是很精确,所以我转向了被许多人吹爆(MarginNote本身也集成了)的ABBYY。

只是ABBYY Findreader Pro的效果让我感觉这是个假软件……

ABBYY Finereader Pro for Mac 与Acrobat DC Pro OCR效果横向对比

但是我很喜欢ABBYY的“在OCR的过程中自动把整张页面分成两个部分”的功能。我记得Adobe是没有的。(事实上它确实没有)

ABBYY在进行OCR操作时会自动完成页面切割

然后我搜索了一下有没有什么奇怪脚本可以实现这个功能——在Adobe社区里面找到了一个第三方写的脚本,$40.

在?抢个银行?

那么,有没有一个工作流既能够享受到分割单页带来的阅读上的方便,又能够利用Acrobat更加准确的OCR结果?

2. briss的引入

briss是一个Java应用,需要Java环境才能运行。

briss唯一的功能就是分割页面。载入文件之后,briss会分析页面排版,然后提取出重叠最多的部分形成切割矩形。可以通过左上角和右下角的手柄调节矩形大小和位置,也可以直接在页面上拖动新建范围。(briss不会修正倾斜页面

在macOS上使用briss有两种方式:第一种是从网站上(https://sourceforge.net/projects/briss/)下载jar,然后通过终端的java -jar [briss.jar路径] [pdf文件路径]运行;另一种方式是通过homebrew安装briss(brew install briss),然后直接使用briss [pdf文件路径]运行。

在Windows上只能先安装Java SRE/JDK,下载briss,然后运行jar文件。

虽然briss有启动后再选择文件的功能,但是那个界面实在是太低效了,我个人更推荐命令行方式。

调整手柄修改切割范围

完成调整之后,选择Action>Crop PDF就可以导出。

导出之后,得到了单页的PDF文件,接着可以再使用Acrobat打开进行正常OCR操作。

总结

Adobe躺着赚钱,惹得百姓怨声载道


搭建日语书籍OCR工作流:briss+Acrobat的评论 (共 条)

分享到微博请遵守国家法律