欢迎光临散文网 会员登陆 & 注册

[软件工具]-批量提取PDF指定内容,根据PDF内容重命名文件名

2022-06-30 11:32 作者:全部告诉你  | 我要投稿

如何提取批量提取PDF指定内容,然后根据内容重命名,今天我们全部告诉你

文章结尾有对应的软件下载哦

场景:

案例1:人事部人员扫描了几百份简历,保存为PDF格式,但是名字是一串数字,不好分辨,有没有能识别里面姓名内容并自动重命名文件的方法

案例2:财务小姐姐有的批量导出很多PDF电子发票,导出来大多是没办法区分的文件名,需要用发票号,发票代码,买方名字来重命名,后期对文件进行快速检索

PDF文件可复制类型:

能复制我们采用坐标法提取,就是根据x,y,width,height进行文件位置的提取,现在很多接口都公开了PDF位置提取,例如这张发票来举例,如果是电子发票


无论怎么变,这些信息都是有的,我们会拿到坐标,然后去读取,对应位置的文字信息比如这两个位置的坐标,长宽度:


是从X轴,Y轴,长度,宽度,去读取数据,同样的方法,简历也是一样,姓名需要出现在固定位置,有判断的依据,最后把文件导入做好的软件内,进行数据处理就好了,可以看见下图:

可以支持按照单个文件处理,也可以单个文件夹,多个文件夹处理,这个只能处理发票,需要处理其他文件要去锁定要处理文件的指定坐标就可以了,然后读取内容进行文字识别处理,抓出来关键信息,对文件进行重命名即可

PDF文件不可复制类型:

文件不可复制,那么文件就是图片,如果是图片我们首先第一步是将PDF拆解成图片,然后将图片用同样的方法是拿到这个图的指定位置的坐标起始x,y,width,height,定位一个矩形,然后去用OCR进行光学识别得到文字,然后再操作改名

原始图片
改后图片

指定内容呢就是要拿到指定位置坐标,PDF是图片呢就需要对图片进行光学的ocr,当然中间还有一步就是对PDF进行图片的拆解,拆解图片后再进行识别,然后拿到制定内容的文件名改名就好了


PDF可复制下载:

百度链接:https://pan.baidu.com/s/1E-3DEntS_VMIrI3NLh4Wvw?pwd=6688 


PDF不可复制OCR下载:

百度链接:https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866 

[软件工具]-批量提取PDF指定内容,根据PDF内容重命名文件名的评论 (共 条)

分享到微博请遵守国家法律