[软件工具]-批量提取PDF指定内容,根据PDF内容重命名文件名
如何提取批量提取PDF指定内容,然后根据内容重命名,今天我们全部告诉你
文章结尾有对应的软件下载哦
场景:
案例1:人事部人员扫描了几百份简历,保存为PDF格式,但是名字是一串数字,不好分辨,有没有能识别里面姓名内容并自动重命名文件的方法
案例2:财务小姐姐有的批量导出很多PDF电子发票,导出来大多是没办法区分的文件名,需要用发票号,发票代码,买方名字来重命名,后期对文件进行快速检索
PDF文件可复制类型:
能复制我们采用坐标法提取,就是根据x,y,width,height进行文件位置的提取,现在很多接口都公开了PDF位置提取,例如这张发票来举例,如果是电子发票

无论怎么变,这些信息都是有的,我们会拿到坐标,然后去读取,对应位置的文字信息比如这两个位置的坐标,长宽度:

是从X轴,Y轴,长度,宽度,去读取数据,同样的方法,简历也是一样,姓名需要出现在固定位置,有判断的依据,最后把文件导入做好的软件内,进行数据处理就好了,可以看见下图:

可以支持按照单个文件处理,也可以单个文件夹,多个文件夹处理,这个只能处理发票,需要处理其他文件要去锁定要处理文件的指定坐标就可以了,然后读取内容进行文字识别处理,抓出来关键信息,对文件进行重命名即可
PDF文件不可复制类型:
文件不可复制,那么文件就是图片,如果是图片我们首先第一步是将PDF拆解成图片,然后将图片用同样的方法是拿到这个图的指定位置的坐标起始x,y,width,height,定位一个矩形,然后去用OCR进行光学识别得到文字,然后再操作改名


指定内容呢就是要拿到指定位置坐标,PDF是图片呢就需要对图片进行光学的ocr,当然中间还有一步就是对PDF进行图片的拆解,拆解图片后再进行识别,然后拿到制定内容的文件名改名就好了
PDF可复制下载:
百度链接:https://pan.baidu.com/s/1E-3DEntS_VMIrI3NLh4Wvw?pwd=6688
PDF不可复制OCR下载:
百度链接:https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866

