欢迎光临散文网 会员登陆 & 注册

字体映射反爬

2022-01-15 23:15 作者:灰色de世界  | 我要投稿

 

网站链接:http://www.porters.vip/confusion/movie.html


本文涉及

网站的关键数据由其他字符替代

F12里面无法显示可以从网页源码里找,如图

先把其他常规内容搞上,

在试过css,xpath和bs4后,

发现"\u"型的数据只能用re才能提取

接就是解决 字体映射问题

在network里面找到一个font类型数据,

woff(Web Open Font Format)文件

目前最主要的几种网络字体(web font)格式包括WOFF,SVG,EOT,OTF/TTF。

从启动器里看,要先获取movie.css文件,才能提取woff文件

woff文件在线打开方式:FontEditor

使用fontTools库在py中打开

'&#xe624.&#xe9c7'  

可以发现字体编码和woff文件的区别 :" &#x",其它字母为大写

安装方式: pip install fontTools

通过FontEditor手动构建字体编码和所知字体的映射,通过fontTools获取字形数据并md5加密(方便对比,是否为相同字体)

 代码如下

解密函数的代码

 最终结果

还可以参考这篇文章的思路,

https://blog.csdn.net/qq_59970317/article/details/122421608

使用selenium截取指定标签位置的数据,配合OCR来识别提取内容

 源码:

 



字体映射反爬的评论 (共 条)

分享到微博请遵守国家法律