字体映射反爬

网站链接:
本文涉及
网站的关键数据由其他字符替代

F12里面无法显示可以从网页源码里找,如图

先把其他常规内容搞上,

在试过css,xpath和bs4后,
发现"\u"型的数据只能用re才能提取
接就是解决 字体映射问题
在network里面找到一个font类型数据,
woff(Web Open Font Format)文件
目前最主要的几种网络字体(web font)格式包括WOFF,SVG,EOT,OTF/TTF。

从启动器里看,要先获取movie.css文件,才能提取woff文件


woff文件在线打开方式:

使用
'.'
可以发现字体编码和woff文件的区别 :" &#x",其它字母为大写

安装方式: pip install fontTools
通过FontEditor手动构建字体编码和所知字体的映射,通过fontTools获取字形数据并md5加密(方便对比,是否为相同字体)
代码如下
解密函数的代码
最终结果

还可以参考
https://blog.csdn.net/qq_59970317/article/details/122421608
使用selenium截取指定标签位置的数据,配合OCR来识别提取内容
源码:

