什么是字体反爬
网页开发者自己创造一种字体,因为在字体中每个文字都有其代号,那么以后在网页中不会直接显示这个文字的最终的效果,而是显示他的代号,因此即使获取到了网页中的文本内容,也只是获取到文字的代号,而不是文字本身。 简单的说,字体反爬指的就是浏览器页面上的字符和调试窗口或者源码中的内容,显示的不一样,这就是字体反爬。
字体反爬原理
一种映射关系,类似于电报,破解其中译文。在开发过程中,只需要使用特殊字符进行占位,无需放入真实的数据。
字体映射表的处理
1、下载对应的字体文件
下载方式(一):
然后在网页源代码中,找到文件的src,再拼接成url,即可下载字体文件(密码本)
下载方式(二):
在请求接口中,查看 font 请求链接,也可下载字体包
2、寻找映射关系:
通过对源网页中的占位数据和字体进行比对找到规律
3、构建映射算法
通过映射关系,使用python构建映射算法
注意:需要先安装一个字体编辑管理软件。 Mac本的我没找到免费好用的。(FontLab收费,只有10天试用期)