爬虫woff字体反爬破解

1,300 阅读1分钟

好久没写爬虫了,最近发现很多网站都出现了woff字体反爬。百度找了一下,发现都要钱,只好默默说一声fuck 那么,只好自己破解了。好的,那么开始。 如果你在抓去某个网站时候,抓下来的文字读不通,打开network你发现如此: 在这里插入图片描述 而网页上的文字是: 在这里插入图片描述 那么,就是加了woff字体反爬,这时候不要慌,慢慢来。 首先找到你要抓的网页,打开network,找到 在这里插入图片描述 找到woff字体文件,然后转换成xml文件,转换代码是`

#encoding: utf-8
from fontTools.ttLib import TTFont

font = TTFont(r'youself.woff')
font.saveXML(r'ojbk.xml')

转换出来后,你会发现xml文件类似如下: 在这里插入图片描述 你会发现, 在这里插入图片描述 这些不懂的东东,在xml里面会找到对应的内容,好了,那么可以开始破解了。 在这里插入图片描述 把你xml里面的内容随便拿出来一个,通过python的转码,就可以转成文字,大功告成。 后续的文字匹配就不用我说了吧。