好久没写爬虫了,最近发现很多网站都出现了woff字体反爬。百度找了一下,发现都要钱,只好默默说一声fuck
那么,只好自己破解了。好的,那么开始。
如果你在抓去某个网站时候,抓下来的文字读不通,打开network你发现如此:
而网页上的文字是:
那么,就是加了woff字体反爬,这时候不要慌,慢慢来。
首先找到你要抓的网页,打开network,找到
找到woff字体文件,然后转换成xml文件,转换代码是`
#encoding: utf-8
from fontTools.ttLib import TTFont
font = TTFont(r'youself.woff')
font.saveXML(r'ojbk.xml')
转换出来后,你会发现xml文件类似如下:
你会发现,
这些不懂的东东,在xml里面会找到对应的内容,好了,那么可以开始破解了。
把你xml里面的内容随便拿出来一个,通过python的转码,就可以转成文字,大功告成。
后续的文字匹配就不用我说了吧。