今天爬豆瓣读书,终于克服了反爬,得到了豆瓣内容,可是却是二进制形式,如下:
一般情况下,请求头部只需要添加‘User-Agent’和‘cookie’,可是之前在爬取的时候一直爬取失败,偶然看到网上有人建议说把所有的头部内容都添加一遍,一番操作后,误打误撞终于爬出来了,可是却是二进制形式。全网都查遍了,却没有类似的问题,网上各种搜索,尝试转码,还是不成功,后来我尝试删掉一些kv里的内容,果然是因为添加了‘Accept-Encoding’,导致得到二进制的内容,把它删除以后,果然的到的正常的网页内容。