python反爬虫【一】

414 阅读1分钟

1.什么是User-Agent?

答:User-Agent简称UA,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器版本,浏览器渲染引擎、浏览器语言、浏览器插件等。一些网站常常通过判断UA来给不同的操作系统,不同的浏览器发送不同的页面,因此可能造成某些页面无法在某个浏览器中正常显示,但可以通过伪装UA绕过

网站针对UA的反爬虫:通过配置nginx,设置请求头中带有python/Java字样,返回403,禁止访问

2.字体反爬?

答:字体文件本质上是从字符到图像的一个映射,比如字符0,浏览器会从字体文件中找到0这个字符对应的图像,然后展示出来

如果字符0展示并不是0的图像是1的图像,这就意味着爬虫拿到的是字符0,但是人看到的却是图像1,一切从字符到图像的映射,都可以用来反爬