Spider - 沃野布吉岛的收藏集 - 掘金

Spider

沃野布吉岛

更多收藏集

4篇文章 · 0订阅

Python使用内置urllib模块或第三方库requests访问网络资源

更多内容，请访问我的个人博客。访问的结果会是一个http.client.HTTPResponse 对象，使用此对象的 read() 方法，则可以获取访问网页获得的数据。但是要注意的是，获得的数据会是 bytes 的二进制格式，所以需要 decode() 一下，转换成字符串…

潘高
6年前
2.8k
2
评论

妈妈再也不用担心爬虫被封号了！手把手教你搭建Cookies池

很多时候，在爬取没有登录的情况下，我们也可以访问一部分页面或请求一些接口，因为毕竟网站本身需要做SEO，不会对所有页面都设置登录限制。但是，不登录直接爬取会有一些弊端，弊端主要有以下两点。设置了登录限制的页面无法爬取。如某论坛设置了登录才可查看资源，某博客设置了登录才可查看…

崔庆才丨静觅
7年前
17k
293
13

[Python3网络爬虫开发实战] 7-动态渲染页面爬取-4-使用Selenium爬取淘宝商品

在前一章中，我们已经成功尝试分析Ajax来抓取相关数据，但是并不是所有页面都可以通过分析Ajax来完成抓取。比如，淘宝，它的整个页面数据确实也是通过Ajax获取的，但是这些Ajax接口参数比较复杂，可能会包含加密密钥等，所以如果想自己构造Ajax参数，还是比较困难的。对于这种页…

崔庆才丨静觅
8年前
1.8k
39
评论

Python3网络爬虫(十一)：爬虫黑科技之让你的爬虫程序更像人类用户的行为(代理IP池等)

近期，有些朋友问我一些关于如何应对反爬虫的问题。由于好多朋友都在问，因此决定写一篇此类的博客。把我知道的一些方法，分享给大家。博主属于小菜级别，玩爬虫也完全是处于兴趣爱好，如有不足之处，还望指正。在互联网上进行自动数据采集（抓取）这件事和互联网存在的时间差不多一样长。今天大众…

圆方圆PYTHON学院
7年前
2.0k
30
评论