Python爬虫 - saint3347的收藏集 - 掘金

Python爬虫

更多收藏集

3篇文章 · 0订阅

全栈 - 8 爬虫使用 urllib2 获取数据

这是全栈数据工程师养成攻略系列教程的第八期：8 爬虫使用 urllib2 获取数据。我们知道，Http 请求主要有 GET 和 POST 两种。对于一个 url，既可以使用浏览器去访问，也可以使用代码去请求。 Urllib2 我们主要使用的是 Python2.7 中的 urllib2，官方文档在…

张宏伦
9年前
794
26
评论

爬虫的终极形态：nightmare

nightmare 是一个基于 electron 的自动化库（意思是说它自带浏览器），用于实现爬虫或自动化测试。相较于传统的爬虫框架（scrapy/pyspider），或者 dom 操作库（cheerio/jsdom），或者基于浏览器的自动化框架（selenium/phantomjs），他的优势在于提供了一个简洁有效的编程模型。

龙叁
9年前
7.2k
223
5

爬虫的终极形态：nightmare

用Node抓站（三）：防止被封

抓取如果抓取的太快太频繁会被源站封IP，本文会介绍下通过限流、限速和使用代理的方式来防止被封上篇文章，抓取「电影天堂」最新的170部电影，在抓取首页电影list之后，会同时发出170个请求抓取电影的详情页，这样在固定时间点集中爆发式的访问页面，很容易在日志中被找出来，而且并发…

三水清
8年前
2.7k
57
评论