首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
Python爬虫
订阅
saint3347
更多收藏集
微信扫码分享
微信
新浪微博
QQ
3篇文章 · 0订阅
全栈 - 8 爬虫 使用 urllib2 获取数据
这是全栈数据工程师养成攻略系列教程的第八期:8 爬虫 使用 urllib2 获取数据。 我们知道,Http 请求主要有 GET 和 POST 两种。对于一个 url,既可以使用浏览器去访问,也可以使用代码去请求。 Urllib2 我们主要使用的是 Python2.7 中的 urllib2,官方文档在…
爬虫的终极形态:nightmare
nightmare 是一个基于 electron 的自动化库(意思是说它自带浏览器),用于实现爬虫或自动化测试。相较于传统的爬虫框架(scrapy/pyspider),或者 dom 操作库(cheerio/jsdom),或者基于浏览器的自动化框架(selenium/phantomjs),他的优势在于提供了一个简洁有效 的编程模型。
用Node抓站(三):防止被封
抓取如果抓取的太快太频繁会被源站封IP,本文会介绍下通过限流、限速和使用代理的方式来防止被封 上篇文章,抓取「电影天堂」最新的170部电影,在抓取首页电影list之后,会同时发出170个请求抓取电影的详情页,这样在固定时间点集中爆发式的访问页面,很容易在日志中被找出来,而且并发…