稀土掘金 稀土掘金
    • 首页
    • AI Coding
    • 数据标注 NEW
    • 沸点
    • 课程
    • 直播
    • 活动
    • APP
      插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
0 /100
Python爬虫
订阅
avatar
saint3347
更多收藏集

微信扫码分享

微信
新浪微博
QQ

3篇文章 · 0订阅
  • 全栈 - 8 爬虫 使用 urllib2 获取数据
    这是全栈数据工程师养成攻略系列教程的第八期:8 爬虫 使用 urllib2 获取数据。 我们知道,Http 请求主要有 GET 和 POST 两种。对于一个 url,既可以使用浏览器去访问,也可以使用代码去请求。 Urllib2 我们主要使用的是 Python2.7 中的 urllib2,官方文档在…
    • 张宏伦
    • 8年前
    • 777
    • 26
    • 评论
    爬虫 全栈
  • 爬虫的终极形态:nightmare
    nightmare 是一个基于 electron 的自动化库(意思是说它自带浏览器),用于实现爬虫或自动化测试。相较于传统的爬虫框架(scrapy/pyspider),或者 dom 操作库(cheerio/jsdom),或者基于浏览器的自动化框架(selenium/phantomjs),他的优势在于提供了一个简洁有效 的编程模型。
    • 龙叁
    • 9年前
    • 7.1k
    • 223
    • 5
    Node.js JavaScript
    爬虫的终极形态:nightmare
  • 用Node抓站(三):防止被封
    抓取如果抓取的太快太频繁会被源站封IP,本文会介绍下通过限流、限速和使用代理的方式来防止被封 上篇文章,抓取「电影天堂」最新的170部电影,在抓取首页电影list之后,会同时发出170个请求抓取电影的详情页,这样在固定时间点集中爆发式的访问页面,很容易在日志中被找出来,而且并发…
    • 三水清
    • 8年前
    • 2.7k
    • 57
    • 评论
    前端 Node.js