爬虫 - fly_leong的收藏集 - 掘金

爬虫

更多收藏集

4篇文章 · 0订阅

scrapy 爬虫利器初体验(1)

为什么要学 scrapy 呢？看下图，就清楚了。很多招聘要求都有 scrapy，主要是因为 scrapy 确实很强。那到底强在哪里呢？请在文中找答案。首先我们先来学习一下 scrapy 的工作流程。scrapy 文档地址 1、爬虫引擎获得初始请求开始抓取。 2、爬虫引擎开始请…

zone7739
7年前
1.1k
17
6

彻底搞懂Scrapy的中间件（一）

中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改，从而开发出适应不同情况的爬虫。 “中间件”这个中文名字和前面章节讲到的“中间人”只有一字之差。它们做的事情确实也非常相似。中间件和中间人都能在中途劫持数据，做一些修改…

青南
7年前
7.6k
19
评论

Python爬取中国银行外汇牌价(爬虫 + PyFlux简单预测分析)--(一)

2. selenium chrome headless 模式获取页码 (需要安装selenium以及配置chrome driver) 中行网站上有四种不同的牌价(现汇买入价,现钞买入价,现汇卖出价,现钞卖出价,中行折算价), 中行折算价暂时先不考虑。现汇买入价——是指账户内的…

NullSpider
7年前
5.8k
12
评论

Python爬取中国银行外汇牌价(爬虫 + PyFlux简单预测分析)--(一)

用Node写页面爬虫的工具集

Puppeteer是一个Node库，它提供了一个高级 API 来通过 DevTools协议控制Chromium或Chrome。简单点说，就是使用Node命令控制一个无需渲染至用户界面的浏览器。与使用PhantomJS搭配Python进行爬虫抓取类似，其原理也是去完全地模拟一个…

SPLyu
7年前
4.7k
56
评论