爬虫 - 糊涂鱼的收藏集 - 掘金

爬虫

更多收藏集

10篇文章 · 0订阅

爬虫的终极形态：nightmare

nightmare 是一个基于 electron 的自动化库（意思是说它自带浏览器），用于实现爬虫或自动化测试。相较于传统的爬虫框架（scrapy/pyspider），或者 dom 操作库（cheerio/jsdom），或者基于浏览器的自动化框架（selenium/phantomjs），他的优势在于提供了一个简洁有效的编程模型。

龙叁
9年前
7.2k
223
5

爬虫的终极形态：nightmare

彻底搞懂Scrapy的中间件（一）

中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改，从而开发出适应不同情况的爬虫。 “中间件”这个中文名字和前面章节讲到的“中间人”只有一字之差。它们做的事情确实也非常相似。中间件和中间人都能在中途劫持数据，做一些修改…

青南
7年前
7.6k
19
评论

Python代理IP爬虫的简单使用

Python爬虫要经历爬虫、爬虫被限制、爬虫反限制的过程。当然后续还要网页爬虫限制优化，爬虫再反限制的一系列道高一尺魔高一丈的过程。爬虫的初级阶段，添加headers和ip代理可以解决很多问题。本人自己在爬取豆瓣读书的时候,就以为爬取次数过多,直接被封了IP.后来就研究了代理…

lxiaok
7年前
10k
31
9

Python 萌新 - 花10分钟学爬虫

Scrapy ，Python 开发的一个快速、高层次的屏幕抓取和 web 抓取框架，用于抓取 web 站点并从页面中提取结构化的数据。文件结构清晰，即使是小白也能够快速上手，总之非常好用😂。 XPath ,它是一种用来查找 XML 文档中节点位置的语言。 XPath 基于 X…

xietao3
8年前
2.7k
101
4

Python 萌新 - 花10分钟学爬虫

Python学习：爬个电影资源网站

我们抓的网站地址是http://xwxmovie.cn/用了selenium、BeautifulSoup首先还是最基本的初始化代码一开始想用BeautifulSoup抓取片段的，犹豫刚学，很多API还

尤小红
8年前
2.5k
52
评论

Reqman，一个可以快速帮助后端工程师进行api测试的工具，同时也是一个基于nodejs的爬虫工具。

Reqman是一个可以快速帮助后端工程师进行api测试的工具，同时也是一个基于nodejs的爬虫工具。这是一个通过 npm registry 提供的 Node.js 模块。在安装之前，下载并安装Node.js。需要Node.js 8.0或更高版本。 Reqman被设计成像 …

芹泽多么穷
7年前
1.4k
11
评论

Node.js 爬虫相关模块小整合

分享下个人爬虫所用的 Node.js 模块, 做一个小整合, 也希望对大家有帮助~

小深刻的秋鼠
9年前
6.3k
310
6

Node.js 爬虫相关模块小整合

如何简单高效地部署和监控分布式爬虫项目

请先确保所有主机都已经安装和启动 Scrapyd，如果需要远程访问 Scrapyd，则需将 Scrapyd 配置文件中的 bind_address 修改为 bind_address = 0.0.0.0，然后重启 Scrapyd service。通过运行命令 scrapydwe…

my8100
7年前
8.5k
56
1

如何简单高效地部署和监控分布式爬虫项目

从零实现一款12306抢票软件

每年逢年过节，一票难求读者肯定不陌生。这篇文章，我们带领读者从零实现一款12306刷票软件，其核心原理还是通过发送http请求模拟登录12306网站的购票的过程，最后买到票。关于http请求的格式和如何组装http数据包给服务器发送请求，我们在上一篇文章《从零实现一个http…

张小方32
7年前
13k
193
23

一篇文章了解爬虫技术现状

掘金原创权限刚开通，搬家。如果你已经看过此文，请跳过。本文全面的分析了爬虫的原理、技术现状、以及目前仍面临的问题。如果你没接触过爬虫，本文很适合你，如果你是一名资深的虫师，那么文末的彩蛋你可能感兴趣。需求万维网上有着无数的网页，包含着海量的信息，无孔不入、森罗万象。但很多…

wendux
9年前
15k
369
11