python爬虫 - turpure的收藏集 - 掘金

python爬虫

更多收藏集

41篇文章 · 0订阅

基于 ZooKeeper 实现爬虫集群的监控

ZooKeeper 通常用于：命名服务、配置管理、集群管理、分布式协调/通知、分布式锁和分布式队列等等。各个爬虫的节点通过注册到 ZooKeeper 从而实现爬虫集群的管理。NetDiscovery 正是借助了 ZooKeeper 的特性来监控爬虫集群。 NetDiscove…

Tony沈哲
6年前
2.4k
14
2

Go 爬虫之 colly 从入门到不放弃指南

最近发现知乎上感兴趣的问题越来越少，于是准备聚合下其他平台技术问答，比如 segmentfault、stackoverflow 等。要完成这个工作，肯定是离不开爬虫的。我就顺便抽时间研究了 Go 的一款爬虫框架 colly。 colly 是 Go 实现的比较有名的一款爬虫框架…

波罗学
6年前
19k
61
13

Cendertron，动态爬虫与敏感信息泄露检测

Cendertron https://url.wx-coder.cn/HinPM 是基于 Puppeteer 的 Web 2.0 动态爬虫与敏感信息泄露检测工具。其依托于 xe-crawler 的通用爬虫、调度与缓存模型，新增了 Monkey Test 以及 Request I…

王下邀月熊
6年前
2.6k
9
评论

Python如何爬取实时变化的WebSocket数据

作为一名爬虫工程师，在工作中常常会遇到爬取实时数据的需求，比如体育赛事实时数据、股市实时数据或币圈实时变化的数据。如下图： Web 领域中，用于实现数据'实时'更新的手段有轮询和 WebSocket 这两种。轮询指的是客户端按照一定时间间隔（如 1 秒）访问服务端接口，从而达到…

已注销
7年前
14k
109
17

一篇文章就够打通python网络请求，scrapy爬虫，服务器，代理，各种骚操作，真的一篇就够

前段时间，铲屎官陆陆续续发了很多技术文章，由于篇幅太多，这里给大家规整一下，并且每篇文章都写个中心思想，方便大家查阅。但是，就是由于字数太多，文章是一个系统教程，肯定有99%的人没有看或者看完。可是，铲屎官有一位很热心的读者，是一名在读研究生，非计算机专业，马上就快毕业了，想…

皮爷撸码
7年前
1.8k
3
评论

理解 Python 并发编程一篇就够了 | PoolExecutor 篇

之前我们使用多线程 (threading) 和多进程 (multiprocessing) 完成常规的需求，在启动的时候 start、jon 等步骤不能省，复杂的需要还要用 1-2 个队列。随着需求越来越复杂，如果没有良好的设计和抽象这部分的功能层次，代码量越多调试的难度就越大。有没有什么好的方法把这些步骤抽象一下呢，让我们不关注这些细节，轻装上阵呢？

方石剑
9年前
5.3k
35
评论

迄今为止把同步/异步/阻塞/非阻塞/BIO/NIO/AIO讲的最清楚的好文章（建议收藏）

假设有一个展示用户详情的需求，分两步，先调用一个HTTP接口拿到详情数据，然后使用适合的视图展示详情数据。如果网速很慢，代码发起一个HTTP请求后，就卡住不动了，直到十几秒后才拿到HTTP响应，然后继续往下执行。这个时候你问别人，刚刚代码发起的这个请求是不是一个同步请求，对…

过客啊
6年前
9.7k
196
10