网络技术

网络技术

网络技术

各种网络技术问题的讨论和资料

等 1 人订阅共506篇文章创建于2023-02-22

那些每秒抓取数万次的系统，底层架构到底是怎么设计的？

本文拆解万级QPS抓取系统五层架构，指出I/O而非CPU是瓶颈。代理层以亿牛云隧道代理为实测对象，其99%连通率与低拦截率可提升采集效率30%-50%。

1天前
1
点赞
评论

那些每秒抓取数万次的系统，底层架构到底是怎么设计的？

如何设计一套高可用的爬虫任务队列，保证断点续爬与故障转移？

这篇文章提出了一种基于Redis的任务队列解决方案，增强了爬虫任务的稳定性和可靠性。文章分析了Celery的不足，并设计了一个包含任务状态机、断点续爬、故障转移和代理层的架构，有效解决了稳定性问题。

5天前
2
点赞
评论

如何设计一套高可用的爬虫任务队列，保证断点续爬与故障转移？

深入内存优化：如何防止分布式爬虫在长时运行中导致的内存暴涨？

这篇文档概述了线上爬虫集群内存暴涨的原因和解决方案，如使用布隆过滤器、流式读取、有界队列和弱引用缓存等，以减少内存问题。

6天前
10
点赞
评论

深入内存优化：如何防止分布式爬虫在长时运行中导致的内存暴涨？

从多场景实测看代理IP产品：一份可复现的六方横向测评

本文分析了代理IP池对数据流水线和高并发请求的影响，并提出了测评方案。亿牛云在稳定性和延迟方面表现优异，适合敏感业务。

7天前
17
点赞
评论

从多场景实测看代理IP产品：一份可复现的六方横向测评

单机万级并发：利用Python asyncio与aiohttp打造极致性能的异步爬虫

文章简述了利用asyncio和aiohttp实现高并发新闻采集。指出多线程局限，强调异步优势，并提供配置和示例。

8天前
9
点赞
评论

单机万级并发：利用Python asyncio与aiohttp打造极致性能的异步爬虫

Canvas/Audio 浏览器指纹：从原理到绕过，一次讲清楚

现代网站反爬虫技术中，Canvas和AudioContext指纹很重要。可以注入噪音或使用专门的stealth fork来绕过检测。测试效果可访问browserleaks

12天前
11
点赞
评论

Canvas/Audio 浏览器指纹：从原理到绕过，一次讲清楚

代理IP质量评估：如何建立一套代理IP的多维度评分与淘汰算法？

本文介绍了评估代理IP质量的方法和建立评分淘汰算法。分析了响应速度、稳定性等指标，提出了评分系统，帮助管理和优化代理IP资源。

13天前
13
点赞
评论

代理IP质量评估：如何建立一套代理IP的多维度评分与淘汰算法？

免费代理IP为什么用不了：代理池的可用性检测与生命周期管理

本文讨论了免费代理IP无法使用的原因，包括代理池的可用性检测和生命周期管理。文章分析了免费代理IP的不稳定性，指出了检测代理IP有效性的重要性，并提出了管理代理IP生命周期的方法，以提高代理池的可用性

14天前
18
点赞
评论

免费代理IP为什么用不了：代理池的可用性检测与生命周期管理

为什么爬虫并发拉到几百，吞吐反而掉了？记一次高并发爬虫性能瓶颈排查与实战

本文讨论了高并发环境下数据采集和爬虫扩容的挑战，提出了排查资源瓶颈的方法，并提供了Python爬虫代码示例，以解决吞吐抖动

15天前
17
点赞
评论

为什么爬虫并发拉到几百，吞吐反而掉了？记一次高并发爬虫性能瓶颈排查与实战

2026架构前沿：将Declarative Crawler（声明式爬虫）引入你的技术栈

这篇文档强调了2026年数据工程领域声明式爬虫架构的重要性。它通过分离业务意图和执行细节，降低跨部门协作门槛。文档介绍了爬虫代理技术，并通过Python代码示例展示了如何实现声明式会话组。

19天前
14
点赞
评论

2026架构前沿：将Declarative Crawler（声明式爬虫）引入你的技术栈

技术拆解：单页面应用（SPA）路由跳转后的数据抓取策略

这篇文档讨论了单页应用（SPA）数据抓取的挑战。SPA数据由JS生成，传统爬虫无法有效抓取。解决方案包括复现接口和浏览器自动化渲染，关键是保持会话和IP一致性。

21天前
12
点赞
评论

技术拆解：单页面应用（SPA）路由跳转后的数据抓取策略

爬虫实战：如何优雅地抓取网页中隐藏在伪元素(::before)里的文本？

文章探讨了解决CSS伪元素导致文本抓取问题的方法。提出了直接采集接口、正则解析CSS和使用渲染引擎加代理IP三种解决方案。强调了处理返回值引号、警惕图片文字和不轻信attr()函数的重要性。

22天前
30
点赞
评论

爬虫实战：如何优雅地抓取网页中隐藏在伪元素(::before)里的文本？

手把手带你用Python撸一个多线程+代理池下载器

这篇文章介绍了如何用Python标准库开发并发流媒体下载器，提高数据采集效率。主要方法包括构建代理字典、下载文件块和多线程下载合并。实战技巧包括设置超时、指数退避重试和合理使用代理IP。

26天前
8
点赞
评论

手把手带你用Python撸一个多线程+代理池下载器

谈谈长连接（Keep-Alive）在超大规模爬虫抓取中的性能差距

本文探讨了大规模爬虫中Keep-Alive技术的重要性和优化。Keep-Alive能显著提升性能，但需注意连接池耗尽等问题。建议使用高质量代理，合理配置参数，避免长时间使用同一IP。

27天前
14
点赞
评论

谈谈长连接（Keep-Alive）在超大规模爬虫抓取中的性能差距

实战：利用Playwright隐藏自动化特征（Stealth模式）的底层原理

文档概述了Playwright爬虫避免网站检测的策略，包括网站检测自动化工具的四层逻辑、stealth-patches解决方案、Stealth模式与动态代理结合的终极方案

28天前
54
点赞
评论

实战：利用Playwright隐藏自动化特征（Stealth模式）的底层原理

深度对比：Scrapy vs PySpider，谁更适合作为企业级分布式底层？

讨论了Scrapy和PySpider两个Python爬虫框架的选型。Scrapy适合长期、高SLA的大规模爬虫系统，而PySpider适合中等规模、有可视化UI需求的团队。

29天前
20
点赞
评论

深度对比：Scrapy vs PySpider，谁更适合作为企业级分布式底层？

别只盯着HTML了！教你高效抓取并解析PDF/Excel隐藏附件？

这篇文章讨论了从网页提取非标准数据的方法，包括发现附件链接、下载和命名策略、解析PDF和Excel、应对反爬机制，并提供了实战代码。同时，提醒检查合规性和合理设置请求间隔。

1月前
32
点赞
评论

别只盯着HTML了！教你高效抓取并解析PDF/Excel隐藏附件？

告别频繁崩溃与OOM：百万级Scrapy爬虫架构优化与代理实战

Scrapy爬虫优化：1. 启用JOBDIR减少重启；2. 集成代理管理；3. 配置407重试。效果：耗时减至35小时，内存3.5GB，成功率94%。

1月前
33
点赞
评论

告别频繁崩溃与OOM：百万级Scrapy爬虫架构优化与代理实战

Python爬虫进阶：Playwright请求拦截（Request Interception）与动态代理IP实战

这篇文档介绍了如何利用Playwright的请求拦截功能开发高效、防屏蔽的爬虫。主要内容包括：1) 请求拦截的必要性；2) Playwright请求拦截机制；3) 实战代码演示；4) 其他注意事项

1月前
32
点赞
评论

Python爬虫进阶：Playwright请求拦截（Request Interception）与动态代理IP实战