爬虫程序

爬虫程序

爬虫程序

为提升爬虫技巧不断寻找方案

等 7 人订阅共493篇文章创建于2021-07-29

抓取任务的权限隔离与多租户（SaaS）平台设计要点

本文介绍了一个多租户采集平台的构建，旨在解决权限隔离和数据独立性问题。项目强调了多租户系统在任务独立、代理隔离、数据分区和权限控制方面的复杂性，并提出了进一步扩展。

7月前
104
点赞
评论

抓取任务的权限隔离与多租户（SaaS）平台设计要点

手把手带你做一个金融舆情分析系统：爬取 + 情绪识别全流程实战

本文讨论了一个金融舆情分析项目，通过抓取新闻标题和评论，利用情绪分析模型判断市场情绪。对比了两种技术方案分别适用于快速验证和小规模采集，以及大规模舆情监控和数据样本研究。作者推荐混合使用两种方案

7月前
249
点赞
评论

手把手带你做一个金融舆情分析系统：爬取 + 情绪识别全流程实战

百万级并发下的去重挑战：Bloom Filter 与 Redis 的组合方案

本文探讨了高并发数据采集中避免重复URL抓取的问题，提出了结合Bloom Filter、Redis HyperLogLog和持久化备份的解决方案，实现了快速查重、准确统计和数据恢复。

7月前
60
点赞
评论

百万级并发下的去重挑战：Bloom Filter 与 Redis 的组合方案

静态规则解析与动态行为分析结合的混合抽取框架

探讨了现代网页数据采集的挑战，介绍了混合抽取框架，结合静态和动态技术，以适应JavaScript渲染和异步加载的网页。通过结构语言和行为语言的理解，混合框架能模拟用户行为，捕获真实数据。

7月前
62
点赞
评论

静态规则解析与动态行为分析结合的混合抽取框架

抓取任务队列精简化：延迟队列、优先级队列与回退策略设计

本文讲述了作者通过引入延迟队列、优先级队列和回退策略，优化抓取任务队列，提高系统稳定性和资源利用率。最终实现智能调度，使系统更高效。

7月前
63
点赞
评论

抓取任务队列精简化：延迟队列、优先级队列与回退策略设计

用 Playwright + 容器化做分布式浏览器栈：调度、会话管理与资源回收

本文介绍了如何搭建一个分布式浏览器栈，使用Playwright在容器中运行，配合代理、调度和会话管理，实现对多新闻网站的高并发抓取。通过Docker容器化浏览器实例，可以像调度服务一样调度它们。

7月前
142
点赞
评论

用 Playwright + 容器化做分布式浏览器栈：调度、会话管理与资源回收

图像与视频页面的数据提取：从OCR到关键帧抽取的一场“视觉接管”

本文介绍了从图像和视频页面提取数据的技术架构，包括OCR文本识别、关键帧抽取和元数据提取。通过多模态爬取方案，可以更精准地提取视觉内容及其背后的语义信息，对内容监测、品牌分析等行业具有重要价值。

8月前
255
点赞
评论

图像与视频页面的数据提取：从OCR到关键帧抽取的一场“视觉接管”

实时金融数据抓取：从混乱到一致性的全过程指南

介绍了如何搭建一个实时金融数据抓取系统，使用代理IP轮换、多线程技术提高效率，并统一数据聚合去重以保证一致性。通过Python和相关库，解决了动态页面刷新、封禁和数据不一致等问题。

8月前
509
点赞
评论

实时金融数据抓取：从混乱到一致性的全过程指南

中间件实现任务去重与精细化分发：设计模式与常见陷阱

本文探讨了在大规模数据抓取中任务去重的重要性，并介绍了责任链模式在抓取系统中的应用。通过设计去重和分发中间件，系统能更高效、灵活地处理任务，减少资源浪费。强调中间件在构建智能数据系统中的关键作用。

8月前
64
点赞
评论

中间件实现任务去重与精细化分发：设计模式与常见陷阱

面向新闻站点的增量采集系统：从时间窗口到事件触发

本文介绍了增量采集的概念，即只关注新增和更新的数据，通过时间窗口和事件驱动的组合来高效采集新闻网站的最新内容。提供了一个Python代码示例，展示如何抓取特定新闻网站过去24小时内的新文章。

8月前
140
点赞
评论

面向新闻站点的增量采集系统：从时间窗口到事件触发

模拟行为 vs 接口调用：双十一价格分析的两条路线选择

监控京东双十一商品价格，采用接口调用和模拟行为两种方法。接口调用快速但需应对防护，模拟行为慢但能绕过反爬。智能混合方案结合两者，适应不同需求。

8月前
131
点赞
评论

模拟行为 vs 接口调用：双十一价格分析的两条路线选择

用LLM自动化生成解析器：从Prompt到Parser的工程化落地

本文提出用LLM+Prompt自动解析网页，无需手写XPath。示例中，LLM秒生成新浪新闻首页解析代码，速度快、逻辑可读，还能自我迭代。未来工程师将变身“Prompt设计师”，让爬虫开发更简洁有趣。

8月前
170
点赞
评论

用LLM自动化生成解析器：从Prompt到Parser的工程化落地

网页快照的结构化保存方案：对象存储 + 可搜索元数据设计

本文讲述了作者构建新闻信息挖掘系统的过程，从最初的简单网页保存到后来的结构化元数据索引，实现了新闻网页的快速检索和分析。项目最终转变为一个“时间归档系统”，保存网页的同时支持新闻演化分析。

8月前
88
点赞
评论

网页快照的结构化保存方案：对象存储 + 可搜索元数据设计

优化分布式采集的数据同步：一致性、去重与冲突解决的那些坑与招

采集项目中遇到的分布式数据同步问题，通过实施一致性、去重和冲突解决，成功解决了数据重复和同步延迟问题，提高了系统稳定性。时间戳哈希保证一致性，URL归一化和布隆过滤器确保去重，分布式锁解决写入冲突

8月前
95
点赞
评论

优化分布式采集的数据同步：一致性、去重与冲突解决的那些坑与招

抓取稳定性手册：五种设计避免“瞬间降速 / 宕机”的架构技巧

本文介绍了五种提升爬虫稳定性的架构设计：限速调度器、智能代理切换、分布式任务调度、异常自愈机制和动态心跳监测。提供了一个异步爬虫模板，并强调了稳定性的重要性。

8月前
215
点赞
评论

抓取稳定性手册：五种设计避免“瞬间降速 / 宕机”的架构技巧

秒级行情推送系统实战：从触发、采集到入库的端到端架构

本文介绍了一个金融业务中实时行情推送系统，包括触发层、采集层、缓冲层、入库层和推送层，旨在实现秒级数据更新与推送。系统确保低延迟和高并发，适用于行情推送、金融交易风控等场景。

9月前
360
点赞
评论

秒级行情推送系统实战：从触发、采集到入库的端到端架构

单机扛不住，我把爬虫搬上了 Kubernetes：弹性伸缩与成本优化的实战

本文讨论了作者在大规模爬虫项目中遇到的挑战，并分享了通过Kubernetes和HPA实现自动伸缩、代理隔离和Redis队列，解决了任务堆积、高失败率和成本失控问题。

9月前
102
点赞
评论

单机扛不住，我把爬虫搬上了 Kubernetes：弹性伸缩与成本优化的实战

LLM + 抓取：让学术文献检索更聪明

本文介绍了结合爬虫技术和大型语言模型（LLM）的学术文献检索助手，通过爬取、清洗、向量化存储和RAG检索增强，为用户提供精准、高效的学术论文摘要。提高了检索效率和准确性。

9月前
106
点赞
评论

LLM + 抓取：让学术文献检索更聪明

用Playwright打造可靠的企业级采集方案--从单机验证到集群化落地

介绍了一个将单机Playwright爬虫演进为集群化方案的项目，旨在解决数据产品中的稳定性、数据抓取和规模化问题。逐步实现从单机到分布式的数据抓取，并记录关键实现和代码。

9月前
131
点赞
评论

用Playwright打造可靠的企业级采集方案--从单机验证到集群化落地

五个让抓取流程更可控的小技巧

强调了爬虫开发中“可控性”的重要性，提出了五个关键点：IP管理、请求节奏、用户模拟、异常重试和任务调度，以提升爬虫的稳定性和可靠性。文章建议根据项目规模和需求选择合适的策略，实现长期可维护的爬虫项目。

9月前
59
点赞
评论