爬虫程序

爬虫程序

爬虫程序

为提升爬虫技巧不断寻找方案

等 7 人订阅共478篇文章创建于2021-07-29

页面没变，但解析全错了：问题到底出在哪？

本文描述了企业招聘数据采集中遇到的爬虫问题，分析了数据异常的原因，并提出了从结构解析转向语义解析的解决方案。强调了长期数据可靠性的重要性，以及在不断变化的业务策略中，爬虫需要适应语义解析以保证数据质量

4月前
65
点赞
评论

页面没变，但解析全错了：问题到底出在哪？

增量采集为什么比全量采集更难？

文档讨论了数据采集中的全量与增量采集问题。解决方案包括回退时间窗口、允许重复抓取、用唯一ID去重和成功后再推进游标。增量采集适用于可重复、有去重和失败回溯能力的场景。全量采集虽费资源，但逻辑简单可靠。

4月前
50
点赞
评论

增量采集为什么比全量采集更难？

分布式采集中，数据是怎么“悄无声息”丢掉的？

本文探讨了分布式爬虫中数据丢失问题，强调区分“请求成功”与“数据成功”的重要性，并提出了通过内容校验、任务回流和正确使用代理IP来提高数据采集稳定性的解决方案。

4月前
57
点赞
评论

分布式采集中，数据是怎么“悄无声息”丢掉的？

爬虫真的能“自愈”吗？说点不那么好听的实话

本文探讨了AI在爬虫中的应用及其局限性。AI能部分适应页面变化，但不能完全替代规则。爬虫问题分为确定性、模糊和策略三类，AI并未使爬虫完全自动化，而是提高了部分失败的自动处理能力。

4月前
86
点赞
评论

爬虫真的能“自愈”吗？说点不那么好听的实话

Worker越简单，系统越稳定：从单机到集群

本文讨论了从单机采集系统迁移到集群的原因和过程。核心改变是数据完整性和失败处理能力的提升，而非速度。最终，从单机到集群的转变是为结果负责，确保数据可靠性。

4月前
32
点赞
评论

Worker越简单，系统越稳定：从单机到集群

不写规则也能抽数据？

本文探讨了企业在招聘数据分析中对薪资信息采集的挑战，分析了从纯规则采集到智能解析的发展，并指出智能解析在招聘场景中的局限性。推荐企业采用人工规则与智能解析相结合的策略，以确保数据的稳定性和可解释性。

5月前
96
点赞
评论

并发控制的下一步：让系统自己决定速度

本文讨论了并发控制的三个阶段：1.0阶段的固定并发模型，2.0阶段的规则驱动并发调节，以及3.0阶段的反馈驱动自适应模型。文章通过实战项目展示了如何实现自适应并发采集，强调了系统能力建设的重要性

5月前
36
点赞
评论

并发控制的下一步：让系统自己决定速度

一次架构调整，让人工介入减少了一半

本文讨论了采集系统从简单失败报错到具备自我修复能力的演进。随着反爬策略的动态化和复杂化，采集系统需要能够识别失败原因并调整行为以提高稳定性，减少人工干预。

5月前
43
点赞
评论

一次架构调整，让人工介入减少了一半

稳定性不是零错误，而是可预期

本文讨论了企业级数据系统，尤其是金融和舆情系统的稳定性问题。作者指出，真正的稳定性不在于系统不出错，而在于出错时行为符合预期。在舆情系统中，失败必须是显性的、可分类的，且不能污染结果。

5月前
48
点赞
评论

网络开始替你做决定，这事真的有点不对劲

本文讨论了网络层在复杂系统中的重要性。随着系统复杂度增加，网络问题不再是简单的黑盒，而是需要被监控和反馈的状态。通过让网络层参与决策，系统可以更有效地处理失败和延迟，从而提高效率。

5月前
60
点赞
评论

网络开始替你做决定，这事真的有点不对劲

任务队列明明在跑，为什么整体速度却越来越慢

本文探讨了采集系统中任务队列变慢的问题，指出真正的瓶颈在于Worker在等待网络响应，尤其是使用代理IP后。建议减少timeout时间，区分失败类型，并标记慢任务，以提高效率。

5月前
95
点赞
评论

任务队列明明在跑，为什么整体速度却越来越慢

当数据开始“感知页面”

本文讨论了一起因爬虫错误判断页面加载完成而导致数据采集不完整的事故。爬虫未能识别JS渲染页面中数据的异步加载，导致数据不完整。通过调整爬虫策略和监控体系，问题得到解决。

5月前
78
点赞
评论

如何让杂乱网页内容变成可检索数据库

介绍了如何构建一个全文搜索版历史库，全文搜索历史库监控新闻变化，支持版本比对与NLP分析，技术栈为httpx、BeautifulSoup4、SQLite+FTS5，分三层抓取解析存储。

5月前
58
点赞
评论

如何让杂乱网页内容变成可检索数据库

为什么你的去重总是失效？真正的问题其实在“竞态”

讨论分布式采集一致性问题，提出解决方案。系统包括定时触发、抓取列表、原子去重、任务流转和消费持久化。使用Redis SET和Lua脚本实现原子去重，Redis Stream作为队列等，确保数据一致性。

5月前
69
点赞
评论

为什么你的去重总是失效？真正的问题其实在“竞态”

从10个协程到1000个协程：性能下降的背后究竟发生了什么？

通过实例分析了异步程序中“协程越多越快”的常见误解。文章指出协程过多可能导致效率低下，并提供了一个异步抓取学术论文元数据的完整代码示例，强调合理设置并发量的重要性。总结了常见陷阱及解决方案。

5月前
83
点赞
评论

从10个协程到1000个协程：性能下降的背后究竟发生了什么？

强一致性时代，Kafka、Redis、Celery 谁才是那块短板

讨论了一个金融级实时Tick数据项目的失败与修复。项目最初使用Celery、Kafka和Redis，但因缺乏重试、幂等和安全策略导致问题。文章提出了四个关键改进方向，修复后的系统满足了金融级要求。

5月前
75
点赞
评论

强一致性时代，Kafka、Redis、Celery 谁才是那块短板

AI 为什么能比你更懂网页？一次关于“语义抽取”的实战实验

本文探讨了传统网页抓取的局限性和AI在网页抓取中的新应用。传统抓取依赖于网页结构，易受改版影响。AI技术通过理解网页内容而非标签，提供了更稳定、跨网站的抓取方案，使抓取工作更高效、准确。

5月前
112
点赞
评论

AI 为什么能比你更懂网页？一次关于“语义抽取”的实战实验

从零到上手：用LLM打造会思考、能自愈的数据抓取

本文介绍了抓取技术及其与大型语言模型（LLM）的结合应用。抓取技术能自动从网页提取信息，而LLM作为“智慧大脑”，能理解网页内容，自动推断字段，修复逻辑，实现自动化数据抓取和整理。

5月前
102
点赞
评论

从零到上手：用LLM打造会思考、能自愈的数据抓取

实验报告：让AI自动生成采集代码，会踩哪些坑？

本文探讨了AI自动生成采集代码的可靠性，分析了模拟行为和接口调用两条技术路线，并指出AI在简单场景下表现良好，但在复杂场景下需人工介入。总结了AI写采集的思维框架和路线建议。

6月前
158
点赞
评论

实验报告：让AI自动生成采集代码，会踩哪些坑？

不是简单搜索，而是理解：让获取的论文会“语义对话”

本文介绍了一种基于语义搜索的知识库构建方法，通过将论文内容向量化并存入向量数据库，实现更精准的科研文献检索。与传统关键词匹配不同，该方法能“理解”用户需求，提高科研效率。

6月前
53
点赞
评论

不是简单搜索，而是理解：让获取的论文会“语义对话”