首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
爬虫程序
亿牛云爬虫专家
创建于2021-07-29
订阅专栏
为提升爬虫技巧不断寻找方案
等 6 人订阅
共438篇文章
创建于2021-07-29
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
增量采集为什么比全量采集更难?
文档讨论了数据采集中的全量与增量采集问题。解决方案包括回退时间窗口、允许重复抓取、用唯一ID去重和成功后再推进游标。增量采集适用于可重复、有去重和失败回溯能力的场景。全量采集虽费资源,但逻辑简单可靠。
分布式采集中,数据是怎么“悄无声息”丢掉的?
本文探讨了分布式爬虫中数据丢失问题,强调区分“请求成功”与“数据成功”的重要性,并提出了通过内容校验、任务回流和正确使用代理IP来提高数据采集稳定性的解决方案。
爬虫真的能“自愈”吗?说点不那么好听的实话
本文探讨了AI在爬虫中的应用及其局限性。AI能部分适应页面变化,但不能完全替代规则。爬虫问题分为确定性、模糊和策略三类,AI并未使爬虫完全自动化,而是提高了部分失败的自动处理能力。
Worker越简单,系统越稳定:从单机到集群
本文讨论了从单机采集系统迁移到集群的原因和过程。核心改变是数据完整性和失败处理能力的提升,而非速度。最终,从单机到集群的转变是为结果负责,确保数据可靠性。
不写规则也能抽数据?
本文探讨了企业在招聘数据分析中对薪资信息采集的挑战,分析了从纯规则采集到智能解析的发展,并指出智能解析在招聘场景中的局限性。推荐企业采用人工规则与智能解析相结合的策略,以确保数据的稳定性和可解释性。
并发控制的下一步:让系统自己决定速度
本文讨论了并发控制的三个阶段:1.0阶段的固定并发模型,2.0阶段的规则驱动并发调节,以及3.0阶段的反馈驱动自适应模型。文章通过实战项目展示了如何实现自适应并发采集,强调了系统能力建设的重要性
一次架构调整,让人工介入减少了一半
本文讨论了采集系统从简单失败报错到具备自我修复能力的演进。随着反爬策略的动态化和复杂化,采集系统需要能够识别失败原因并调整行为以提高稳定性,减少人工干预。
稳定性不是零错误,而是可预期
本文讨论了企业级数据系统,尤其是金融和舆情系统的稳定性问题。作者指出,真正的稳定性不在于系统不出错,而在于出错时行为符合预期。在舆情系统中,失败必须是显性的、可分类的,且不能污染结果。
网络开始替你做决定,这事真的有点不对劲
本文讨论了网络层在复杂系统中的重要性。随着系统复杂度增加,网络问题不再是简单的黑盒,而是需要被监控和反馈的状态。通过让网络层参与决策,系统可以更有效地处理失败和延迟,从而提高效率。
任务队列明明在跑,为什么整体速度却越来越慢
本文探讨了采集系统中任务队列变慢的问题,指出真正的瓶颈在于Worker在等待网络响应,尤其是使用代理IP后。建议减少timeout时间,区分失败类型,并标记慢任务,以提高效率。
当数据开始“感知页面”
本文讨论了一起因爬虫错误判断页面加载完成而导致数据采集不完整的事故。爬虫未能识别JS渲染页面中数据的异步加载,导致数据不完整。通过调整爬虫策略和监控体系,问题得到解决。
如何让杂乱网页内容变成可检索数据库
介绍了如何构建一个全文搜索版历史库,全文搜索历史库监控新闻变化,支持版本比对与NLP分析,技术栈为httpx、BeautifulSoup4、SQLite+FTS5,分三层抓取解析存储。
为什么你的去重总是失效?真正的问题其实在“竞态”
讨论分布式采集一致性问题,提出解决方案。系统包括定时触发、抓取列表、原子去重、任务流转和消费持久化。使用Redis SET和Lua脚本实现原子去重,Redis Stream作为队列等,确保数据一致性。
从10个协程到1000个协程:性能下降的背后究竟发生了什么?
通过实例分析了异步程序中“协程越多越快”的常见误解。文章指出协程过多可能导致效率低下,并提供了一个异步抓取学术论文元数据的完整代码示例,强调合理设置并发量的重要性。总结了常见陷阱及解决方案。
强一致性时代,Kafka、Redis、Celery 谁才是那块短板
讨论了一个金融级实时Tick数据项目的失败与修复。项目最初使用Celery、Kafka和Redis,但因缺乏重试、幂等和安全策略导致问题。文章提出了四个关键改进方向,修复后的系统满足了金融级要求。
AI 为什么能比你更懂网页?一次关于“语义抽取”的实战实验
本文探讨了传统网页抓取的局限性和AI在网页抓取中的新应用。传统抓取依赖于网页结构,易受改版影响。AI技术通过理解网页内容而非标签,提供了更稳定、跨网站的抓取方案,使抓取工作更高效、准确。
从零到上手:用LLM打造会思考、能自愈的数据抓取
本文介绍了抓取技术及其与大型语言模型(LLM)的结合应用。抓取技术能自动从网页提取信息,而LLM作为“智慧大脑”,能理解网页内容,自动推断字段,修复逻辑,实现自动化数据抓取和整理。
实验报告:让AI自动生成采集代码,会踩哪些坑?
本文探讨了AI自动生成采集代码的可靠性,分析了模拟行为和接口调用两条技术路线,并指出AI在简单场景下表现良好,但在复杂场景下需人工介入。总结了AI写采集的思维框架和路线建议。
不是简单搜索,而是理解:让获取的论文会“语义对话”
本文介绍了一种基于语义搜索的知识库构建方法,通过将论文内容向量化并存入向量数据库,实现更精准的科研文献检索。与传统关键词匹配不同,该方法能“理解”用户需求,提高科研效率。
读完这篇,你大概不会再随便选异步或协程了
本文讲述了作者在面对小红书上20个品牌的帖子和评论抓取任务时,如何从旧的线程池+队列方案转向异步IO(asyncio+aiohttp)和多协程(gevent)技术,实现了稳定高效的舆情监控系统。
下一页