首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
爬虫程序
亿牛云爬虫专家
创建于2021-07-29
订阅专栏
为提升爬虫技巧不断寻找方案
等 7 人订阅
共447篇文章
创建于2021-07-29
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
解析规则交给 AI,是效率提升还是系统隐患?
本文通过A/B实验比较人工解析规则与大模型生成解析规则在爬虫场景中的表现。结果显示,人工规则在稳定性和准确性上更优,大模型适合作为规则生成器,但关键字段解析需人工确认和兜底。
采集架构的三次升级:脚本、Docker 与 Kubernetes
本文通过一个电商网站商品列表页采集任务,展示了爬虫架构从Python脚本到Docker化,再到Kubernetes Job化的三次演进。Kubernetes在处理大规模、高成本、高稳定性需求的爬虫任务
一次高并发采集系统的架构设计评审记录
本文讨论了高并发数据采集系统的架构设计问题。原系统因架构失配导致采集失败率高,解决方案是引入架构拆分与代理池,实现任务调度、代理管理、请求执行和失败处理的分离,以提高系统稳定性和资源利用率。
从线程池到全局限流:并发失控的根因分析
本文讨论了采集系统中并发失控的问题,指出并发应作为平台级资源管理。提出了并发治理的核心思想,并通过全局并发控制器、代理IP统一配置和受控请求函数实现平台级并发治理,以确保系统稳定性优先于短期吞吐。
把采集系统装进容器之后,我们到底引入了什么风险
本文探讨了容器化对采集系统稳定性的影响。容器化本身不会使系统更脆弱,建议代理使用到请求级,解耦代理池与容器生命周期,确保失败局部化。正确实施容器化可提高系统稳定性和吞吐能力。
从requests到浏览器自动化:企业级采集方案为什么必须使用混合架构
本文讨论了requests库在企业级数据采集中的局限性,并介绍了从requests到浏览器自动化的架构演进。企业级采集应采用分层架构,requests负责效率,浏览器自动化负责成功率,代理IP作为基础
请求成功率,才是容易被忽略的核心指标
本文讨论了新闻采集中代理使用的核心指标,强调请求成功率的重要性。文章通过代码示例说明了如何统计成功率,并强调成功率是衡量代理和系统性能的关键指标,直接影响采集效率和成本。
别再迷信 Playwright 了,真正决定成败的不是浏览器
本文通过对比实验分析浏览器自动化工具在爬虫项目中的局限性,发现结合代理IP的浏览器自动化方案成功率最高,风险最低。文章强调,浏览器自动化并非万能,应根据实际情况合理选择使用场景。
页面没变,但解析全错了:问题到底出在哪?
本文描述了企业招聘数据采集中遇到的爬虫问题,分析了数据异常的原因,并提出了从结构解析转向语义解析的解决方案。强调了长期数据可靠性的重要性,以及在不断变化的业务策略中,爬虫需要适应语义解析以保证数据质量
增量采集为什么比全量采集更难?
文档讨论了数据采集中的全量与增量采集问题。解决方案包括回退时间窗口、允许重复抓取、用唯一ID去重和成功后再推进游标。增量采集适用于可重复、有去重和失败回溯能力的场景。全量采集虽费资源,但逻辑简单可靠。
分布式采集中,数据是怎么“悄无声息”丢掉的?
本文探讨了分布式爬虫中数据丢失问题,强调区分“请求成功”与“数据成功”的重要性,并提出了通过内容校验、任务回流和正确使用代理IP来提高数据采集稳定性的解决方案。
爬虫真的能“自愈”吗?说点不那么好听的实话
本文探讨了AI在爬虫中的应用及其局限性。AI能部分适应页面变化,但不能完全替代规则。爬虫问题分为确定性、模糊和策略三类,AI并未使爬虫完全自动化,而是提高了部分失败的自动处理能力。
Worker越简单,系统越稳定:从单机到集群
本文讨论了从单机采集系统迁移到集群的原因和过程。核心改变是数据完整性和失败处理能力的提升,而非速度。最终,从单机到集群的转变是为结果负责,确保数据可靠性。
不写规则也能抽数据?
本文探讨了企业在招聘数据分析中对薪资信息采集的挑战,分析了从纯规则采集到智能解析的发展,并指出智能解析在招聘场景中的局限性。推荐企业采用人工规则与智能解析相结合的策略,以确保数据的稳定性和可解释性。
并发控制的下一步:让系统自己决定速度
本文讨论了并发控制的三个阶段:1.0阶段的固定并发模型,2.0阶段的规则驱动并发调节,以及3.0阶段的反馈驱动自适应模型。文章通过实战项目展示了如何实现自适应并发采集,强调了系统能力建设的重要性
一次架构调整,让人工介入减少了一半
本文讨论了采集系统从简单失败报错到具备自我修复能力的演进。随着反爬策略的动态化和复杂化,采集系统需要能够识别失败原因并调整行为以提高稳定性,减少人工干预。
稳定性不是零错误,而是可预期
本文讨论了企业级数据系统,尤其是金融和舆情系统的稳定性问题。作者指出,真正的稳定性不在于系统不出错,而在于出错时行为符合预期。在舆情系统中,失败必须是显性的、可分类的,且不能污染结果。
网络开始替你做决定,这事真的有点不对劲
本文讨论了网络层在复杂系统中的重要性。随着系统复杂度增加,网络问题不再是简单的黑盒,而是需要被监控和反馈的状态。通过让网络层参与决策,系统可以更有效地处理失败和延迟,从而提高效率。
任务队列明明在跑,为什么整体速度却越来越慢
本文探讨了采集系统中任务队列变慢的问题,指出真正的瓶颈在于Worker在等待网络响应,尤其是使用代理IP后。建议减少timeout时间,区分失败类型,并标记慢任务,以提高效率。
当数据开始“感知页面”
本文讨论了一起因爬虫错误判断页面加载完成而导致数据采集不完整的事故。爬虫未能识别JS渲染页面中数据的异步加载,导致数据不完整。通过调整爬虫策略和监控体系,问题得到解决。
下一页