首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
亿牛云爬虫专家
掘友等级
成都京远汇蓝信息技术有限公司
提供爬虫技术交流和产品,欢迎测试
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
6
文章 6
沸点 0
赞
6
返回
|
搜索文章
最新
热门
把采集系统装进容器之后,我们到底引入了什么风险
本文探讨了容器化对采集系统稳定性的影响。容器化本身不会使系统更脆弱,建议代理使用到请求级,解耦代理池与容器生命周期,确保失败局部化。正确实施容器化可提高系统稳定性和吞吐能力。
从requests到浏览器自动化:企业级采集方案为什么必须使用混合架构
本文讨论了requests库在企业级数据采集中的局限性,并介绍了从requests到浏览器自动化的架构演进。企业级采集应采用分层架构,requests负责效率,浏览器自动化负责成功率,代理IP作为基础
请求成功率,才是容易被忽略的核心指标
本文讨论了新闻采集中代理使用的核心指标,强调请求成功率的重要性。文章通过代码示例说明了如何统计成功率,并强调成功率是衡量代理和系统性能的关键指标,直接影响采集效率和成本。
别再迷信 Playwright 了,真正决定成败的不是浏览器
本文通过对比实验分析浏览器自动化工具在爬虫项目中的局限性,发现结合代理IP的浏览器自动化方案成功率最高,风险最低。文章强调,浏览器自动化并非万能,应根据实际情况合理选择使用场景。
页面没变,但解析全错了:问题到底出在哪?
本文描述了企业招聘数据采集中遇到的爬虫问题,分析了数据异常的原因,并提出了从结构解析转向语义解析的解决方案。强调了长期数据可靠性的重要性,以及在不断变化的业务策略中,爬虫需要适应语义解析以保证数据质量
增量采集为什么比全量采集更难?
文档讨论了数据采集中的全量与增量采集问题。解决方案包括回退时间窗口、允许重复抓取、用唯一ID去重和成功后再推进游标。增量采集适用于可重复、有去重和失败回溯能力的场景。全量采集虽费资源,但逻辑简单可靠。
分布式采集中,数据是怎么“悄无声息”丢掉的?
本文探讨了分布式爬虫中数据丢失问题,强调区分“请求成功”与“数据成功”的重要性,并提出了通过内容校验、任务回流和正确使用代理IP来提高数据采集稳定性的解决方案。
网页快照不是备份,而是一种数据策略
本文讨论了房价爬虫中保存网页快照的重要性,通过实际案例,强调了网页快照对于数据可回放性、来源追溯和解析规则演进的重要性,并提出了包括代理IP和网页快照在内的存证层设计思路。
爬虫真的能“自愈”吗?说点不那么好听的实话
本文探讨了AI在爬虫中的应用及其局限性。AI能部分适应页面变化,但不能完全替代规则。爬虫问题分为确定性、模糊和策略三类,AI并未使爬虫完全自动化,而是提高了部分失败的自动处理能力。
Worker越简单,系统越稳定:从单机到集群
本文讨论了从单机采集系统迁移到集群的原因和过程。核心改变是数据完整性和失败处理能力的提升,而非速度。最终,从单机到集群的转变是为结果负责,确保数据可靠性。
下一页
个人成就
文章被点赞
23
文章被阅读
145,244
掘力值
6,862
关注了
22
关注者
19
收藏集
1
关注标签
2
加入于
2019-08-23