首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
爬虫程序
亿牛云爬虫专家
创建于2021-07-29
订阅专栏
为提升爬虫技巧不断寻找方案
等 7 人订阅
共471篇文章
创建于2021-07-29
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
一次架构调整,让人工介入减少了一半
本文讨论了采集系统从简单失败报错到具备自我修复能力的演进。随着反爬策略的动态化和复杂化,采集系统需要能够识别失败原因并调整行为以提高稳定性,减少人工干预。
稳定性不是零错误,而是可预期
本文讨论了企业级数据系统,尤其是金融和舆情系统的稳定性问题。作者指出,真正的稳定性不在于系统不出错,而在于出错时行为符合预期。在舆情系统中,失败必须是显性的、可分类的,且不能污染结果。
网络开始替你做决定,这事真的有点不对劲
本文讨论了网络层在复杂系统中的重要性。随着系统复杂度增加,网络问题不再是简单的黑盒,而是需要被监控和反馈的状态。通过让网络层参与决策,系统可以更有效地处理失败和延迟,从而提高效率。
任务队列明明在跑,为什么整体速度却越来越慢
本文探讨了采集系统中任务队列变慢的问题,指出真正的瓶颈在于Worker在等待网络响应,尤其是使用代理IP后。建议减少timeout时间,区分失败类型,并标记慢任务,以提高效率。
当数据开始“感知页面”
本文讨论了一起因爬虫错误判断页面加载完成而导致数据采集不完整的事故。爬虫未能识别JS渲染页面中数据的异步加载,导致数据不完整。通过调整爬虫策略和监控体系,问题得到解决。
如何让杂乱网页内容变成可检索数据库
介绍了如何构建一个全文搜索版历史库,全文搜索历史库监控新闻变化,支持版本比对与NLP分析,技术栈为httpx、BeautifulSoup4、SQLite+FTS5,分三层抓取解析存储。
为什么你的去重总是失效?真正的问题其实在“竞态”
讨论分布式采集一致性问题,提出解决方案。系统包括定时触发、抓取列表、原子去重、任务流转和消费持久化。使用Redis SET和Lua脚本实现原子去重,Redis Stream作为队列等,确保数据一致性。
从10个协程到1000个协程:性能下降的背后究竟发生了什么?
通过实例分析了异步程序中“协程越多越快”的常见误解。文章指出协程过多可能导致效率低下,并提供了一个异步抓取学术论文元数据的完整代码示例,强调合理设置并发量的重要性。总结了常见陷阱及解决方案。
强一致性时代,Kafka、Redis、Celery 谁才是那块短板
讨论了一个金融级实时Tick数据项目的失败与修复。项目最初使用Celery、Kafka和Redis,但因缺乏重试、幂等和安全策略导致问题。文章提出了四个关键改进方向,修复后的系统满足了金融级要求。
AI 为什么能比你更懂网页?一次关于“语义抽取”的实战实验
本文探讨了传统网页抓取的局限性和AI在网页抓取中的新应用。传统抓取依赖于网页结构,易受改版影响。AI技术通过理解网页内容而非标签,提供了更稳定、跨网站的抓取方案,使抓取工作更高效、准确。
从零到上手:用LLM打造会思考、能自愈的数据抓取
本文介绍了抓取技术及其与大型语言模型(LLM)的结合应用。抓取技术能自动从网页提取信息,而LLM作为“智慧大脑”,能理解网页内容,自动推断字段,修复逻辑,实现自动化数据抓取和整理。
实验报告:让AI自动生成采集代码,会踩哪些坑?
本文探讨了AI自动生成采集代码的可靠性,分析了模拟行为和接口调用两条技术路线,并指出AI在简单场景下表现良好,但在复杂场景下需人工介入。总结了AI写采集的思维框架和路线建议。
不是简单搜索,而是理解:让获取的论文会“语义对话”
本文介绍了一种基于语义搜索的知识库构建方法,通过将论文内容向量化并存入向量数据库,实现更精准的科研文献检索。与传统关键词匹配不同,该方法能“理解”用户需求,提高科研效率。
读完这篇,你大概不会再随便选异步或协程了
本文讲述了作者在面对小红书上20个品牌的帖子和评论抓取任务时,如何从旧的线程池+队列方案转向异步IO(asyncio+aiohttp)和多协程(gevent)技术,实现了稳定高效的舆情监控系统。
从网页到结构化数据,只需要一个 Prompt:LLM 解析器实战
本文介绍了如何利用大型语言模型(LLM)自动生成网页解析规则,展示了从抓取HTML到自动生成XPath解析规则并提取标题、作者、时间和正文的完整流程。文章还分享了配置经验和验证方法。
我为什么彻底切到 Playwright
本文讨论了从Puppeteer迁移到Playwright的原因和过程,强调Playwright在稳定性、并发隔离、反检测能力、代理注入和多内核支持方面的优势。
容器化 + Playwright:我怎么让 100 个浏览器同时跑还不宕机
本文分享了作者在多站点网页采集项目中使用Playwright遇到的性能瓶颈及优化过程。通过容器拆分、网络层优化和异步控制,成功使100个浏览器实例稳定运行,提升了系统稳定性和爬取效率。
别再用脚本硬撸了:Playwright 才是企业级采集的正确打开方式
本文介绍了如何将Playwright从单机脚本进化到分布式调度,以提高稳定性和效率。强调了使用代理池、任务队列、浏览器池和调度器的重要性,并提供了一个Playwright企业采集模板。
抓取任务的权限隔离与多租户(SaaS)平台设计要点
本文介绍了一个多租户采集平台的构建,旨在解决权限隔离和数据独立性问题。项目强调了多租户系统在任务独立、代理隔离、数据分区和权限控制方面的复杂性,并提出了进一步扩展。
手把手带你做一个金融舆情分析系统:爬取 + 情绪识别全流程实战
本文讨论了一个金融舆情分析项目,通过抓取新闻标题和评论,利用情绪分析模型判断市场情绪。对比了两种技术方案分别适用于快速验证和小规模采集,以及大规模舆情监控和数据样本研究。作者推荐混合使用两种方案
下一页