首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
爬虫程序
亿牛云爬虫专家
创建于2021-07-29
订阅专栏
为提升爬虫技巧不断寻找方案
等 7 人订阅
共478篇文章
创建于2021-07-29
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
读完这篇,你大概不会再随便选异步或协程了
本文讲述了作者在面对小红书上20个品牌的帖子和评论抓取任务时,如何从旧的线程池+队列方案转向异步IO(asyncio+aiohttp)和多协程(gevent)技术,实现了稳定高效的舆情监控系统。
从网页到结构化数据,只需要一个 Prompt:LLM 解析器实战
本文介绍了如何利用大型语言模型(LLM)自动生成网页解析规则,展示了从抓取HTML到自动生成XPath解析规则并提取标题、作者、时间和正文的完整流程。文章还分享了配置经验和验证方法。
我为什么彻底切到 Playwright
本文讨论了从Puppeteer迁移到Playwright的原因和过程,强调Playwright在稳定性、并发隔离、反检测能力、代理注入和多内核支持方面的优势。
容器化 + Playwright:我怎么让 100 个浏览器同时跑还不宕机
本文分享了作者在多站点网页采集项目中使用Playwright遇到的性能瓶颈及优化过程。通过容器拆分、网络层优化和异步控制,成功使100个浏览器实例稳定运行,提升了系统稳定性和爬取效率。
别再用脚本硬撸了:Playwright 才是企业级采集的正确打开方式
本文介绍了如何将Playwright从单机脚本进化到分布式调度,以提高稳定性和效率。强调了使用代理池、任务队列、浏览器池和调度器的重要性,并提供了一个Playwright企业采集模板。
抓取任务的权限隔离与多租户(SaaS)平台设计要点
本文介绍了一个多租户采集平台的构建,旨在解决权限隔离和数据独立性问题。项目强调了多租户系统在任务独立、代理隔离、数据分区和权限控制方面的复杂性,并提出了进一步扩展。
手把手带你做一个金融舆情分析系统:爬取 + 情绪识别全流程实战
本文讨论了一个金融舆情分析项目,通过抓取新闻标题和评论,利用情绪分析模型判断市场情绪。对比了两种技术方案分别适用于快速验证和小规模采集,以及大规模舆情监控和数据样本研究。作者推荐混合使用两种方案
百万级并发下的去重挑战:Bloom Filter 与 Redis 的组合方案
本文探讨了高并发数据采集中避免重复URL抓取的问题,提出了结合Bloom Filter、Redis HyperLogLog和持久化备份的解决方案,实现了快速查重、准确统计和数据恢复。
静态规则解析与动态行为分析结合的混合抽取框架
探讨了现代网页数据采集的挑战,介绍了混合抽取框架,结合静态和动态技术,以适应JavaScript渲染和异步加载的网页。通过结构语言和行为语言的理解,混合框架能模拟用户行为,捕获真实数据。
抓取任务队列精简化:延迟队列、优先级队列与回退策略设计
本文讲述了作者通过引入延迟队列、优先级队列和回退策略,优化抓取任务队列,提高系统稳定性和资源利用率。最终实现智能调度,使系统更高效。
用 Playwright + 容器化做分布式浏览器栈:调度、会话管理与资源回收
本文介绍了如何搭建一个分布式浏览器栈,使用Playwright在容器中运行,配合代理、调度和会话管理,实现对多新闻网站的高并发抓取。通过Docker容器化浏览器实例,可以像调度服务一样调度它们。
图像与视频页面的数据提取:从OCR到关键帧抽取的一场“视觉接管”
本文介绍了从图像和视频页面提取数据的技术架构,包括OCR文本识别、关键帧抽取和元数据提取。通过多模态爬取方案,可以更精准地提取视觉内容及其背后的语义信息,对内容监测、品牌分析等行业具有重要价值。
实时金融数据抓取:从混乱到一致性的全过程指南
介绍了如何搭建一个实时金融数据抓取系统,使用代理IP轮换、多线程技术提高效率,并统一数据聚合去重以保证一致性。通过Python和相关库,解决了动态页面刷新、封禁和数据不一致等问题。
中间件实现任务去重与精细化分发:设计模式与常见陷阱
本文探讨了在大规模数据抓取中任务去重的重要性,并介绍了责任链模式在抓取系统中的应用。通过设计去重和分发中间件,系统能更高效、灵活地处理任务,减少资源浪费。强调中间件在构建智能数据系统中的关键作用。
面向新闻站点的增量采集系统:从时间窗口到事件触发
本文介绍了增量采集的概念,即只关注新增和更新的数据,通过时间窗口和事件驱动的组合来高效采集新闻网站的最新内容。提供了一个Python代码示例,展示如何抓取特定新闻网站过去24小时内的新文章。
模拟行为 vs 接口调用:双十一价格分析的两条路线选择
监控京东双十一商品价格,采用接口调用和模拟行为两种方法。接口调用快速但需应对防护,模拟行为慢但能绕过反爬。智能混合方案结合两者,适应不同需求。
用LLM自动化生成解析器:从Prompt到Parser的工程化落地
本文提出用LLM+Prompt自动解析网页,无需手写XPath。示例中,LLM秒生成新浪新闻首页解析代码,速度快、逻辑可读,还能自我迭代。未来工程师将变身“Prompt设计师”,让爬虫开发更简洁有趣。
网页快照的结构化保存方案:对象存储 + 可搜索元数据设计
本文讲述了作者构建新闻信息挖掘系统的过程,从最初的简单网页保存到后来的结构化元数据索引,实现了新闻网页的快速检索和分析。项目最终转变为一个“时间归档系统”,保存网页的同时支持新闻演化分析。
优化分布式采集的数据同步:一致性、去重与冲突解决的那些坑与招
采集项目中遇到的分布式数据同步问题,通过实施一致性、去重和冲突解决,成功解决了数据重复和同步延迟问题,提高了系统稳定性。时间戳哈希保证一致性,URL归一化和布隆过滤器确保去重,分布式锁解决写入冲突
抓取稳定性手册:五种设计避免“瞬间降速 / 宕机”的架构技巧
本文介绍了五种提升爬虫稳定性的架构设计:限速调度器、智能代理切换、分布式任务调度、异常自愈机制和动态心跳监测。提供了一个异步爬虫模板,并强调了稳定性的重要性。
下一页