首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
网络技术
亿牛云爬虫专家
创建于2023-02-22
订阅专栏
各种网络技术问题的讨论和资料
等 1 人订阅
共431篇文章
创建于2023-02-22
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
不写规则也能抽数据?
本文探讨了企业在招聘数据分析中对薪资信息采集的挑战,分析了从纯规则采集到智能解析的发展,并指出智能解析在招聘场景中的局限性。推荐企业采用人工规则与智能解析相结合的策略,以确保数据的稳定性和可解释性。
并发控制的下一步:让系统自己决定速度
本文讨论了并发控制的三个阶段:1.0阶段的固定并发模型,2.0阶段的规则驱动并发调节,以及3.0阶段的反馈驱动自适应模型。文章通过实战项目展示了如何实现自适应并发采集,强调了系统能力建设的重要性
一次架构调整,让人工介入减少了一半
本文讨论了采集系统从简单失败报错到具备自我修复能力的演进。随着反爬策略的动态化和复杂化,采集系统需要能够识别失败原因并调整行为以提高稳定性,减少人工干预。
稳定性不是零错误,而是可预期
本文讨论了企业级数据系统,尤其是金融和舆情系统的稳定性问题。作者指出,真正的稳定性不在于系统不出错,而在于出错时行为符合预期。在舆情系统中,失败必须是显性的、可分类的,且不能污染结果。
网络开始替你做决定,这事真的有点不对劲
本文讨论了网络层在复杂系统中的重要性。随着系统复杂度增加,网络问题不再是简单的黑盒,而是需要被监控和反馈的状态。通过让网络层参与决策,系统可以更有效地处理失败和延迟,从而提高效率。
任务队列明明在跑,为什么整体速度却越来越慢
本文探讨了采集系统中任务队列变慢的问题,指出真正的瓶颈在于Worker在等待网络响应,尤其是使用代理IP后。建议减少timeout时间,区分失败类型,并标记慢任务,以提高效率。
当数据开始“感知页面”
本文讨论了一起因爬虫错误判断页面加载完成而导致数据采集不完整的事故。爬虫未能识别JS渲染页面中数据的异步加载,导致数据不完整。通过调整爬虫策略和监控体系,问题得到解决。
如何让杂乱网页内容变成可检索数据库
介绍了如何构建一个全文搜索版历史库,全文搜索历史库监控新闻变化,支持版本比对与NLP分析,技术栈为httpx、BeautifulSoup4、SQLite+FTS5,分三层抓取解析存储。
为什么你的去重总是失效?真正的问题其实在“竞态”
讨论分布式采集一致性问题,提出解决方案。系统包括定时触发、抓取列表、原子去重、任务流转和消费持久化。使用Redis SET和Lua脚本实现原子去重,Redis Stream作为队列等,确保数据一致性。
从10个协程到1000个协程:性能下降的背后究竟发生了什么?
通过实例分析了异步程序中“协程越多越快”的常见误解。文章指出协程过多可能导致效率低下,并提供了一个异步抓取学术论文元数据的完整代码示例,强调合理设置并发量的重要性。总结了常见陷阱及解决方案。
强一致性时代,Kafka、Redis、Celery 谁才是那块短板
讨论了一个金融级实时Tick数据项目的失败与修复。项目最初使用Celery、Kafka和Redis,但因缺乏重试、幂等和安全策略导致问题。文章提出了四个关键改进方向,修复后的系统满足了金融级要求。
AI 为什么能比你更懂网页?一次关于“语义抽取”的实战实验
本文探讨了传统网页抓取的局限性和AI在网页抓取中的新应用。传统抓取依赖于网页结构,易受改版影响。AI技术通过理解网页内容而非标签,提供了更稳定、跨网站的抓取方案,使抓取工作更高效、准确。
从零到上手:用LLM打造会思考、能自愈的数据抓取
本文介绍了抓取技术及其与大型语言模型(LLM)的结合应用。抓取技术能自动从网页提取信息,而LLM作为“智慧大脑”,能理解网页内容,自动推断字段,修复逻辑,实现自动化数据抓取和整理。
实验报告:让AI自动生成采集代码,会踩哪些坑?
本文探讨了AI自动生成采集代码的可靠性,分析了模拟行为和接口调用两条技术路线,并指出AI在简单场景下表现良好,但在复杂场景下需人工介入。总结了AI写采集的思维框架和路线建议。
不是简单搜索,而是理解:让获取的论文会“语义对话”
本文介绍了一种基于语义搜索的知识库构建方法,通过将论文内容向量化并存入向量数据库,实现更精准的科研文献检索。与传统关键词匹配不同,该方法能“理解”用户需求,提高科研效率。
读完这篇,你大概不会再随便选异步或协程了
本文讲述了作者在面对小红书上20个品牌的帖子和评论抓取任务时,如何从旧的线程池+队列方案转向异步IO(asyncio+aiohttp)和多协程(gevent)技术,实现了稳定高效的舆情监控系统。
Redis、Kafka 与 Celery:分布式调度三件套的性能权衡
本文探讨了分布式采集系统中调度层的重要性,并比较了Redis、Kafka和Celery三种调度工具在抓取头条热点新闻任务中的表现。建议从Redis开始,根据需求逐步升级。
从网页到结构化数据,只需要一个 Prompt:LLM 解析器实战
本文介绍了如何利用大型语言模型(LLM)自动生成网页解析规则,展示了从抓取HTML到自动生成XPath解析规则并提取标题、作者、时间和正文的完整流程。文章还分享了配置经验和验证方法。
我为什么彻底切到 Playwright
本文讨论了从Puppeteer迁移到Playwright的原因和过程,强调Playwright在稳定性、并发隔离、反检测能力、代理注入和多内核支持方面的优势。
容器化 + Playwright:我怎么让 100 个浏览器同时跑还不宕机
本文分享了作者在多站点网页采集项目中使用Playwright遇到的性能瓶颈及优化过程。通过容器拆分、网络层优化和异步控制,成功使100个浏览器实例稳定运行,提升了系统稳定性和爬取效率。
下一页