首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
爬虫程序
亿牛云爬虫专家
创建于2021-07-29
订阅专栏
为提升爬虫技巧不断寻找方案
等 7 人订阅
共478篇文章
创建于2021-07-29
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
价格监控:接口请求还是模拟点击?一次性能对比分享
本文比较了监控京东“笔记本电脑”商品价格时,使用API接口和浏览器自动化工具两种方法的优劣。通过优化,使API请求错误率降低,浏览器自动化效率提升。核心数据用API抓取,动态信息用页面模拟补充。
单机与分布式:社交媒体热点采集的实践经验
本文讨论了舆情监控和数据分析中的数据采集问题,比较了单机和分布式架构的优缺点,并提供了微博热榜和小红书热门话题的采集示例代码。强调了数据规模和时效性对架构选择的影响,并提出了可能遇到的问题和解决方案。
抓取系统升级,是优化还是重构更合适?
本文讨论数据抓取项目中优化与重构的选择。优化是小修小补,重构则彻底改变架构。重构在性能上有优势,但需更多时间和资源。建议根据项目需求选择合适方案。
短时间锁定爬取异常的处理思路
本文介绍了作者在短时间高并发爬取新闻站数据时遇到的异常处理思路。通过优化并发控制和代理IP使用,作者将成功率从60%提升至85%以上,并避免了单节点过载问题,强调了合理控制并发的重要性。
数据量暴涨时,抓取架构该如何应对?——豆瓣电影案例调研
案例源于一个电影数据分析项目——起初我们只需要采集豆瓣Top 250榜单做影评与分数趋势分析。但随着研究范围扩大到全部高分电影与每日新片,数据规模呈指数级上升,我们完整追踪了架构应对数据暴涨的演变过程
如何像翻书一样,稳定地抓到你想要的分页招聘数据?
本文介绍了一种高效稳定的分页招聘数据抓取方法,类似于翻书,通过自动化技术快速获取所需信息,提高数据采集效率和准确性。
构建“天气雷达”一样的网页监控系统
本文介绍了一种适用于证券市场的雷达式网页监控系统,该系统通过策略控制、任务调度、智能采集等模块实现精准监测与分析,具有快速响应、高资源利用率、低封禁概率等优势,帮助用户提前捕捉市场机会和风险。
像架构拼乐高一样构建采集系统
本文介绍了如何构建一个微博热搜采集系统,包括代理访问、多线程采集和模块化设计。系统能自动提取热搜词条信息,支持代理IP访问,提高稳定性和隐匿性,并使用多线程提升采集速度。目标是实现高效网络舆情分析。
采集像列车:任务如何不脱轨、数据如何不漏采
本文介绍了如何高效抓取中文新闻站点首页新闻。通过使用代理、User-Agent伪装、线程池并发处理和日志记录,实现稳定、高效、可控的数据采集。后续可自动提取热点摘要,生成短摘要,通过定时任务实现自动化
稳定性隐患手册:开发日常中的六个易被忽略的细节误区
本文探讨了程序设计中的六个稳定性陷阱,并提供了解决方案。这些陷阱包括重试策略、任务结构、客户端标识、通道更新、请求节奏和错误日志记录。文章强调了设计结构的重要性,以构建稳定、抗压的系统。
五个让抓取流程更可控的小技巧
本文探讨了构建可控抓取系统的重要性和技巧。通过比喻、常见问题和实战展示,介绍了代理IP、访问节奏控制、自动重试、灵活选择器和日志记录等关键处理手法,帮助提高数据采集的稳定性和效率。
三种常见网站结构的解析方式对比
本文探讨了页面结构对信息提取方式的影响,并提出了三种主流页面结构(静态、动态、接口式)及其对应的处理策略。通过实战示例,展示了如何使用requests、BeautifulSoup、Playwright
三步构建秒级信息监测系统:从创意灵感到工程落地
本文提出了一种基于即时通讯平台秒级同步机制的信息变动监听策略,通过“轻量检测+条件比对+快速提取”三步实现秒级数据更新响应,以提高信息系统的响应速度和稳定性。
“抓了个寂寞”:一次实时信息采集的意外和修复
本文讨论了舆情监控系统的改进,从定时抓取改为实时监控,通过增加代理、滑动窗口和去重逻辑,提高了监控效率和准确性,确保不错过关键信息。
利用中间件实现任务去重与分发精细化:股吧舆情数据采集与分析实战
通过精细化采集东财股吧数据,构建舆情分析模型。采用Scrapy框架和Redis调度,设计了去重与分发机制,实现高效稳定数据采集。通过事件层、用户层和情绪层的三维结构设计,实现情绪趋势、舆情识别等目标。
网页快照结构化处理方法笔记:以 Common Crawl 为例
介绍了如何使用Common Crawl公益项目获取和分析历史网页快照。包括获取快照索引、下载内容、解析HTML并提取结构化信息。提供了设置代理、请求头等基础设置,并建议使用JSON存储和数据库系统
构建面向电子行业的垂直信息采集系统:Digikey元器件搜索实战
介绍一个电子行业数据采集系统,通过模块化、可扩展的方式从Digikey平台提取电子元器件参数。系统包括关键词输入、请求构建器、页面解析器、数据存储器和定时调度器五个组件,实现数据的自动抓取、解析和存储
分布式新闻数据采集系统的同步效率优化实战
本文介绍了一个基于异步任务的分布式新闻采集架构,通过优化数据同步策略,显著提升了系统效率和稳定性。优化后,数据采集耗时、单条新闻写入时间、重试请求次数和聚合处理等待时间都有提升,整体吞吐能力约提升两倍
打造企业级采集调度系统的最佳实践
本文探讨了构建自动化、可扩展的百度热搜关键词采集系统的重要性和方法。介绍了从错误示范到架构进阶的全过程,并提供了结合代理IP、身份伪装、任务调度的企业级实践代码模板。强调了架构分层、模块隔离的重要性。
Kafka与Flink打造流式数据采集方案:以二手房信息为例
本项目旨在构建基于Kafka和Flink的流式数据处理管道,实时采集和分析北京地区二手房数据,通过Python爬虫、Kafka消息队列、Flink实时计算和MySQL存储,实现数据采集、处理和可视化。
下一页