首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
爬虫程序
亿牛云爬虫专家
创建于2021-07-29
订阅专栏
为提升爬虫技巧不断寻找方案
等 7 人订阅
共484篇文章
创建于2021-07-29
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
从源码到生产:Scrapy 框架全生命周期与代理中间件实战全记录
简述了Python的Scrapy框架,用于构建高并发、分布式爬虫项目。讨论了Scrapy架构、引擎调度、并发控制,提供了开发企业级ProxyMiddleware的方法,强调了Scrapy的优势
如何优雅地搞定复杂 SPA 爬虫?Playwright 异步模式实战踩坑指南
文章讨论了使用Playwright异步模式和隧道代理解决SPA爬虫问题。介绍了Playwright的优势,如事件驱动DOM等待和自动等待机制,并提供了代码实现。强调了使用真实浏览器环境的重要性。
为什么你的爬虫跑着跑着内存就爆了?BeautifulSoup、Lxml与XPath的性能生死局
爬虫性能优化实战经验:文档分享了Python爬虫内存溢出问题、HTML解析器选择的重要性,比较了BeautifulSoup、Lxml和XPath的优缺点,并提出了选择解析器的三条铁律。
如果你天天用 requests.get(),请务必读懂这篇文章
这篇文章介绍了Requests库的架构、各层职责、核心步骤、代理使用和错误排查。理解Requests库机制对解决网络问题至关重要,提供了提高请求效率和稳定性的建议。
为什么我劝你放弃Selenium拥抱Playwright
建议优先使用Playwright,因其在启动速度、反爬、API设计、代理集成等方面优于Selenium。
从“秒封”到“日爬十万”:谈谈5个风控机制
这篇文档讨论了Python爬虫常见问题和反爬策略:1. 控制请求频率;2. 轮换IP;3. 伪装请求头;4. 模拟真实访问路径;5. 使用高匿名代理。这些策略需综合运用,提高爬虫生存率。
别再盲目开高并发了:Python爬虫代理IP调优与防封高阶指南
这篇文档讨论了如何避免爬虫被网站反爬机制检测到,包括代理IP调优配置和高阶API代理架构源码。文档强调合理使用代理IP、控制请求频率和行为模式的重要性。
量化投资第一步:利用代理IP矩阵爬取股市数据
技术博主助量化团队解决东方财富股吧数据爬取难题。核心在于构建稳定的代理IP矩阵,通过住宅IP、随机请求、自动切换IP突破反爬机制。文章提供Python代码实现。
拒绝 403 Forbidden!实战解析全球流媒体元数据的高并发爬虫架构(附完整核心源码)
这篇文档介绍了使用Python和代理构建流媒体平台元数据采集方案。包括动态代理池配置、伪装浏览器指纹、实战Demo、高并发避坑指南。旨在帮助构建稳定有效的采集方案。
从HTTP头部彻底搞懂高匿、普匿与透明代理
文章讨论了HTTP代理的匿名性等级,通过分析HTTP头部字段区分透明、普匿和高匿代理。提供了检测代理等级的方法,并强调高匿代理虽能隐藏IP,但仍需其他手段对抗反爬技术。
拒绝代理池雪崩:Scala + Akka 构建高并发的路由分发实战
开发Scala分布式爬虫系统时,Akka Actor模型通过消息驱动机制解决IP耗尽、路由策略和容错问题。Akka Router机制和容错策略有助于实现高效稳定的爬虫系统。
深度解析:数据采集场景下的 Java 代理技术实战
本文讨论了Java环境下配置HTTP代理以提高爬虫效率和灵活性。包括全局与局部代理配置、连接池与IP保持、HTTPS隧道与代理认证问题处理,以及生产级代理接入代码模板。
Go爬虫进阶:如何优雅地在Colly框架中实现无缝代理切换?
大规模数据采集中,使用代理池和Colly框架的中间件层有效管理代理,避免触发反爬机制,提高爬虫稳定性和效率。
业务实战:基于 Ruby Mechanize 与隧道代理构建工业级数据采集器
本文探讨了在爬虫开发中如何平衡效率,并介绍了Ruby的Mechanize库的优势。它自动管理会话,处理复杂表单,适合社交平台。文章还讨论了IP封禁和代理策略,并提供了代码模板,包括代理配置和错误处理。
告别空壳HTML!Node.js + Playwright + 代理IP 优雅抓取动态网页实战
现代Web爬虫面临动态网页挑战,需用Node.js和Playwright获取完整DOM树。使用代理IP轮换降低被封风险,配置Playwright代理,验证代理有效性,构建异常重试机制。
解决 Python 爬虫代理 407 错误:基于 urllib3 更新与爬虫代理的实战指南
在使用Python Requests库进行爬虫开发时,urllib3 1.26+版本可能导致407错误。本文介绍了3个方案解决:1、Base64认证头2、标准代理URL自动解析3、降级urllib3
踩坑实录:Go 语言高并发+短效代理IP,数万个“幽灵连接”是怎么榨干服务器的?
文章讨论Go语言编写高并发爬虫时的网络问题,如IP粘滞、黑洞效应和撞上限流墙。解决方案是击穿连接池,强制建立新隧道,监控TCP连接数验证问题解决。
告别403和429:如何搭建24小时不间断的本地数据采集系统
文档讨论了构建高可用的本地知识库自动化更新架构,提出了三层分离架构:请求来源层、调度控制层和业务逻辑层。核心设计包括代理池运营、指数退避重试机制和进程守护,以实现自动重试、频率控制和故障恢复。
PHP也可以写高性能爬虫:Swoole协程与代理IP的奇妙化学反应
这篇文档介绍了如何利用PHP和Swoole协程技术构建高效的社交媒体舆情监控系统,通过非阻塞IO和IP代理解决高数据通量和反爬问题,适用于纯HTTP数据采集。
基于CefSharp内核与动态隧道的金融海量行情抓取架构方案
金融量化分析团队面临海外行情网站高频数据抓取挑战。使用CefSharp模拟浏览器,结合代理解决IP限制。关键解决方案包括自定义代理认证头和动态切换代理IP。建议进行代理穿透验证和IP轮换测试,稳定运行
下一页