首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
爬虫程序
亿牛云爬虫专家
创建于2021-07-29
订阅专栏
为提升爬虫技巧不断寻找方案
等 7 人订阅
共493篇文章
创建于2021-07-29
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
实战:利用Playwright隐藏自动化特征(Stealth模式)的底层原理
文档概述了Playwright爬虫避免网站检测的策略,包括网站检测自动化工具的四层逻辑、stealth-patches解决方案、Stealth模式与动态代理结合的终极方案
深度对比:Scrapy vs PySpider,谁更适合作为企业级分布式底层?
讨论了Scrapy和PySpider两个Python爬虫框架的选型。Scrapy适合长期、高SLA的大规模爬虫系统,而PySpider适合中等规模、有可视化UI需求的团队。
别只盯着HTML了!教你高效抓取并解析PDF/Excel隐藏附件?
这篇文章讨论了从网页提取非标准数据的方法,包括发现附件链接、下载和命名策略、解析PDF和Excel、应对反爬机制,并提供了实战代码。同时,提醒检查合规性和合理设置请求间隔。
告别频繁崩溃与OOM:百万级Scrapy爬虫架构优化与代理实战
Scrapy爬虫优化:1. 启用JOBDIR减少重启;2. 集成代理管理;3. 配置407重试。效果:耗时减至35小时,内存3.5GB,成功率94%。
Python爬虫进阶:Playwright请求拦截(Request Interception)与动态代理IP实战
这篇文档介绍了如何利用Playwright的请求拦截功能开发高效、防屏蔽的爬虫。主要内容包括:1) 请求拦截的必要性;2) Playwright请求拦截机制;3) 实战代码演示;4) 其他注意事项
那些年我们踩过的坑:如何处理网页爬取中的中文字符集乱码(GBK/UTF-8)?
文章讨论了网页乱码问题,分析了编码不一致的原因,并提供了使用高质量代理和智能编码检测的解决方案及排查清单。
全面复盘:BeautifulSoup在处理大规模脏数据时的崩溃问题与解法
本文探讨了大规模脏数据处理中,如何有效使用Python的BeautifulSoup库,并提供解决方案。包括处理超大文档、中文乱码、解析器死循环和系统崩溃等问题,以构建高效、稳定的数据挖掘系统。
为什么说掌握了HTTP协议状态码,就解决了50%的爬虫报错
文章强调了HTTP状态码在爬虫中的重要性,提供了应对常见问题的解决方案。例如,使用代理IP绕过403和429状态码,以及对200状态码的二次校验。理解状态码对提高爬虫效率至关重要。
放弃 Scrapy 拥抱底层库?聊聊企业级爬虫技术选型的真实逻辑
企业常因需求多样性、代理复杂性、性能消耗、调试难度和团队交接问题,不选Scrapy框架,而倾向于使用requests等基础库构建爬虫。
从源码到生产:Scrapy 框架全生命周期与代理中间件实战全记录
简述了Python的Scrapy框架,用于构建高并发、分布式爬虫项目。讨论了Scrapy架构、引擎调度、并发控制,提供了开发企业级ProxyMiddleware的方法,强调了Scrapy的优势
如何优雅地搞定复杂 SPA 爬虫?Playwright 异步模式实战踩坑指南
文章讨论了使用Playwright异步模式和隧道代理解决SPA爬虫问题。介绍了Playwright的优势,如事件驱动DOM等待和自动等待机制,并提供了代码实现。强调了使用真实浏览器环境的重要性。
为什么你的爬虫跑着跑着内存就爆了?BeautifulSoup、Lxml与XPath的性能生死局
爬虫性能优化实战经验:文档分享了Python爬虫内存溢出问题、HTML解析器选择的重要性,比较了BeautifulSoup、Lxml和XPath的优缺点,并提出了选择解析器的三条铁律。
如果你天天用 requests.get(),请务必读懂这篇文章
这篇文章介绍了Requests库的架构、各层职责、核心步骤、代理使用和错误排查。理解Requests库机制对解决网络问题至关重要,提供了提高请求效率和稳定性的建议。
为什么我劝你放弃Selenium拥抱Playwright
建议优先使用Playwright,因其在启动速度、反爬、API设计、代理集成等方面优于Selenium。
从“秒封”到“日爬十万”:谈谈5个风控机制
这篇文档讨论了Python爬虫常见问题和反爬策略:1. 控制请求频率;2. 轮换IP;3. 伪装请求头;4. 模拟真实访问路径;5. 使用高匿名代理。这些策略需综合运用,提高爬虫生存率。
别再盲目开高并发了:Python爬虫代理IP调优与防封高阶指南
这篇文档讨论了如何避免爬虫被网站反爬机制检测到,包括代理IP调优配置和高阶API代理架构源码。文档强调合理使用代理IP、控制请求频率和行为模式的重要性。
量化投资第一步:利用代理IP矩阵爬取股市数据
技术博主助量化团队解决东方财富股吧数据爬取难题。核心在于构建稳定的代理IP矩阵,通过住宅IP、随机请求、自动切换IP突破反爬机制。文章提供Python代码实现。
拒绝 403 Forbidden!实战解析全球流媒体元数据的高并发爬虫架构(附完整核心源码)
这篇文档介绍了使用Python和代理构建流媒体平台元数据采集方案。包括动态代理池配置、伪装浏览器指纹、实战Demo、高并发避坑指南。旨在帮助构建稳定有效的采集方案。
从HTTP头部彻底搞懂高匿、普匿与透明代理
文章讨论了HTTP代理的匿名性等级,通过分析HTTP头部字段区分透明、普匿和高匿代理。提供了检测代理等级的方法,并强调高匿代理虽能隐藏IP,但仍需其他手段对抗反爬技术。
拒绝代理池雪崩:Scala + Akka 构建高并发的路由分发实战
开发Scala分布式爬虫系统时,Akka Actor模型通过消息驱动机制解决IP耗尽、路由策略和容错问题。Akka Router机制和容错策略有助于实现高效稳定的爬虫系统。
下一页