首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
爬虫程序
亿牛云爬虫专家
创建于2021-07-29
订阅专栏
为提升爬虫技巧不断寻找方案
等 6 人订阅
共422篇文章
创建于2021-07-29
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
生成式AI驱动的智能采集实战
本项目以“今日头条”站内搜索为目标,设计一套结合生成式AI策略 + 爬虫代理 + 用户模拟行为 + 自动摘要生成的智能采集方案,实现对指定关键词的前10条新闻标题、作者、发布时间、正文内容的提取与分类
强化学习驱动的智能限速:动态请求间隔的终极方案
基于强化学习的智能爬虫方案,用于京东商品数据采集。通过简化版Q-learning算法动态调整请求间隔,结合代理IP和用户模拟技术,实现高效且安全的爬取。系统会自动根据访问成功率给予反馈,优化请求策略。
视觉爬虫开发范例:Puppeteer截图+计算机视觉动态定位
视觉爬虫通过Puppeteer驱动浏览器自动化,结合截图与图像识别技术,直接采集"人眼所见"的页面元素。相比传统爬虫,它能稳定处理JS动态内容,通过图像特征定位元素,尤其适合视频截图、播放状态分析等
智能嗅探AJAX触发:机器学习在动态渲染中的创新应用
本文探讨了动态网页数据采集的挑战与智能化解决方案。针对AJAX动态加载导致传统爬虫失效的问题(如今日头条案例),文章对比了浏览器自动化、抓包分析等传统方法的局限性,提出融合机器学习的智能采集方案。
NLP助力非结构化文本抽取:实体关系提取实战
本文介绍了微博热帖数据采集与NLP分析系统。系统通过代理爬虫获取微博热搜内容,采用规则匹配和简单情感分析方法,实现了实体关系抽取和情感标注。代码示例展示了从代理设置到数据存储的完整流程。
用深度学习提升DOM解析——自动提取页面关键区块
本文探讨了爬取动态渲染网页的技术方案演进。传统XPath方法、采用Playwright模拟浏览器加载,但仍面临XPath路径脆弱的问题。使用BERT模型进行DOM语义块识别,实现稳定高效的数据提取
Kubernetes上的爬虫排队术——任务调度与弹性扩缩容实战
本文介绍了如何在Kubernetes上构建一个可扩展的爬虫系统,以应对日益严格的网站反爬技术。系统使用Docker容器打包爬虫任务,RabbitMQ进行任务队列管理,并通过亿牛云代理防止封禁。
Serverless爬虫架构揭秘:动态IP、冷启动与成本优化
传统爬虫架构存在IP易被封禁、资源浪费、扩展性差和冷启动延迟高等问题。为解决这些瓶颈,Serverless + 代理IP技术成为新一代主流方案。该方案显著提升了爬虫的效率和成本控制。
深挖navigator.webdriver浏览器自动化检测的底层分析
文章面向初学者,提供了分步教程,包括获取代理配置、隐藏 Selenium 特征、并发采集等操作。通过本文的指导,读者可以掌握从底层破解检测、使用代理和多线程技术高效采集数据的完整流程。
Playwright 多语言一体化——Python/Java/.NET 全栈采集实战
本文通过错误示例与修复过程,详细展示了在 Playwright 多语言生态(Python、Java、.NET)中如何正确配置代理、Cookie 和 User-Agent 以避免爬虫被目标网站封禁或触发
把Postman调试脚本秒变Python爬虫代码的三大技巧
本文介绍了如何将 Postman 调试脚本一键转化为 Python 爬虫代码,并实现票务信息采集。文章还提供了完整的代码示例,展示了如何整合这些技巧进行数据采集。
实战案例:采集 51job 企业招聘信息
本文介绍了如何使用 Feapder 快速搭建企业级招聘信息数据管道。首先,文章解释了数据管道的概念及其在企业级应用中的重要性,并推荐了 Feapder 作为轻量易用、支持分布式和丰富插件的爬虫框架。
Parsel vs BeautifulSoup:从性能到用法的全方位对决
本文对比了 Parsel 与 BeautifulSoup 两种常用 Python HTML 解析库在性能、用法、易用性和生态上的差异。通过在财富吧的实战案例,演示如何配置爬虫代理 IP以及抓取
如何用Pyppeteer打造高并发无头浏览器采集方案
讲解如何在 Python 中打造一个可配置代理的高效采集方案,以采集 Amazon 今日特价商品并分析优惠价格与评分。文章代码示例中集成了爬虫代理,并附有详尽注释,帮助读者快速上手。
智能限速算法:基于强化学习的动态请求间隔控制
在爬取抖音精选视频标题与评论的过程中,频繁的固定速率请求往往导致 IP 被封禁或返回 429 限速错误,为此我们引入了基于强化学习的动态请求间隔控制算法,通过智能地调整请求间隔来在最大化吞吐量
QUIC协议优化:HTTP/3环境下的超高速异步抓取方案
随着 QUIC 和 HTTP/3 的普及,基于 UDP 的连接复用与内置加密带来了远超 HTTP/2 的性能提升。本文以爬取知乎热榜数据为目标,提出一种基于HTTPX+aioquic的异步抓取方案
视觉爬虫开发:通过Puppeteer截图+CV定位动态元素坐标
通过 Puppeteer 截图 + CV 定位动态元素坐标的速查指南,帮助你Puppeteer 结合 OpenCV 实现视频截图与评论采集的核心思路与代码示例。文章分为四大部分并集成爬虫代理设置。
动态渲染页面智能嗅探:机器学习判定AJAX加载触发条件
本文提出了一种基于机器学习的智能嗅探机制,革新性地应用于自动判定动态渲染页面中AJAX加载的最佳触发时机。为微博热搜等动态网页的内容快速呈现提供了有力技术支持,同时也实现快速传播与信息获取新的技术路径
深度学习在DOM解析中的应用:自动识别页面关键内容区块
摘要 本文介绍了如何在爬取东方财富吧,利用深度学习模型对 DOM 树中的内容区块进行自动识别和过滤,文章聚焦爬虫整体性能瓶颈,通过指标对比、优化策略、压测数据及改进结果。
GraphQL接口采集:自动化发现和提取隐藏数据字段
本文将围绕GraphQL接口采集*展开,重点介绍如何自动化发现和提取隐藏数据字段,使用 requests、Session构造 GraphQL 请求,配合爬虫代理实现对 Yelp 商家信息的精准抓取。
下一页