首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
爬虫程序
亿牛云爬虫专家
创建于2021-07-29
订阅专栏
为提升爬虫技巧不断寻找方案
等 6 人订阅
共422篇文章
创建于2021-07-29
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
JSON数据解析实战:从嵌套结构到结构化表格
本文以 Google Scholar 为目标,深入解析嵌套 JSON 数据,从海量文献信息中提取关键词、作者、期刊等内容。最终,我们不仅将数据转换成结构化表格,还制作出技术关系图谱揭示文献间的隐秘联系
XHR请求解密:抓取动态生成数据的方法
在如今动态页面大行其道的时代,传统的静态页面爬虫已无法满足数据采集需求。尤其是在目标网站通过XHR(XMLHttpRequest)动态加载数据的情况下,如何精准解密XHR请求、捕获动态生成的数据是关键
Click Event Simulation:无需浏览器触发动态数据加载
本教程详细讲解了如何在无需浏览器的情况下,利用 Python 代码模拟点击事件加载数据,结合代理IP、Cookie、User-Agent 与多线程技术采集拼多多的商品数据。
Pandas在爬虫中的应用:快速清洗和存储表格数据
Pandas 是一个功能强大的库,广泛用于数据清洗、处理和存储。结合爬虫技术,Pandas 能有效地处理从网页抓取的表格数据,进行清洗和存储。目标是获取楼盘名称、价格等信息,并进行房价分析。
动态内容加载的解决方案:Selenium与Playwright对比故障排查实录
对反爬机制较强的目标网站优先采用Playwright方案,配合完善的代理管理和请求特征模拟,可有效获取动态加载内容。保留Selenium方案用于特殊验证场景突破
BeautifulSoup VS Scrapy:如何选择适合的HTML解析工具?
在Python的网页抓取领域,BeautifulSoup和Scrapy是两款备受推崇的工具。它们各自有着独特的优势和适用场景。本文将深入探讨这两者的特点,帮助您根据项目需求做出明智的选择。
使用Selenium和ChromeDriver模拟用户操作:从表单填写到数据提交
工程师小王与产品经理莉莉需突破问卷星防刷票系统获取投票数据。小王设计“隐身特工”方案,利用代理IP、随机UserAgent和合法Cookie模拟真人投票,成功规避IP追踪与指纹检测。
深度解析:使用 Headless 模式 ChromeDriver 进行无界面浏览器操作
无界面浏览器(Headless Browser)技术应运而生。无界面浏览器是一种没有图形界面的浏览器,它能够在后台运行并模拟用户的浏览器行为。相比传统爬虫,它能够绕过网站的反爬机制,并高效处理动态加载
打造高效的Web Scraper:Python与Selenium的完美结合
结合 Python 与 Selenium,绕过反爬机制抓取 BOSS 直聘招聘信息,涵盖公司名称、招聘岗位、要求及薪资等。通过代理 IP、Cookie 和 User-Agent 设置,实现高效数据爬取
一场始于 Selector Error 的拯救行动:企查查数据采集故障排查记
分析网页动态加载机制与选择器不匹配,辅以合理的代理 IP、请求头配置及动态加载调试工具,成功解决数据采集问题。在爬虫项目中,持续关注目标网站更新动态、优化选择器策略、升级反爬规避方案。
从零开始:用Python爬取懂车帝网站的汽车品牌和价格数据
通过场景模拟,讨论如何获取懂车帝网站的汽车品牌和价格数据。 使用亿牛云爬虫代理的域名、端口、用户名和密码来设置代理,还会设置cookie和User-Agent,以模拟真实用户的访问行为。
低代码时代下的传统爬虫反击
在当下复杂多变的网络环境中,单一技术手段难以满足所有需求。只有灵活运用传统编程技巧与低代码工具,才能真正应对数据采集的挑战,为企业和个人带来更大价值。
深度解析:使用ChromeDriver和webdriver_manager实现无头浏览器爬虫
介绍实现无头浏览器爬虫的方法。可模拟用户行为,获取动态内容,应对反爬机制。文章阐述技术架构和核心模块,包括 Selenium WebDriver、ChromeDriver、代理 IP 设置等。
深入理解Docker:为你的爬虫项目提供隔离环境
本教程旨在利用 Docker 为爬虫项目构建隔离环境,目标是采集小红书视频页面的简介和评论。核心技术包括 Docker 隔离环境、代理 IP 突破反爬、Cookie 与 User - Agent 伪装
FastAPI与Selenium:打造高效的Web数据抓取服务 —— 采集Pixabay中的图片及相关信息
本文将展示如何利用FastAPI搭建一个RESTful接口,通过Selenium模拟浏览器行为访问Pixabay,并使用代理IP、User-Agent和Cookie配置提高爬虫稳定性,进而采集图片
你知道吗?html_table可以提取的不止是表格
当我们提到 `html_table`,许多人可能联想到表格解析,毕竟它的名字直观地表明了处理 HTML 表格的功能。在现代爬虫技术中,它已成为一种强大工具,可以提取、整合、分析、存储多种类型的关键数据
colnames看似简单,却能大幅优化数据处理流程
colnames 函数以其简单的语法设计,提供了高效管理数据框列名的能力,尤其是在复杂的爬虫任务中显得尤为重要。本篇文章以采集BOSS直聘的招聘信息为例,展示如何通过 colnames 和其他数据处理
解锁unlist在网页爬取中的另类用法
头条新闻覆盖了热点时事、社会动态、科技发展等多个领域,为用户提供了全面的信息服务。在这篇文章中,我们将聚焦于一种另类的技术手段——unlist的使用,并结合代理IP和多线程技术,采集今日头条新闻热点。
CSV vs 数据库:爬虫数据存储的最佳选择是什么
CSV和数据库是常用的两种存储方式,但它们各有优缺。这篇文章将分析两者在爬虫数据存储方面的选择值。 微博热搜是当前网络热点话题的重要风向标,其内容涵盖了娱乐、时事、社会等多方面的信息。
cbind与rbind:网页爬取数据的合并策略
在数据爬取中,尤其是对于短视频内容的分析和统计,合并数据是一个至关重要的步骤。在爬虫软件中,有两种重要的合并方法:cbind和rbind。通过这些方法,我们能够更高效地处理视频简介和评论等多维数据。
下一页