爬虫程序

爬虫程序

爬虫程序

为提升爬虫技巧不断寻找方案

等 7 人订阅共479篇文章创建于2021-07-29

视觉爬虫开发范例：Puppeteer截图＋计算机视觉动态定位

视觉爬虫通过Puppeteer驱动浏览器自动化，结合截图与图像识别技术，直接采集"人眼所见"的页面元素。相比传统爬虫，它能稳定处理JS动态内容，通过图像特征定位元素，尤其适合视频截图、播放状态分析等

12月前
256
点赞
评论

视觉爬虫开发范例：Puppeteer截图＋计算机视觉动态定位

智能嗅探AJAX触发：机器学习在动态渲染中的创新应用

本文探讨了动态网页数据采集的挑战与智能化解决方案。针对AJAX动态加载导致传统爬虫失效的问题（如今日头条案例），文章对比了浏览器自动化、抓包分析等传统方法的局限性，提出融合机器学习的智能采集方案。

12月前
94
点赞
评论

智能嗅探AJAX触发：机器学习在动态渲染中的创新应用

NLP助力非结构化文本抽取：实体关系提取实战

本文介绍了微博热帖数据采集与NLP分析系统。系统通过代理爬虫获取微博热搜内容，采用规则匹配和简单情感分析方法，实现了实体关系抽取和情感标注。代码示例展示了从代理设置到数据存储的完整流程。

12月前
130
点赞
评论

NLP助力非结构化文本抽取：实体关系提取实战

用深度学习提升DOM解析——自动提取页面关键区块

本文探讨了爬取动态渲染网页的技术方案演进。传统XPath方法、采用Playwright模拟浏览器加载，但仍面临XPath路径脆弱的问题。使用BERT模型进行DOM语义块识别，实现稳定高效的数据提取

1年前
115
点赞
评论

用深度学习提升DOM解析——自动提取页面关键区块

Kubernetes上的爬虫排队术——任务调度与弹性扩缩容实战

本文介绍了如何在Kubernetes上构建一个可扩展的爬虫系统，以应对日益严格的网站反爬技术。系统使用Docker容器打包爬虫任务，RabbitMQ进行任务队列管理，并通过亿牛云代理防止封禁。

1年前
105
点赞
评论

Kubernetes上的爬虫排队术——任务调度与弹性扩缩容实战

Serverless爬虫架构揭秘：动态IP、冷启动与成本优化

传统爬虫架构存在IP易被封禁、资源浪费、扩展性差和冷启动延迟高等问题。为解决这些瓶颈，Serverless + 代理IP技术成为新一代主流方案。该方案显著提升了爬虫的效率和成本控制。

1年前
213
点赞
评论

Serverless爬虫架构揭秘：动态IP、冷启动与成本优化

深挖navigator.webdriver浏览器自动化检测的底层分析

文章面向初学者，提供了分步教程，包括获取代理配置、隐藏 Selenium 特征、并发采集等操作。通过本文的指导，读者可以掌握从底层破解检测、使用代理和多线程技术高效采集数据的完整流程。

1年前
227
点赞
评论

深挖navigator.webdriver浏览器自动化检测的底层分析

Playwright 多语言一体化——Python/Java/.NET 全栈采集实战

本文通过错误示例与修复过程，详细展示了在 Playwright 多语言生态（Python、Java、.NET）中如何正确配置代理、Cookie 和 User-Agent 以避免爬虫被目标网站封禁或触发

1年前
150
点赞
评论

Playwright 多语言一体化——Python/Java/.NET 全栈采集实战

把Postman调试脚本秒变Python爬虫代码的三大技巧

本文介绍了如何将 Postman 调试脚本一键转化为 Python 爬虫代码，并实现票务信息采集。文章还提供了完整的代码示例，展示了如何整合这些技巧进行数据采集。

1年前
152
点赞
评论

把Postman调试脚本秒变Python爬虫代码的三大技巧

实战案例：采集 51job 企业招聘信息

本文介绍了如何使用 Feapder 快速搭建企业级招聘信息数据管道。首先，文章解释了数据管道的概念及其在企业级应用中的重要性，并推荐了 Feapder 作为轻量易用、支持分布式和丰富插件的爬虫框架。

1年前
122
点赞
评论

实战案例：采集 51job 企业招聘信息

Parsel vs BeautifulSoup：从性能到用法的全方位对决

本文对比了 Parsel 与 BeautifulSoup 两种常用 Python HTML 解析库在性能、用法、易用性和生态上的差异。通过在财富吧的实战案例，演示如何配置爬虫代理 IP以及抓取

1年前
256
点赞
评论

Parsel vs BeautifulSoup：从性能到用法的全方位对决

如何用Pyppeteer打造高并发无头浏览器采集方案

讲解如何在 Python 中打造一个可配置代理的高效采集方案，以采集 Amazon 今日特价商品并分析优惠价格与评分。文章代码示例中集成了爬虫代理，并附有详尽注释，帮助读者快速上手。

1年前
140
点赞
评论

如何用Pyppeteer打造高并发无头浏览器采集方案

智能限速算法：基于强化学习的动态请求间隔控制

在爬取抖音精选视频标题与评论的过程中，频繁的固定速率请求往往导致 IP 被封禁或返回 429 限速错误，为此我们引入了基于强化学习的动态请求间隔控制算法，通过智能地调整请求间隔来在最大化吞吐量

1年前
270
点赞
评论

智能限速算法：基于强化学习的动态请求间隔控制

QUIC协议优化：HTTP/3环境下的超高速异步抓取方案

随着 QUIC 和 HTTP/3 的普及，基于 UDP 的连接复用与内置加密带来了远超 HTTP/2 的性能提升。本文以爬取知乎热榜数据为目标，提出一种基于HTTPX+aioquic的异步抓取方案

1年前
151
点赞
评论

QUIC协议优化：HTTP/3环境下的超高速异步抓取方案

视觉爬虫开发：通过Puppeteer截图+CV定位动态元素坐标

通过 Puppeteer 截图 + CV 定位动态元素坐标的速查指南，帮助你Puppeteer 结合 OpenCV 实现视频截图与评论采集的核心思路与代码示例。文章分为四大部分并集成爬虫代理设置。

1年前
244
点赞
评论

视觉爬虫开发：通过Puppeteer截图+CV定位动态元素坐标

动态渲染页面智能嗅探：机器学习判定AJAX加载触发条件

本文提出了一种基于机器学习的智能嗅探机制，革新性地应用于自动判定动态渲染页面中AJAX加载的最佳触发时机。为微博热搜等动态网页的内容快速呈现提供了有力技术支持，同时也实现快速传播与信息获取新的技术路径

1年前
69
点赞
评论

动态渲染页面智能嗅探：机器学习判定AJAX加载触发条件

深度学习在DOM解析中的应用：自动识别页面关键内容区块

摘要本文介绍了如何在爬取东方财富吧，利用深度学习模型对 DOM 树中的内容区块进行自动识别和过滤，文章聚焦爬虫整体性能瓶颈，通过指标对比、优化策略、压测数据及改进结果。

1年前
149
点赞
评论

深度学习在DOM解析中的应用：自动识别页面关键内容区块

GraphQL接口采集：自动化发现和提取隐藏数据字段

本文将围绕GraphQL接口采集*展开，重点介绍如何自动化发现和提取隐藏数据字段，使用 requests、Session构造 GraphQL 请求，配合爬虫代理实现对 Yelp 商家信息的精准抓取。

1年前
147
点赞
评论

GraphQL接口采集：自动化发现和提取隐藏数据字段

移动端数据抓取：Android App的TLS流量解密方案

Android应用程序（App）通过加密的TLS协议保护其与服务器之间的通信，增加了数据采集的难度。本文将以知乎App为例，演示如何通过TLS流量解密技术抓取其热榜数据。

1年前
189
点赞
评论

移动端数据抓取：Android App的TLS流量解密方案

容器化爬虫部署：基于K8s的任务调度与自动扩缩容设计

本篇文章比较了两种基于 Kubernetes 的容器化爬虫调度与扩缩容方案，文章从调度灵活性、扩缩容粒度、实现难度、成本效率和生态成熟度五个维度进行对比，并给出完整的 YAML+Python 对比示例

1年前
139
点赞
评论

容器化爬虫部署：基于K8s的任务调度与自动扩缩容设计