最近 OpenClaw 火出圈了,但很多人还不知道它最实用的能力之一——自动抓取网页数据。 今天分享一个真实场景:如何用 OpenClaw 自动抓取竞品价格、文章标题、招聘信息等数据,并整理成表格。 一、为什么用 OpenClaw 做数据抓取? 传统爬虫需要:
-
写 Python 代码
-
处理反爬机制
-
部署运行环境
-
定时任务配置
用 OpenClaw 只需要:
-
一句话指令
-
自动安装技能
-
定时执行,结果直接推送到飞书/微信
二、实战:抓取某电商平台商品价格 第一步:安装抓取技能 在终端执行:clawhub install playwright-scraper-skill clawhub install curl-http 或者让 OpenClaw 帮你安装:"帮我安装网页抓取相关的技能" 第二步:配置抓取任务 直接给 OpenClaw 发消息:"帮我抓取 XX 平台上'笔记本电脑'的价格信息,包括商品名称、价格、销量,保存成 Excel 表格" 第三步:设置定时任务"每天早上 9 点自动抓取一次,把结果发到我的飞书" 三、技能配置详解 OpenClaw 的抓取技能支持:
-
简单页面:使用 curl-http 直接请求
-
JS 渲染页面:使用 playwright-scraper-skill 处理动态内容
-
需要登录的页面:配置 Cookie 和 Session
-
反爬保护:设置 User-Agent、请求间隔
示例配置:{ "url": "example.com/products", "selector": ".product-item", "fields": ["title", "price", "sales"], "output": "excel" } 四、进阶用法 1. 多平台对比抓取"同时抓取京东、淘宝、拼多多的 iPhone 价格,生成对比表格" 2. 监控价格变化"每天监控这款商品的价格,降价超过 10% 时通知我" 3. 抓取 + 分析"抓取最近 100 条用户评论,分析正面/负面评价比例" 4. 抓取 + 推送"发现新品上架时,立刻推送到我的微信" 五、注意事项 ⚠️ 合法合规
-
遵守网站 robots.txt 协议
-
不要高频请求导致服务器压力
-
仅抓取公开数据,不要突破登录验证
⚠️ 技能选择
-
简单页面用 curl-http(速度快)
-
动态页面用 playwright-scraper-skill(功能强)
-
国内网站可能需要配置代理
六、常用抓取场景
场景
技能
频率
竞品价格监控
playwright-scraper
每天 1 次
行业新闻收集
curl-http + RSS
每小时 1 次
招聘信息抓取
playwright-scraper
每天 2 次
社交媒体监测
定制技能
实时
用到的技能推荐
爬虫/数据抓取类
-
deep-scraper - 深度网页抓取
-
playwright-scraper-skill - Playwright 驱动的 scraper
-
web-scraper-as-a-service - Web 抓取服务
-
ai-data-scraper - AI 数据抓取
-
data-scraper - 通用数据抓取
搜索类
-
tavily-search - AI 优化的网络搜索(推荐)
-
baidu-search - 百度搜索
-
ddg-web-search - DuckDuckGo 搜索
-
web-search-free - 免费网络搜索
HTTP/API 类
-
curl-http - cURL HTTP 请求
-
http - HTTP 客户端
-
api-tester - API 测试工具
想看什么主题?评论区告诉我👇 资源链接:
-
OpenClaw 官方文档:docs.openclaw.ai
-
中文社区:clawd.org.cn
-
技能市场:clawhub.com