用影刀RPA做公众号自动化时,一个非常典型的需求场景是:按一组关键词,在搜一搜中自动化采集公众号文章的数据。
整体流程看起来很清楚:搜索关键词、切换筛选条件、进入文章、提取字段,再写入 Excel 表格。
这些步骤本身都不复杂,但真正尝试过搭建这套RPA流程的新手,几乎都会卡在同一个地方——搜索结果页的文章列表。文章条目明明都能获取到,但循环点击处理几篇文章后,就开始出现点空、点偏,导致整个应用无法正常执行下去。
下面我会围绕这个场景,讲一下自己搭建的这个"公众号关键词搜索文章数据采集 RPA机器人",并重点分享"实现稳定循环点击每篇文章"的解决思路。
一、应用介绍
这是一款基于影刀RPA开发的"公众号关键词搜索文章数据采集RPA应用(桌面自动化)"。
用户简单配置启动参数,程序就会自动激活窗口,在搜一搜中搜索关键词、匹配筛选条件,并逐篇打开公众号文章,抓取核心数据字段并写入表格。
目前支持的具体功能点:
-
支持从 EXCEL 循环导入多行关键词:按配置顺序逐条读取关键词,在搜一搜中自动执行采集流程。
-
支持完整采集公众号文章核心数据字段:当前可采集字段包括:文章标题、文章链接、发布时间、阅读量、点赞数、分享数、在看数、留言数、IP 地址。
-
支持5 种搜索结果筛选模式:可按需求切换:不限、最新、最热、已关注、最近读过。
-
支持自定义采集文章数量:可自定义设置采集文章篇数,避免过量抓取。
-
支持按“最新”条件限定时间范围采集:在选择“最新”筛选模式下,可指定仅采集某自定义截止日期内的文章数据,如"近 7 天、近 30 天"发布的文章。
-
内置文章列表可视区域判断与动态滚动机制:自动判断文章元素是否完整处于安全点击区:在可视区域内 → 直接点击,超出可视区域 → 自动滚动页面并重新定位后点击,有效避免“看得到却点不到”的坐标越界问题。
二、运行演示
这里以"品牌营销"这个搜索词为例,采集10篇文章,具体运行效果如下:👇👇
三、流程搭建
1. 流程指令长图
2. 核心难点("循环点击")
搜索结果页的文章列表应用了懒加载技术,能不能顺利点击,取决于它是否完整地落在"安全点击区(可视区域)"内,而不是你有没有拿到这个元素。
我们用一个最直观的场景来理解。
假设你的电脑屏幕高度为:900px,其中:电脑任务栏高度为40px,窗口高度为860px。(*其中"浏览器&页面容器层"高度为40px、"搜一搜顶部功能区&搜索结果类型导航区"高度为110px、"搜索结果筛选排序区&文章列表区"高度为710px)
而窗口的文章条目可见区域里(高度在"150-860px")只能同时显示有限数量的文章,比如 5 篇文章。
那么,前5篇文章因为在屏幕可视区域内,就能顺利点击。而后面的文章条目,虽然你前面也能通过"获取相似元素列表(Win)"指令获取到,但程序执行循环点击时是基于“坐标位置”在点的。
后面的文章条目并未出现在可视区域内,即"程序点的位置,已经不在屏幕里了",这就会导致出现:实际点击到下方电脑任务栏的情况,流程卡死执行不下去。
那么我们对应的处理思路也很明晰了,就是:判断当前循环到的文章条目是否完整的落在可视区域内。
这个判断放到影刀RPA中,就是"坐标位置"必须同时满足:文章条目元素.Top > 可见区域元素.Top,并且文章条目元素.Bottom < 可见区域元素.Bottom。
若满足,则点击文章执行采集,直至当前可视区域内的文章处理完。若不满足,则滚动页面,让新的文章进入安全区,重复以上流程,再获取一次文章条目的坐标,再判断--再点击--再滚动……
*总结:文章条目列表可以很长,但点击只能发生在可视区域内。超过显示范围的文章,必须先滚进屏幕,再进行点击。所以正确做法不是“一直往下点”,而是“点一屏,滚一屏”。
四、如何获取 & 应用?
1. 启动参数说明
启动应用后,用户需要依次输入或选择以下参数:
-
待检索的搜索词本地Excel表:选择待检索的搜索词本地Excel表路径
-
筛选条件:不限、最新、最热、已关注、最近读过
-
采集数量:可自定义采集文章篇数
-
发布日期:筛选条件为"最新"时可设置,小于该日期则停止
2. 环境/工具配置
-
影刀RPA
-
电脑端提前登录账号
-
"待检索的搜索词本地Excel表"
-
应用暂时只支持Windows端
3. 注意事项
-
在运行过程中,请不要进行任何操作来干预程序执行
-
程序已添加"随机间隔"、"鼠标轨迹轻微抖动"、"随机位置点选"等配置来实现拟人化行为模拟,但交互行为的随机性并不能完全规避风控,请勿在"非合理场景+短期内频繁操作"以防触发风控/掉登录,建议使用小号
-END-
• 爱练字的ISTJ型互联网人/信息整合怪/工具人/影刀高级认证工程师。 • 专注分享:RPA&AI自动化场景提效方案、效率软件安利、实用技能。"所有的生产要素都可以被构建,只有认知是壁垒",欢迎関注 @掌心向暖
推荐阅读:
• 拒绝品牌碰瓷!如何通过影刀RPA为品牌IP搭建一套高效的“内容合规治理”工作流? • 那些拥有上千浏览器书签/收藏夹的电脑用户,是怎么管理书签的? • 不会编程的我开发了一款近900行指令的自动化RPA应用,完美解决98%以上复制受限的飞书文档!! • 飞书文档附件文件下载RPA方案2.0来了!不仅是PDF,Word、PPT、Excel、视频都能批量导出了,还都是源文件