一、脚本功能描述
这个案例是自动从文档网站(如人人文档www.renrendoc.com/free-000010… 免积分区—幼儿教育的全部文档,共计5页数据 )批量下载指定列表的文档,并实现自动翻页下载—— 从打开浏览器、访问目标页面,到循环获取文档链接、批量下载,再到自动检测下一页并持续下载,全程无需人工操作,适合需要批量获取网页文档的场景(如资料收集、文档归档)。
二、案例核心逻辑
整个流程是 “打开网页→循环处理当前页→下载文档→检测下一页→重复循环直到无下一页”,核心逻辑分 4 步:
- 初始化准备:打开浏览器并访问目标文档列表页;
- 当前页处理:获取当前页所有文档的下载链接,逐个下载;
- 翻页判断:检测 “下一页” 按钮是否存在,存在则点击翻页;
- 循环终止:直到 “翻页前 URL = 翻页后 URL”(说明已到最后一页),流程结束。
三、完整操作流程
(一)打开网页
组件1,打开浏览器,选择浏览器类型
组件2,浏览网页,输入网址URL
(二)循环判断
组件3,DOWhile循环,控制循环判断,在配置循环判断规则时发现:目标页面的最后一页仍保留 “下一页” 按钮,常规的「检测下一页按钮并点击」的判断方式不再适用。针对此场景,这里采用 URL 对比法作为循环终止依据:流程中分别获取 “翻页前 URL” 和 “翻页后 URL”,当两个 URL 完全相同时,即可判定已遍历至最后一页,此时终止循环流程。
组件4,获取网页信息,记录当前网页的网址URL,输出到变量到
列表页URL
组件5,获取多元素信息/属性值,获取需要下载的
文档入口列表
目标元素://*[@id="content"]/li/p[1]/a
属性名称:href(href 是网页元素的「链接属性」,简单说就是 “这个元素指向的网址”)
组件6,ForEach循环,循环遍历上一步的
文档入口列表,遍历文档链接并下载
组件7,浏览网页,访问循环变量
item,这里是单个文档链接
组件8,浏览器下载,定位下载元素,保存到指定路径
(三)检测下一页
组件9,浏览网页,重新回到列表页
组件10,获取网页信息,获取当前的网址,输出到变量
翻页前的URL以便后续进行对比判断
组件11,检测元素是否存在检测下一页按钮是否存在
组件12,鼠标/元素点击,点击下一页按钮进行翻页
组件13,获取网页信息,获取翻页后的网址,输出到变量
翻页后的URL以便后续进行对比判断
组件14:关闭浏览器
案例脚本分享:
分享: www.huoyuyan.com/share.html?… 提取码: 37FJ