【实战案例】火语言 RPA 采集小说站已完结书名(自动翻页判断),保存到Excel 全流程(附完整脚本)

31 阅读3分钟

一、脚本功能描述

自动打开某小说站的完本小说页面,采集已完结小说书名,将采集的书名保存到EXCEL。实现自动翻页判断,有下一页则点击下一页,无下一个则循环结束。

1.png

二、整体逻辑

1、准备:

**初始化页码计数器(从第 1 页开始采,记录当前采集到第几页)
**创建空列表(准备装数据的“盒子”,系统自动生成的list1 列表,用于存所有采集到的小说名)
**打开浏览器、浏览网页(选择浏览器类型,访问网址URL)

2、循环采集

重复做三件事,直到满足停止条件(这里可以看到有50页,那么循环采集50页或无下一页)
**采集当前页的小说名,存入 list1
**判断是否需要翻页(当前页码≤50,且下一页按钮可点击时,才翻页);
**翻页后更新页码(页码+1),不翻页就停。

3、保存数据:

**打开 / 创建 Excel 文件;
**在 Excel 的 A1 单元格写入 “小说名” 作为表头。
**把列表里的名字纵向写到 Excel A 列。

4、结束操作:

**保存 Excel 文件;
**关闭浏览器,流程结束。

三、详细操作步骤

步骤 1:初始化页码计数器

操作细节

变量赋值,创建变量 页码:current_page, 值输1; 告诉脚本 “从第 1 页开始采”

3.1.png

步骤 2:建空表格存数据

操作细节

列表打开或新建,准备一个“盒子”存所有采集的小说名,系统自动命名list1

3.2.png

步骤 3:打开浏览器 + 打开目标页

操作细节

打开浏览器(选择浏览器类型:内置、外置、指纹)
浏览网页,输入需要采集的网址URL:www.qidian.com/finish/

3.3.1.png

3.3.2.png

步骤 4:循环采集

操作细节

While 循环,条件输current_page ≤50,页码控制最多采 50 页,自动重复采集动作

4.png

4.1 等页面加载

等待元素显示消失,选择器输css:.all-img-list,确保等小说列表加载完,避免采空

4.1.png

4.2 提取当前页小说名

获取多元素信息/属性值,择器输css:.book-mid-info h2 a(精准定位小说名),
提取类型:选择textContent(文本内容),输出变量名:current_names(临时存当前页小说名)。
这里输出变量可以选在添加变量(快速),可以自动根据组件选择类型。

4.2.png

4.3 合并到 list1

列表合并,将上一个组件的输出的current_names(临时存当前页小说名),合并到盒子list1

4.3.png

4.4 判断是否翻页(该页面只显示50页,这里就以50页作为判断依据)

条件判断,页码≤50(控制是否翻页),否则就停止。

4.4.png

在实操中发现,这个网站比较特殊,当页面到49页后,点击下一页按钮无效的,无法跳转到50页

4.4.1.png

所以这里判断条件逻辑为:
current_page ≠49时:直接点击下一页按钮翻页(1→2、2→3…);
current_page = 49 时:点击分页栏的 “50” 标签(确保定位到 50 页,避免跳转问题);

4.4.2.png

4.4.3.png

步骤 5:保存数据 + 结束操作

Excel打开文档,新建Excel文档,用于保存小说名

5.1.png

Excel写入内容,写入表头和小说名

5.2.png

5.3.png

Excel关闭保存文档
关闭浏览器

5.4.png

注意事项:

一、逻辑循序:先采集,后翻页

正确顺序:
等待页面加载 → 提取当前页数据 → 合并到总列表 → 翻页判断 → 执行翻页 + 更新页码,从上到下看步骤,“条件判断(IfElse)” 必须在 “提取数据”“合并列表” 之后。

二、变量与赋值:

1-48 页 / 50 页的 “页码 + 1”:
模式:必须选 “# 模式”(变量模式),值填#current_page + 1;
错误:用 “T 模式” 填current_page + 1(会变成文本 “current_page + 1”,不是数字)。

6.png

案例脚本分享: www.huoyuyan.com/share.html?… 提取码: 65ef