【RPA】我是如何自动化收集素材到飞书文档的?

2 阅读6分钟

大家好,我是船长,一个探索RPA+AI的程序员,目前在尝试将RPA和AI融入到生活、工作和项目中。微信:TXZO1006

我个人除了对于AI绘画比较感兴趣外,实际上也很想尝试AI写作方面的可能性。

说干就干,既然想搞AI写作,那么写什么就是第一个大问题了。收集了一圈信息后发现时下的AI爆文好像很有潜力,值得尝试一下。

AI爆文实际就是用AI辅助写文追热点,因为热点有流量,有流量那变现的方式就很多了。

所以这里可以搭建一个自己素材库,搜集一些比较优质的素材信息作为之后的写作素材或选题,再利用AI工具进行加工写作,可以极快的创作出一篇像模像样的爆款文案来。

如何实现

既然有了这个需求,那就可以开始做了。

首先第一个问题:热点从哪里来?

当然是各个自媒体平台了,微博、抖音、快手、知乎、头条、小红书等等,这些平台自带海量用户群体,虽然各有不同倾向,但是里面产生的热门话题足够吸引到大量的用户围观了。

第二个问题:如何采集这些热点信息?

这些平台数据都是不一样的,各有各的格式标准,难道我们需要对每个平台都要做定制的采集工作吗?

肯定不用,现在有很多平台已经做过这个工作了,百度搜索关键字“热榜”就能出现一堆这种网站来。我们只需要采集这种网站的数据就好。

至于怎么采集呢?这里会使用影刀RPA工具来构建一个自动化机器人,只需一次构建,就可以一直使用。

第三个问题:这些热点信息怎么保存?

这个就见仁见智了,我比较喜欢用一些云文档工具来作为自己的知识库,一来方便书写使用,二来方便管理分享。如果你更喜欢保存到本地,也可以用Word、Excel下载下来。

影刀RPA实现

RPA,全称是Robotic process automation(机器人流程自动化)。只要你需要使用电脑、手机进行重复性的流程工作,那么就可以用RPA技术创造机器人来帮你完成那些重复性、机械性的工作。

常用的RPA工具有影刀、UiBot两款,各有优劣,这里用的是影刀,因为对新人比较友好。

设计思路

这里使用的热榜网站是 rebang.today/ ,算是质量比较高的热点网站,用来摸鱼、收集素材再合适不过。

下面以RPA的操作流程来梳理下整个流程:

其中是要点在于“数据的抓取”和“飞书文档的连接和写入”两个步骤。清楚流程后,下面就是具体操作实践了。

影刀RPA实现

第一步,打开网页,然后等待2秒钟,保证网站的正常加载完成。

第二步,这里设置了一个循环,每次循环都将网页滚动到底部,然后等待2秒,循环一共进行4次。

之所以有这一步是因为,这个热榜网站是瀑布流式加载方式,向下滚动页面才会加载新的数据,每次加载会新出现20条数据,向下滑动4次后一共会出现至少100条热榜数据。

第三步,连接飞书文档,飞书提供了通过编程API的方式来控制各种文档的新增、修改、删除、查询。但是需要申请一个飞书应用,然后将这个飞书应用加到文档中才有权限对文档进行控制操作。

申请飞书应用

使用有权限的账号登录飞书开放平台 open.feishu.cn/app?lang=zh… 新建一个企业自建应用。

新建完成后首先可以在基础信息中获取到应用凭证App ID和App Secret两个配置

然后在权限管理中给这个应用添加操作电子表格的权限

配置完成后,发布这个应用,然后进入到飞书管理后台对这个应用进行审核,通过后,就可以正常使用这个应用了。

回到飞书云文档中,新建一个电子表格,点击右上角的菜单,将我们之前新建的飞书应用添加到文档中。这样就可以通过飞书应用在这个电子表格中写数据了。

第四步,回到影刀RPA中,使用飞书的“建立表格连接”来创建对于上面新建的电子表格的连接,前两个配置使用飞书的应用凭证App ID和App Secret两个参数。

第三个参数Spreadsheet参数是电子表格的标记,可以从地址栏获取。

xskc7t38fh.feishu.cn/sheets/B2Wp… 这个地址的最后一段就是这个参数,配置完成后,点击左下角的运行,如果没有报错则连接是成功的。

第五步,在电子表格中新建一个sheet页,使用当前日期来进行命名。

第六步,进行数据抓取。这里使用了批量数据抓取工具,使用Ctrl+鼠标左键随便点击一个标题就可以获取到要抓取列表的信息了。

这些数据会被存入影刀的数据表格中,可以点击查看。同时这里也可以手动将表格以Excel格式下载下来。

第七步,循环数据表格,将数据表格每一行通过“写入表格数据”组件写入到飞书电子表格中。

最后一步,将浏览器关闭,完成整个数据抓取过程。

总结

本文给大家详细介绍了如何通过影刀RPA工具,将抓取到的热点数据写入到飞书文档素材库中的整个过程。如果你对于上面流程细节感兴趣可以扫下方二维码来联系我。

由于船长本身是一名程序员,对于爬虫抓取数据的技术过程是比较熟悉的,所以学习RPA还算比较轻松。

其实不管是用哪种方式,编程也好、RPA也罢,最终只要达到目的就好,不需要在意过程中使用的方法有多么优雅、高级。简单、实用就够了。

至于为什么非要做一个素材库呢,你的信息都来自于热榜网站,直接去热榜网站看不就好了吗?其实这样做也是OK的,特别是当你只关注当下的时候。

但是这里有一个问题,那就是时间的尺度,现在的信息生产的快,更新的也快,如果你不去记录,可能昨天的热点事件是什么都容易忘,就更不要说上周的了。这些数据官方都不一定会有记录,如果你记录下来作为素材,那么想要的时候直接搜索就可以了。

此外通过这个过程,你可以实践自己学习RPA的成果,检验自己的能力,这也算一举两得。