使用RPA通过GPT大模型AI Agent自动执行业务流程任务企业级应用开发实战:1. RPA与GPT大模型AI Agent的结合初探

221 阅读11分钟

1.背景介绍

在现代商业社会中,日常工作生活中繁琐且重复的手工流程耗费了大量的时间和精力,并且还会导致效率低下、成本过高、质量不稳定等问题,给企业带来沉重的经济损失。而通过机器人流程自动化(Robotic Process Automation,RPA)技术,可以将一些重复性、普遍存在的手动过程转变为自动化运行的流程,提高工作效率、降低人力投入、降低成本。当前,RPA技术已经成为各行各业应用领域的热门话题。而基于自然语言生成技术的GPT-2,由于拥有较高的准确度和语料库规模,可以完成复杂任务的智能推理。如何结合RPA技术和GPT-2大模型AI Agent进行自动化业务流程任务管理,就是当前面临的难点之一。

为了解决这个难点,业内有许多相关研究。例如,等人提出了基于Python语言的RPA编程框架PyAutoGUI,能够有效地利用屏幕点击、键盘输入等UIAutomation API,实现各种电脑应用程序的自动化操作;Zhong等人通过利用HTTP协议,借助开源框架Scrapy,实现了自动抓取网页数据的自动化爬虫工具。随后,基于Kubernetes容器编排技术的Argo项目,针对复杂的分布式任务流调度系统,也提供了相应的解决方案。但是这些工具或技术目前都只局限于特定场景的应用,并且功能单一。因此,如果想要通过RPA+GPT大模型AI Agent的组合,对不同业务流程进行自动化管理,就需要结合不同的框架、工具和方法论,才能真正实现最佳的效果。

本文将通过一个案例,展示如何通过RPA+GPT大模型AI Agent结合的方法论,来帮助企业更好地管理自己的业务流程。我们将使用基于Windows操作系统的办公自动化软件——企业微信Desktop,作为我们的测试对象。在阅读完毕后,读者应该能够理解RPA+GPT大模型AI Agent自动化办公流程的方法论,并能进一步了解如何结合相关工具及技术,制作属于自己的商业应用。

2.核心概念与联系

2.1 GPT-2(Generative Pre-trained Transformer)

GPT-2是一种基于Transformer神经网络的大型语言模型,主要用于文本生成任务。它能够生成新闻、微博客、书籍、维基百科、文本摘要等大量的内容。为了训练GPT-2,Google团队开展了一个名为“WebText”的项目,其中包含了超过三亿个网页,包括维基百科、Reddit、Twitter等社交媒体平台的内容。他们训练了两个版本的GPT-2模型,分别是“Small”版和“Medium”版。

2.2 RPA(Robotic Process Automation)

RPA即机器人流程自动化,是指利用软件自动化执行人机交互流程的技术。RPA允许用户用最少的人力和时间,将重复、繁琐的手工流程自动化,达到从小事到大事的自动化程度。RPA可以提升企业的工作效率、降低员工投入、节省成本。传统的RPA技术通常由第三方软件提供商提供服务,例如微软的PowerAutomate、阿里巴巴的有道词典、SAP的Workflow Management等。这些软件提供不同的功能,如移动端、桌面端、Web端、API接口等。

2.3 模拟人类(Chatterbot)

Chatterbot是一个基于Python语言的开源对话机器人框架。它提供了丰富的聊天数据集,可以根据这些数据集训练出多种类型的聊天机器人,包括程序聊天机器人、游戏聊天机器人、医疗聊天机器人等。Chatterbot的训练方式有基于语料库的随机采样、基于序列标注的双向LSTM、基于注意力机制的BERT等。目前,Chatterbot已经被广泛应用于企业内部、外部的对话系统中。

3.核心算法原理和具体操作步骤以及数学模型公式详细讲解

3.1 案例简介

在本案例中,我们将以办公自动化软件企业微信Desktop为测试对象。企业微信是一款具有高效率、安全、直观的手机端办公协同工具。它同时支持PC、Mac、iPad、Windows四个平台,能够轻松搭建内部、外部的通信、视频会议、日程管理等服务。

3.2 整体业务流程

当使用企业微信时,一般包括如下几个主要的业务流程:

1.发送消息:企业人员发送各种消息,包括文字、图片、文件、表情、分享链接、指令等。 2.查看信息:包括个人信息、通讯录、工作群组、企业微信、工作台等信息的查询和筛选。 3.组织会议:包括创建会议、预约会议、参加会议、取消会议、会议记录、回放会议等。 4.管理文件:包括上传、下载、移动、删除文件、批量处理文件、打印文件等。

3.3 用例设计

3.3.1 操作步骤

1.打开企业微信Desktop客户端。

2.登陆企业微信账号。

3.进入待办事项界面,选择某个业务流程。

4.按照标准流程,完成流程操作。

3.3.2 操作难易度分析

每一件流程都可能存在多个子流程,但每一件流程的操作难易度往往比较一致。譬如,发送消息的操作比较简单,而查看信息、组织会议、管理文件则比较困难。所以,通过已有的业务流程模板,自动识别出对应业务流程的操作难易度,就可以确定本次测试的对象是否具备足够的理解能力和动手能力。

3.3.3 业务流程图设计

为了更好的识别操作难易度,我们可以使用业务流程图的方式进行表示,如下所示:

3.3.4 关键节点定位

通过分析、总结业务流程中的关键节点,可以定位整个业务流程的操作难易度,有利于我们快速定位可能出现的问题。比如,对于发送消息的操作来说,可能比较简单,而对于查看信息、组织会议、管理文件的操作来说,可能比较困难。有了定位,我们就可以充分准备数据并训练模型,然后用模型进行测试。

3.4 数据收集

由于企业微信Desktop目前没有官方接口,无法获取到自动化测试所需的数据。因此,我们只能通过人工的方式来收集数据。因此,我们首先需要确认测试对象使用的业务流程。之后,可以通过定期走访的方式来获得企业微信Desktop正常情况下的操作数据。在实际操作过程中,遇到的问题会被记录下来,这些问题都是我们需要识别和解决的问题。

3.4.1 测试对象业务流程

由于企业微信Desktop不具备良好的可视化页面,无法一目十行,因此,我们采用流程图的方式来呈现,如下所示:

3.4.2 操作数据记录

我们会在测试对象正常情况下完成操作流程,遇到的问题都将被记录下来。譬如,我们可以在测试过程中按以下方式进行记录:

1.遇到什么情况,怎么解决? 2.遇到了哪些疑问,怎么处理? 3.遇到哪些错误,怎么排查? 4.有哪些优化方案,可以考虑? 5.还有哪些不方便的地方,要注意?

3.5 数据清洗与划分

在数据收集完成后,我们需要对数据进行清洗和划分。清洗的目的就是去掉无关的数据,让数据集更加纯净;划分的目标就是将测试数据集划分为训练集和验证集,用于模型的训练和验证。这样做的好处是可以更好地评估模型的性能。

3.5.1 清洗阶段

1.剔除无关数据:由于企业微信Desktop客户端不存在明显的页面元素,因此我们无法一目十行地进行布局和特征的识别。因此,在收集数据时,我们会采取一些限制条件,譬如,每一句发送的信息都应该有对应的发信人和收信人,以及每个操作都应该被触发。

2.数据平衡:为了保证模型的健壮性,我们需要尽量使得所有类的样本数量均衡。否则,可能出现某一类样本数量过多的情况,模型在学习时容易陷入欠拟合的状态。

3.5.2 拆分阶段

将数据集拆分为训练集和验证集。训练集用于模型的训练,验证集用于模型的验证。验证集的大小一般为0.2 - 0.3。

3.6 算法模型设计

在数据清洗和划分完成后,我们需要进行算法模型设计。算法模型设计的目标就是找到能够解决当前问题的模型。

3.6.1 深度学习模型

由于深度学习模型可以学习到数据的语义特征,因此,我们可以使用深度学习模型来解决当前的问题。由于企业微信Desktop客户端的特殊性,我们不能直接用图片分类、序列标注模型等传统的深度学习模型。这里,我们可以使用GPT-2模型来实现。GPT-2模型的优点在于拥有很强的语言建模能力、语言生成能力,能够完成复杂的任务。其原理是通过预训练得到的大量文本数据,进行反向语言模型的训练。

3.6.2 监督学习模型

由于企业微信Desktop客户端是一个对话系统,所以,我们可以使用监督学习模型来进行任务的自动化。监督学习模型的训练需要标签数据,因此,我们首先需要收集数据集,并标记每个语句的类别。目前,监督学习模型的主流方法有SVM、Logistic Regression、Random Forest等。

3.6.3 联合学习模型

联合学习模型的基本思路是在深度学习模型和监督学习模型之间引入联合学习的思想。具体来说,我们可以把模型看成是函数,其中包含两个部分:编码器和判别器。编码器接收原始的输入数据,通过深度学习模型得到嵌入向量,判别器则判断每个输入数据属于哪一类。此外,联合学习模型还可以加入强化学习的机制,鼓励模型按照正确的顺序学习。

3.6.4 算法流程设计

根据上述设计,我们可以设计如下算法流程:

1.加载数据集。加载训练集和验证集。

2.训练GPT-2模型。GPT-2模型的输入是一段文本,输出是模型产生的下一个字符。我们可以根据历史数据训练GPT-2模型。

3.训练监督学习模型。监督学习模型的输入是GPT-2模型的输出,输出是类别标签。我们可以根据训练集训练监督学习模型。

4.联合训练模型。联合学习模型的输入是GPT-2模型的输出和监督学习模型的输出。判别器用于区分两者的结果,编码器用于生成判别器不知道的输入。联合训练模型的目的是希望判别器和编码器能够更加准确地判断输入的类别。

5.测试模型。在测试过程中,通过GPT-2模型生成新的句子,并送入监督学习模型。如果模型预测错误,则会通知测试人员。

6.优化模型。通过分析日志、模型评价指标、线上日志等方式,进行模型的迭代优化。

4.具体代码实例和详细解释说明

4.1 PyAutoGUI模块

import pyautogui as pag

def send_message():
    # 输入框位置
    input_box = (100,100,300,400)
    
    # 要发送的消息
    message = "Hello World"
    
    # 点击输入框,输入消息
    pag.click(input_box)
    pag.write(message)
    
    # 发送消息
    pag.press('enter')

4.2 Scrapy模块

from scrapy import Selector
import requests
from bs4 import BeautifulSoup

class WechatSpider:

    def __init__(self):
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
        }
        
    def get_wechat_url(self):
        url = 'http://work.weixin.qq.com/'
        response = requests.get(url, headers=self.headers)
        
        soup = BeautifulSoup(response.content, 'html.parser')
        urls = []
        for item in soup.select('.weui_btn_area a'):
            if '/wwloginpagehelper?' not in item['href']:
                urls.append('http://work.weixin.qq.com'+item['href'])
                
        return urls[0]
            
    def start_requests(self):
        wechat_url = self.get_wechat_url()
        yield scrapy.Request(url=wechat_url, callback=self.parse)
            
    def parse(self, response):
        pass