使用RPA通过GPT大模型AI Agent自动执行业务流程任务企业级应用开发实战:案例分析

102 阅读11分钟

1.背景介绍

1.1 业务场景背景及需求介绍

某某科技公司(简称某某科技)是一个智能机器人服务商,主要提供机器人服务和物联网解决方案。目前该公司业务包括:视觉检测、语音识别、地图导航、预约取号、订单配送等。其中机器人任务需要依赖经验丰富的工作人员,耗时长,且不一定准确。另外,各项任务都是依赖上下游数据联动进行,而手动输入会引入不必要的错误风险。因此,为了解决此类问题,某某科技决定使用机器学习和工业制造领域的先进技术,提升机器人的智能化水平,提高工作效率。

具体到每项任务中,机器人需要完成的包括:

1.巡检扫描:在机器人巡检的时候,需将所扫环境的图像传给后台,后台会对图像进行处理并返回可能存在安全隐患的区域信息。

2.导航路径规划:机器人需要根据路况,自动生成路径导航指令,比如,当发现前方有障碍物时,可以适当调整路径。

3.语音助手:由于会出现各种各样的问题,如不清晰的语音、语速过快、指令遗漏等,机器人需要提供语音助手,能够根据用户的语言,自动转换成相应指令,并自动回复。

4.人脸识别开门:对于未来的监控和安防设备,机器人还需具备人脸识别能力,能够识别到进入或离开摄像头范围内的人。

5.订单配送:货物从仓库出库后,需配送到对应的收件地址。为了保证效率,避免无谓等待,机器人可实时更新订单状态并下发指令。

6.其他业务:还有很多其它业务,如机器人配件生产、设备维修、空调控制、电梯远程控制等。但总体来说,上述任务都属于有确定要求,有明确目标,有预设条件的业务,且涉及多个模块或子系统。

1.2 当前方案优缺点分析

1.2.1 现状:当前使用的方案如下:

1.人工审批模式:通过人力审核的方式完成一系列业务流程。

2.业务执行效率低:由于每个模块之间有数据依赖性,且人工操作繁琐,导致了流程耗时长、效率低下。

3.响应时间延迟:每项任务的处理时间通常超过10分钟,期间不断切换窗口,影响了工作效率。

1.2.2 方案优点

1.2.2.1 自动化程度高

采用自动化工具,降低人工操作的难度,提升工作效率和响应速度。

1.2.2.2 可信赖度高

采用高质量的数据训练,保证数据准确率,减少人工因素的干扰,实现可靠的自动化流程。

1.2.2.3 消除重复操作

通过配置脚本,消除重复操作,节省人工的时间,提升工作效率。

1.2.2.4 跨部门合作

多部门合作,降低集中管理带来的管理复杂度。

1.2.2.5 缩短交付周期

通过配置脚本,将整个流程自动化,缩短交付周期,提升客户满意度。

1.2.3 方案缺点

1.2.3.1 开发难度大

业务流程多且复杂,开发者需要具有丰富的编程技能,才能完成项目的自动化实现。

1.2.3.2 测试和维护难度高

测试和维护工作量较大,自动化工具无法做到像传统方式那样“一键上线”,需要人工参与测试验证。

1.2.3.3 系统耦合度高

不同业务模块之间存在耦合性,只能依托于人工智能来帮助完成任务。

1.2.3.4 模块定制性差

模块定制度低,只能根据现有的流程来配置脚本,不能灵活应对新的业务场景。

1.2.3.5 数据冗余度高

不同业务模块的输入输出数据存在冗余,导致数据不一致,无法有效利用数据。

2.核心概念与联系

2.1 GPT(Generative Pre-trained Transformer)

GPT是一种基于Transformer的预训练模型,其核心是通过大量的文本数据,训练一个大的语言模型,然后用这个模型去生成新的文本。GPT能够完成很多任务,如语言模型、文本生成、对话、文本分类、关键词抽取等,并取得了很好的效果。同时,GPT也引入了一套新的机制——Attention Mask,使得它更加关注上下文信息。

2.2 RPA(Robotic Process Automation)

RPA(机械流程自动化),是一种通过计算机编程实现自动化流程,将以往的手动流程改善、优化的一种新型软件应用。RPA通过模拟人类的工作流程,实现零代码的操作,大幅提升工作效率。一般来说,RPA应用于工业、制造、金融、银行等领域。

2.3 Dialogflow(云端对话引擎)

Dialogflow 是Google 提供的用于构建机器人对话的AI平台,可以让您轻松构建聊天机器人、自动助手、助理、下单机器人、订票助手等,通过Dialogflow,您可以通过简单的一句话或短语来创建规则、触发事件、定义交互流转、收集信息等,并且Dialogflow 非常适合移动应用、Web 应用、IOT 设备等。

2.4 GPT-3(大模型GPT)

GPT-3 (Generative Pretrained Transformer 3),即GPT的升级版,由OpenAI提供,旨在打破以往大模型只能生成较短文本的限制,实现生成任意长度的文本。GPT-3采用了强化学习、自回归语言模型、注意力机制等最新研究成果,并配备了强大的算力资源,能够学习大型语料库并快速生成高质量的文本。

2.5 NLP(自然语言理解)

NLP (Natural Language Processing),又称语言理解,指的是人工智能领域的一个重要方向,它是研究如何让电脑“懂”人类的语言并使用这些信息进行有效的决策与对话。它涉及自然语言处理、语音识别、信息抽取、知识表示、问答系统等多个子领域。NLP 有着广阔的应用前景,如智能问答、语言翻译、自动摘要、情感分析、语音合成等。

2.6 Chatbot(聊天机器人)

Chatbot(中文名:聊天机器人,机器人与人聊天、与机器对话的程序),是一个能与人进行聊天的软件系统,它的目的是替代或者扩展人类的聊天功能。 Chatbot 可以根据人们的说话习惯、喜好、品味、对话风格等特点,形成独特的语言风格,因此也被称为聊天机器人、个性化机器人。

2.7 AI-powered chatbot

AI Powered Chatbots(中文名:由AI驱动的聊天机器人),是在已有聊天机器人基础上的进一步发展,通过赋予机器人能力以人类相似的语言表达和动作反馈,更好地了解和沟通人类,提升人与人之间的沟通互动效率。

3.核心算法原理和具体操作步骤以及数学模型公式详细讲解

3.1 概念原理

在机器学习和深度学习的概念里,有一个重要的概念叫做对抗学习(Adversarial Learning)。在深度学习里,神经网络被训练成为一个非盲目的决策系统。在很多情况下,这个系统能够准确地完成一系列的任务,但是对于一些比较困难的任务,就可能会表现出一定的不稳定性。例如在图像识别里,系统可能就遇到了比较难以区分的情况,这时候就可以借助对抗学习的方法,来训练一个神经网络,使其能够对抗这种不确定性,最终达到更好的结果。所以,可以把深度学习与对抗学习结合起来,创建一个能够快速、高效地解决日益复杂的任务的系统,这一想法就是所谓的智能学习系统。

GPT也是一种预训练模型,顾名思义,它通过大量的文本数据训练出来了一个大型的语言模型。这个模型可以被用来生成新的文本,而且GPT的结构十分简单,只有几个层次,因此可以很容易地理解和修改。实际上,GPT的训练方法与Word2Vec、Doc2Vec、BERT等模型基本相同,都是利用无监督的语言模型进行训练,不过GPT的训练数据要比这些模型多得多,它甚至拥有了和它们几乎一样大的模型大小。

最后,将GPT与聊天机器人结合起来,就是所谓的聊天机器人Agent。Agent可以通过聊天、命令、指令等形式与用户进行交互,Agent在完成任务之前,首先会向GPT模型请求生成文本,然后再对生成的文本进行解析、分析、理解,找寻一些符合逻辑的回复。GPT模型和Agent结合起来,就构成了我们今天的主角——智能对话系统。

3.2 操作步骤

下面以项目中的实际案例来展示,如何将GPT与Chatbot进行整合。

1.首先,我们需要按照流程图中所示的内容准备好相关数据。包括输入的数据(图片、视频或文字信息),训练好的GPT模型,训练好的聊天Agent模型。

2.然后,我们通过调用GPT模型的接口,传入待生成的文本内容,获取生成后的文本内容。

3.接着,我们通过聊天Agent模型的接口,输入生成的文本,获取Agent的回复。

4.Agent通过对输入的文本进行分析、理解、判断、处理,然后选择最适合的回复。

5.最终,Agent以合适的语气、语调等形式回复给用户。

这里,我们假设文字信息作为输入数据,文字信息的类型有以下两种:文本信息、语音信息。这两个输入数据的区别在于,文本信息可以直接进行文本处理,而语音信息则需要进行语音识别、语音合成等一系列处理过程。

6.对语音信息的处理:首先,通过语音识别得到语音信号,然后对语音信号进行预处理,去掉噪声、分割成若干个音频段。随后,将音频段按顺序组成一个列表,输入给GPT模型。

7.对文本信息的处理:将文本信息转换成标准的英文格式,然后输入给GPT模型。

8.对输出的文本进行分析、理解、判断、处理:根据输出的文本,Agent分析文本的意图、语境等,然后做出不同的回复。

以上便是项目中,如何将GPT与Chatbot进行整合的操作步骤。

3.3 数学模型公式详解

3.3.1 GPT模型

GPT模型的结构比较简单,只有几个层次,因此可以很容易地理解和修改。实际上,GPT的训练方法与Word2Vec、Doc2Vec、BERT等模型基本相同,都是利用无监督的语言模型进行训练,不过GPT的训练数据要比这些模型多得多,它甚至拥有了和它们几乎一样大的模型大小。

3.3.2 对抗学习

在机器学习和深度学习的概念里,有一个重要的概念叫做对抗学习(Adversarial Learning)。在深度学习里,神经网络被训练成为一个非盲目的决策系统。在很多情况下,这个系统能够准确地完成一系列的任务,但是对于一些比较困难的任务,就可能会表现出一定的不稳定性。例如在图像识别里,系统可能就遇到了比较难以区分的情况,这时候就可以借助对抗学习的方法,来训练一个神经网络,使其能够对抗这种不确定性,最终达到更好的结果。所以,可以把深度学习与对抗学习结合起来,创建一个能够快速、高效地解决日益复杂的任务的系统,这一想法就是所谓的智能学习系统。

3.3.3 聊天机器人Agent

Agent是一个包含了NLP(自然语言理解)、 dialogue manager(对话管理器)、 conversation model(对话模型)的模块。其中,conversation model是一个有监督的、基于序列标注的对话模型,包括语法分析、语义理解、动态规划等。

对话管理器负责处理用户的输入,将输入传递给对话模型,对话模型的输出作为对话管理器的输出。对话管理器按照自己的规则进行处理,包括查询、推荐、聊天、意图理解等。

整个系统将对话管理器和对话模型连接成一个完整的整体,使得Agent具备了与人类一样的思考和表达能力。同时,它还可以进行持续的学习,根据用户的反馈,不断完善对话模型。