AutoProvider项目规划和智能体架构观察

58 阅读7分钟

本项目针对于目前大模型和智能体发展过程中遇到的一些瓶颈问题提出一些优化方案。目前大模型在模型能力上发展遇到瓶颈,从deepseek,chatgpt,qwen等主流模型的发展中可以看出一些硬性问题例如幻觉,记忆和对话长度等都遇到了不同程度的困难,想要去真正解决这些问题除了在不断更改大模型的基础架构和堆算力提高参数以外,我们其实还可以尝试从应用框架上去不断优化。虽然现在的智能体的能力都已经达到了一个不错的水平,但是在很多问题的解决上面还可以有优化的空间,本项目就是尝试提出一个全新的智能体框架。

大模型遇到的第一个问题是传统的Agent智能体不够完全智能,因为他们的能力受到限制,传统的Agent在解决问题的时候大部分都是局限于云端和云端的虚拟机之中,所以并不能达到真正的智能去解决用户一些更重要的问题,从本质上来说这些智能体和普通的生成式LLM**没有根本的区别。AI发展至今,大部分用户的需求从单纯的生成式功能已经升级到了项目工程化的需求。举一个很明显的例子就是,现在AI编程的能力已经非常强大了,对于单个可执行任务来说已经是能解决大部分的困难性问题了。但是现在用户已经不需要AI单纯生成一个简单的网页这么简单了,用户更希望的是AI能够从设计,开发,上线,运营一条龙服务。这就需要赋予智能体更大的权限和能力,让AI能够设计网页,开发网页,部署网站,运营网站,真正像一个公司一样去创造一个产品和价值;又例如用户让AI进行编程开发,虽然AI可以帮助用户写代码,但是用户可能面临着更大的问题是让AI去帮助用户配置运行环境。虽然现在已经有很多垂直化的智能体能够实现不同的功能,但是这往往需要去进行不同的提示词工程甚至是去微调大模型,但是解决的问题还只能局限于某一个垂直功能,既然现在的AI都是通用领域的专家,所以我们可以选择打造一个通用型系统级超级智能体。

大模型遇到的第二个问题就是出现幻觉的问题,但是幻觉的问题是目前大模型必然出现的问题,强化学习的机制导致AI在回答一个不知道答案的问题宁愿去猜测回答一个可能的答案也不会选择回答不知道。

回答正确奖励2分,回答错误不扣分,不回答扣1分或者选择不扣分,那么AI宁愿会选择猜测一个错误的答案,因为这样拿高分的概率更高。

并且AI本身就是一个通过数据预训练出来的预测模型,所以AI难免也会出现预测错误的结果,所以我们更应该要通过应用框架的升级优化去减少AI的幻觉问题,通过新的奖励机制和对碰测试框架去避免一些重要问题出现幻觉导致整个任务往错误的方向走,

回答正确奖励2分,回答错误0分或者扣分,诚实的承认不会答案但是可以给出一个解决方案奖励0.1分或者不扣分。这个分数还不能设置的太大,怕AI会选择都回答不会来刷取分数。

但是现在在传统的智能体框架中好像并没有对幻觉情况进行优化和解决。

大模型遇到的第三个问题就是记忆不够长,但是其实在用户和AI的对话中真正对项目有作用的内容只是占一小部分

用户在部署上线的过程中,突然插进来一个询问关于编程语言排名情况的问题,明显这个问题就并不是对于这次项目对话中真正有用的内容,所以我们可以选择在本次对话中舍弃,存入知识库,在下次真正需要的时候在调回,来减少无关对话对对话长度的浪费。

还有就是在一次对话中的文字其实也只是少部分精炼内容是有作用的,我们也并不需要把所有内容都计入对话之中,我们选用关键内容检索的方法去提高对话长度

对于一个长度128k上下文的AI,如果是传统的对话记录一次对话可能会消耗5000token,但是如果通过关键内容检索,可以将一次对话的token消耗降低到1000左右,那么就可以将25次对话长度延长到128次。

并且对于智能体来说更重要的是调用工具的能力,使用Rag**知识库等方法去优化对话长度可以将对话长度可以延长到更多

但是这对于一个真正大的项目来说还是远远不够的,而我们创新性的提出一个对话接力的方法,试图将对话长度延伸到无限。这有点类似于mulit-agent架构的设计,但是我们的理念是clone-agent,将智能体进行本体克隆,然后共享记忆,这对于在任务执行的过程中能够明显体现出来更优秀的表现。

传统的AI和智能体还有一个很重要的问题,就是他们的工作时间和工作机制。传统的智能体都是单向任务发起的工作形式,都是由用户驱动任务执行,但是这跟完全智能体和人都不是一样的,这种限制有非常明显和大的弊端,导致了用户在执行任务的时候遇到了一些解决不了的问题,例如需要用户输入一些apikey和让用户进行一些操作的时候因为缺乏主动向用户咨询的能力而导致了回复的结果出现幻觉(AI凭自己的想象生成回复)和内容不可直接运行(例如生成的代码因为缺少一些需要用户主动输入的内容导致无法直接运行),我们尝试给予智能体可以主动向用户发送消息的功能,在智能体遇到问题需要向用户咨询的时候可以主动向用户发起对话,并且可以主动给不同的用户发送营销内容等,这在减少用户对于AI回复结果的批判时间有着很大的提升(例如在编程领域,AI不再是生成一个网站的代码,还会把代码部署到服务器之中,主动去寻找营销途径宣传自己的产品,并且会主动向用户发起调研不断去修改迭代产品,做到真正的标准化运营)。并且我们的智能体是可以24/7不间断化运营。

想象一下新的智能体不仅会自动帮你完成产品的制作,还直接帮你完成环境配置和测试,部署和上线,运营和推广,维护改bug,并且24小时不间断的进行工作。在自媒体领域就是自动收集热点信息,自动设计脚本,自动使用数字人和AI生图拍摄视频,自动在多个平台中运营账号打造IP。让智能体真正把所有工作都完成,这才是我们能够期待。

AutoProvider就是我们可以期待的全新智能体框架,将在github上线,欢迎各位可以一起来加入你的想法来让他变得更好,将在本月初上线:

github链接:github.com/wuyoujae/au…