1、如何定义 Workflow、Agent、Agentic 的联系和区别?
从第 7 问开始,之所以会转到 Workflow,是因为当下讨论较多的 "Workflow 是否会被 LLM 颠覆" 这个问题,是一个典型的 LLM 侵蚀工程化、产品化的案例,很多人在工程、产品上做了大量的原创设计和调优工作,某一天却被 LLM 直接接管了。而 Workflow 更加特别,由于他的功能和定位,影响到的群体更大。
Workflow,即工作流,常见于应用编排框架中,是将任务依据特定业务逻辑有序排列的流程,以实现业务流程自动化处理。任务之间有清晰的依赖关系和流转规则,每个任务都有明确的输入、输出和执行逻辑。定义他的是人,优点是确定性足够强,不太会出错,短板是不够泛化。而 LLM 是足够泛化,但确定性不够。
从语义上看,Agent 是一个名词, Agentic 是一个形容词,前者是以二元的方式来判断某个东西是否是智能体,后者则是更倾向于讨论一个系统的智能体程度。讨论 Agent 的时候,很容易进入将是否使用了 Workflow 来判断这是否一个 AI Agent,尤其是在 Workflow 中了定义了大量的 if/else 逻辑,减弱了大语言模型控制力的时候。讨论 Agentic 的时候,关注的是判断流程是否进入下一步、判断流程是否最终完成、判断是否出现问题、判断出现问题后是否把控制权限交给用户等流程节点时,是由 Workflow 来控制,还是有 LLM 来控制。LLM 控制越多,智能程度越高,反之越低。
现阶段,很多 AI Agent 都存在 Workflow 和 LLM 结合的情况。结合的方式包括:
- LLM 赋能 Workflow:在工作流的各个任务环节中,嵌入大模型能力。例如在内容创作工作流里,在素材收集阶段,大模型可对海量的文本、图像等素材进行智能筛选和分类,快速定位符合需求的资源;在创作环节,利用大模型生成初步内容框架或文案,像新媒体文章创作,大模型能依据主题生成文章大纲和部分段落内容,创作者在此基础上优化完善,提升创作效率。
- Workflow 驱动 LLM 交互:以工作流的流程逻辑来引导大模型的交互过程。比如在智能客服工作流中,当用户咨询问题时,工作流先对问题进行初步分类,然后根据分类结果调用大模型进行针对性回答。若问题涉及产品使用方法,工作流将问题精准传递给已在产品知识上微调的大模型,获取准确答案后返回给用户,确保回答的专业性和高效性。
2、Workflow 和 LLM 如何选择?
首先澄清下,这个标题并不是引导二选一。如第 7 个 Q&A 所说,大多数实际生产中,AI Agent 的任务处理逻辑设计,是 Workflow 和 LLM 的组合。之所以业内有这样的争论,也许是因为 LLM 派信仰的是智能本身,可以通过指令来提升智能的确定性(参考第 6 个 Q&A 中的对话案例),Workflow 派信仰的是智能无法覆盖所有场景,必然有场景需要通过 Workflow 来精确决定数据的流动方式。
《How to think about agent frameworks》给出了一个采用 Workflow 和 LLM 的权衡方式。
图中使用的是 workflow vs. agents,为区别 AI Agent,本文改为 workflow vs. LLM 来描述
- 低门槛:低门槛框架对初学者友好,容易上手。但自由度会下降,尤其是要去满足复杂的业务需求的情况下。
- 高门槛:高门槛框架意味着学习曲线陡峭,需要具备大量知识或专业技能才能有效使用,但更适用于解决复杂的业务场景。
- 低上限:低上限框架指的是其在所能完成的任务上存在限制。
- 高上限:高上限框架为高级用例提供广泛的功能和灵活性。
Workflow:上限高,门槛高,你必须自己编写大量的智能体逻辑。
LLM:门槛低,上限也低,容易上手,但对于复杂用例来说不够用。
以上来自 Langchain 的观点,信仰 LLM 的人一定不认可 "LLM 是门槛低,上限也低,容易上手,但对于复杂用例来说不够用" 的论断,随着 LLM 更加智能,并通过对话的方式帮助用户来完善指令,并借助画布等产品交互方式,降低指令的优化难度。完善的内容包括任务的描述完整度和准确度,任务的拆解,每一步骤和用户进行确认,从而减少甚至避免单个步骤 90% 准确率,10 个步骤准确率陡降为 90% 的 10 次方的情况。
以这种方式来提升 LLM 在复杂用例的表现。本质上,这是两种技术 / 产品流派的碰撞。