小模型才是Agent的未来？小模型才是Agent的未来？【AI大模型教程】英伟达研究人员今年6月发了一篇论文，标题是

小模型才是Agent的未来？

英伟达研究人员今年6月发了一篇论文，标题是《Small Language Models are the Future of Agentic AI》。小模型才是智能体的未来？这个观点听起来有些反常识，毕竟这几年大家都在卷大模型。看完文章才知道，作者不是在否定大模型，而是从实际需求出发，提出了他们的建议。

研究人员说，现在很多智能体系统都把大模型当核心，部署在云端统一处理任务，看起来高效，实则成本惊人。光是 2024 年，LLM API 市场就达到了 56 亿美元，而背后的云投入高达 570 亿美元。问题在于，很多任务其实并不复杂，不值得每次都动用大模型，用小模型就够。他们将10B以下的模型称作小模型。

智能体的日常调用，大多是接口请求、参数填充、格式输出这些可预测的工作，对模型的通用能力要求不高。而现在的新一代小模型，比如 Phi-3 small、RETRO、xLAM-2 等，在这类任务里已经能稳定胜任，不光准确，还能大幅降低延迟与成本。

不少人觉得小模型只是能用，但不够强。论文专门反驳了这一点。他们用实测数据说明，小模型在推理、代码生成、指令对齐等方面的表现，已经接近甚至超过上一代的大模型。有些模型还通过增强手段，补上了推理短板，实际效果直追 GPT-4o 或 Claude 3.5。

除了能力，作者还分析了部署结构。小模型可以本地运行，支持边缘部署，降低对云端的依赖，提升数据安全性。它们的更新和微调也更轻便。

当然，大模型不是没用。作者认为更合理的方式是异构结构：日常任务由小模型处理，复杂任务再调用 LLM。

那为什么现在还没普及呢？

作者提了三点：一是企业在大模型架构上投入太多，不愿轻易转向；二是评测benchmark偏向通用任务，低估了小模型的实际价值；三是市场认知不足，小模型缺少声音和宣传。

为了验证可行性，作者分析了三个开源智能体系统：MetaGPT、Open Operator 和 Cradle。结果显示，三者中有 40% 到 70% 的调用其实都可以由小模型替代。

他们也提供了一套完整迁移流程，包括数据采集、清洗、任务聚类、模型选择、微调和迭代优化，操作性很强，不是停留在理论层面。

总的来说，这篇论文的观点是智能体不需要最强模型，而是要选最合适的模型。很多时候，稳、快、省，比全能更重要。小模型更像一个可靠的执行者，能撑起整个系统的大部分工作。哪怕只替换掉一部分调用，也足以带来结构性的改变。

正在做 Agent 应用和框架的人可以进来讨论一下，你同意英伟达研究人员的观点吗？