讲真,2026年这个AI圈真的太魔幻了。
前两天刷到NVIDIA出了个Nemotron 3 Nano,只有3B参数,开源免费。我当时心想:又来?这种小模型咱们国内一抓一大把,有啥好吹的。
结果仔细一看,发现有点东西。
这个模型是专门为Agent设计的
不是那种通用聊天模型,它解决的问题很具体:长任务稳定性。啥意思呢?就是你让它干一个需要十几步的复杂任务,像"分析这堆邮件、查库存、生成报告"这种,传统小模型干到第5步就开始犯傻,但Nemotron 3 Nano能稳住。而且它用了一种叫Hybrid MoE的架构,推理效率比同尺寸模型高4倍。
说实话我当时是不信的。
但是!转折来了。
我当时、真想试试看
正好手上有个RPA项目需要低成本的本地模型,我就找了个3090显卡跑了一下。结果意外地流畅,13B的激活模型在单卡上居然能跑,而且响应速度比我预期快得多。更关键是,它支持1M token上下文,这意味着你可以把一整个项目的文档都塞进去让它理解。
当然,也不是没坑。中文能力确实比英文弱一截,我测下来回复有时候会有Chinglish的感觉。另外,1M上下文的实际效果怎么样,这个我还没完全搞懂,需要更多测试。
我的判断:中小团队可以冲
如果你是做SaaS工具的,或者是外包团队,需要给客户部署本地AI功能,这个模型确实是个性价比选择。但如果你追求的是最前沿的能力,还是得加钱上更大的模型。
你们呢?用这种小模型靠谱还是得加钱上Claude?