昨天 Hacker News 顶部被两个 AI 项目霸占了——一个是把 Gemini 工具调用蒸馏到 26M 参数的 Needle,另一个是 Google DeepMind 发的"AI 鼠标指针"概念文章。说实话,第一眼看到我觉得又是炒作,但仔细看完代码和论文之后,发现这次有点不一样。
Needle:手机级别设备跑函数调用
先说最离谱的。Cactus 团队把 Gemini 3.1 的函数调用能力蒸馏进了一个 26M 参数的小模型,名字就叫 Needle。在消费设备上能跑到 6000 tok/s prefill,1200 tok/s decode——这什么概念?你的旧 iPhone 12 都能跑,延迟比网络 API 还低。
架构上用的是他们自己设计的"Simple Attention Network",12 层 encoder + 8 层 decoder,Embedding encoder 和 decoder 共享。训练用了 16 块 TPU v6e 跑 200B tokens(27小时),然后花了 45 分钟用 2B tokens 的函数调用数据做 post-training。
等等,45分钟就能把 Gemini 的工具调用能力蒸馏过来? 这里我先记个问号。
对比表里 Needle 赢了 FunctionGemma(270M)、Qwen(0.6B)、Graninte(350M)这些大它十倍几十倍的模型——但只在"单次函数调用"这个特定任务上。团队自己也说了:"小模型很挑剔,生产环境用之前先自己测。"
Google AI Pointer:愿景很美好,现实很骨感
DeepMind 这篇"为 AI 时代重塑鼠标指针"的文章获得了 210 分和 178 条评论。他们想解决的问题听起来很合理:现在用 AI 工具需要把工作"拽"进 AI 窗口,能不能让 AI 跑到你工作的窗口里来?
四个交互原则:保持心流、所见即所知、"这个""那个"自然语言、把像素变成可操作实体。技术上靠 Gemini 捕获视觉和语义上下文。Chrome 上已经落地了部分功能,Googlebook 笔记本会有个"Magic Pointer"。
但是—— Googlebook 是什么?链接点进去是个 404。这个产品到底发布没发布?博客里说"rolling out soon",这种模糊表述我见过太多次了。
我的判断
Needle 是这次最值得关注的技术。它证明了函数调用这种"Agent 核心能力"可以被极度小型化。但我泼冷水的地方在于:
- Benchmark 水分:只对比了单次函数调用,真实 Agent 场景需要多轮推理、错误恢复、工具选择——这些都没测
- 蒸馏的 45 分钟:这个数字太漂亮了,漂亮到让人怀疑是不是 cherry-pick 的结果
- 26M 模型能做的事有限:工具调用是简单任务,真正复杂的 Agent 规划还需要更大的模型
Google AI Pointer 的交互思路是对的,但它更像一个愿景声明而不是产品。"让 AI 适应人类行为而不是让人类适应 AI"这句话说得很好听,可 Google 过去五年画过的饼还少吗?
可以关注这些项目的进展,但别看到 482 分就冲。真正的落地效果,永远要等你自己的设备跑起来才知道。
你觉得小模型+蒸馏会是端侧 Agent 的未来,还是又一轮"demo 牛逼、落地拉胯"?
相关链接
- Needle: github.com/cactus-comp…
- Google AI Pointer: deepmind.google/blog/ai-poi…