26M参数的函数调用模型刷屏Hacker News，我泼盆冷水Needle把Gemini工具调用蒸馏到26M参数手机就能

昨天 Hacker News 顶部被两个 AI 项目霸占了——一个是把 Gemini 工具调用蒸馏到 26M 参数的 Needle，另一个是 Google DeepMind 发的"AI 鼠标指针"概念文章。说实话，第一眼看到我觉得又是炒作，但仔细看完代码和论文之后，发现这次有点不一样。

Needle：手机级别设备跑函数调用

先说最离谱的。Cactus 团队把 Gemini 3.1 的函数调用能力蒸馏进了一个 26M 参数的小模型，名字就叫 Needle。在消费设备上能跑到 6000 tok/s prefill，1200 tok/s decode——这什么概念？你的旧 iPhone 12 都能跑，延迟比网络 API 还低。

架构上用的是他们自己设计的"Simple Attention Network"，12 层 encoder + 8 层 decoder，Embedding encoder 和 decoder 共享。训练用了 16 块 TPU v6e 跑 200B tokens（27小时），然后花了 45 分钟用 2B tokens 的函数调用数据做 post-training。

等等，45分钟就能把 Gemini 的工具调用能力蒸馏过来？ 这里我先记个问号。

对比表里 Needle 赢了 FunctionGemma（270M）、Qwen（0.6B）、Graninte（350M）这些大它十倍几十倍的模型——但只在"单次函数调用"这个特定任务上。团队自己也说了："小模型很挑剔，生产环境用之前先自己测。"

Google AI Pointer：愿景很美好，现实很骨感

DeepMind 这篇"为 AI 时代重塑鼠标指针"的文章获得了 210 分和 178 条评论。他们想解决的问题听起来很合理：现在用 AI 工具需要把工作"拽"进 AI 窗口，能不能让 AI 跑到你工作的窗口里来？

四个交互原则：保持心流、所见即所知、"这个""那个"自然语言、把像素变成可操作实体。技术上靠 Gemini 捕获视觉和语义上下文。Chrome 上已经落地了部分功能，Googlebook 笔记本会有个"Magic Pointer"。

但是—— Googlebook 是什么？链接点进去是个 404。这个产品到底发布没发布？博客里说"rolling out soon"，这种模糊表述我见过太多次了。

我的判断

Needle 是这次最值得关注的技术。它证明了函数调用这种"Agent 核心能力"可以被极度小型化。但我泼冷水的地方在于：

Benchmark 水分：只对比了单次函数调用，真实 Agent 场景需要多轮推理、错误恢复、工具选择——这些都没测
蒸馏的 45 分钟：这个数字太漂亮了，漂亮到让人怀疑是不是 cherry-pick 的结果
26M 模型能做的事有限：工具调用是简单任务，真正复杂的 Agent 规划还需要更大的模型

Google AI Pointer 的交互思路是对的，但它更像一个愿景声明而不是产品。"让 AI 适应人类行为而不是让人类适应 AI"这句话说得很好听，可 Google 过去五年画过的饼还少吗？

可以关注这些项目的进展，但别看到 482 分就冲。真正的落地效果，永远要等你自己的设备跑起来才知道。

你觉得小模型+蒸馏会是端侧 Agent 的未来，还是又一轮"demo 牛逼、落地拉胯"？

相关链接

Needle: github.com/cactus-comp…

Google AI Pointer: deepmind.google/blog/ai-poi…