只用了两成功力!浏览器内置 AI 竟然深藏不露

754 阅读7分钟

本文正在参加金石计划附加挑战赛 —— 第一期命题

💰 点进来就是赚到知识点!本文带你读 Gemini Nano 论文,探秘 Chrome 内置 AI 的全功能图谱点赞收藏评论更能促进消化吸收!

🚀 想解锁更多 Web AI 的强大能力吗?快来订阅专栏「Web AI 进化录」!

引言

大模型圈子实在是太卷了,每天都有新神仙加入群架,什么 Red Panda、MaskGCT、AutoGLM……与此同时,专注端侧智能的玩家们也在铆足了劲野蛮生长。而与我们距离最近的,可能就是内置在 Chrome 浏览器里的 Gemini Nano 了。有多近呢?大概 50 厘米吧,不能再近了,这是眼睛与屏幕的最佳距离,要像爱护你的眼睛一样爱护你的眼睛 。

本专栏的前几篇文章中,我向大家介绍了如何解锁 Chrome 的内置 AI、如何玩转提示词、如何手搓一个翻译工具,帮好多小伙伴领先尝鲜了 Prompt API、Detector & Translator API。还有关于 Writer & Rewriter & Summarizer API 的玩法的文章,也已经在路上了,敬请期待!

这些 API 有一个共性 —— 都是用来处理文本信息的。这可能会给大家留下一个错误的印象,好像 Gemini Nano 就只有这点儿能耐。这个印象还算符合直觉,毕竟用户端设备的算力和 H100 集群还是有亿点差距的,给本地模型闪转腾挪的空间不太多。

但其实,Gemini Nano 远没有看起来这么其貌不扬,上面这些 API,只是它的两成功力。本文我会带大家认识认识 Gemini 家族的其他成员,并由此解密 Gemini Nano 的那些深藏不露的绝活。

20241105-225615.jpeg

Gemini 伐木累

Gemini 家族是 Google 推出的一系列多模态模型,对图片、音频、视频和文本具有出色的理解能力。

目前,Gemini 全系共有有四个型号,按参量由高到低分别为:

  • Ultra:适合处理高复杂度的任务
  • Pro:通用能力强
  • Flash:主打快速、高效
  • Nano:专用于端侧设备

每个型号还可能细分不同的迭代版本,它们都原生支持多模态,能够执行推理任务、处理科研 / 数学问题、编程,能够支持多种自然语言,能够理解音频、图像等多种信息媒介。

从各个型号的角色定位来看,Google 的布局策略是以通用多模态能力为标准,针对不同的用户和场景,细分出不同量级的模型,每个模型既能独当一面,又可以和其他模型配合取长补短。

而 Nano 就是专门部署在用户本地设备上的轻量模型,提供端到端的智能能力。那么它对设备有什么要求?在多模态方面的表现如何?与云端模型的差距有多大?让我们来一一揭秘吧!

image.png

细说 Nano

对运行环境的要求

Nano 不像 Ultra 等其他亲属模型那样需要依赖 TPU 才能运行起来,它对运行设备的硬件要求非常低。

在移动端,Google 从 Pixel 8 Pro 手机开始已经装载了 Nano 模型。在 Geekbench 提供的测评报告里,Pixel 8 Pro 的 CPU 单核跑分为 750,多核跑分为 1821。这大概是什么水平呢?iPhone 15 Pro Max 的跑分分别是 2963 和 7400。跑分仅供参考,但从对比来看,Google 是放心大胆地让 Nano 模型运行在平民级别的移动设备上的。

而在桌面端,由于 Chrome 内置 AI 目前只开放了文本相关的处理能力,所以想要运行像 Prompt API 之类的功能,用户设备只需要具有 4GB 显存就可以了,不论是集成显卡还是独立显卡。

因此,端侧模型真可谓是「飞入寻常百姓家」。

image.png

性能

Nano 还可以细分为 Nano 1 和 Nano 2, 前者的参量是 1.8B,后者的参量则是 3.25B。它们经由进一步蒸馏和特殊算法训练而来,在相同参量级别的模型中,内容总结和阅读理解能力更为突出。

Google 对每个模型都进行了多种任务维度的性能基准测试。任务维度包括:

  • Factuality:事实准确性。比如问模型“2024 年的奥运会在哪里举办?” 如果模型的预训练数据不包括这一信息,则应该实事求是地回答,不应该凭幻觉编造。
  • Long-Context:长上下文
  • Math/Science:数学和科学问题
  • Summarization:内容总结
  • Reasoning:推理
  • Multi-linguality:多语言处理

以 Pro 的表现为基准,Ultra、Pro 和 Nano 的对比如下:

20241104-184826-2.jpg

我们看到,除了总结能力外,Nano 在其他任务的处理上的表现,都在 Pro 的五成以上。

所以如果我们用两台笔记本电脑分别运行 Nano 2,合起来的效果将超过运行在专业 TPU 上的 Pro。(别胡说了!)

下面是 Nano 1 和 Nano 2 在具体的几项准确性测试中的表现,表格中同样给出了绝对分数和以 Pro 为参考坐标的对比数值:

20241106-165929.jpeg

我们看到 Nano 在 BoolQ 和 TydiQA 测试中的表现仅仅略逊于 Pro 模型。BoolQ 是一项检测事实准确性的测试,模型在接收一个问题或者陈述(例如“天空是蓝色的吗?”)后,要判断是否真实并回答 Yes 或者 No;TydiQA 则是要回答对信息的询问(例如问“天空是什么颜色”,答“蓝色”)。

多语言能力

多语言能力具体指的是处理多语种理解、跨语言概括、多语种文本生成等任务的能力。为了更准确地衡量 Nano 的翻译能力,Google 采用了 WMT 23 基准测试。

这项测试涵盖了高、中、低资源(指的是训练数据集中语料的多少)三档语种,且分别对「英译其他语言」和「其他语言译英」进行了测试。

20241106-170024.jpeg

作为端侧模型,Nano 在跨语种翻译方面的表现可圈可点。

图片能力

既然号称多模态模型,那么必然要有能力识别除了文字之外的信息载体。

在图像理解能力方面,Google 从这几个维度进行了测试:

  • 用 VQA v2 任务识别图像中的物体,然后标注出来,或者进行问答
  • 用 TextVQA 和 DocVQA 任务进行读图,并描述出细粒度的细节信息
  • 用 ChartQA 和 InfographicVQA 任务理解图表,考验空间理解能力
  • 用 Ai2D、MathVista 和 MMMU 任务进行多模态推理

20241106-170100.jpeg

我们看到,由于参量小的原因,Nano 在这一环节略显吃力。同时,这类任务在端侧设备上执行,耗时要长于文本任务。

音频能力

多模态能力的另一个体现就是音频理解能力。

Google 对 Nano 进行了业界通用的音频基准测试,并与知名的语音模型 USM、Whisper 等进行对照。测试指标包括:

  • 自动语音识别(ASR),采用 FLEURS、VoxPopuli、多语种 Librispeech 等任务,计算错词率,数值越低越好
  • 语音翻译,用 CoVoST 2 任务得出 BLEU 分数,越高越好

20241106-170126.jpeg

从对照数据不难看出,与专门的语音模型相比,Nano 仍然能小胜一筹。

结语

恭喜你读完了本文!你真棒!

读完本文,我们已经对 Gemini Nano 有什么能力、各项能力水平如何有了具体的认识。虽然目前在 Chrome 内市释放出来的只是两成功力,但它绝对不是单纯的语言模型。

有了 Nano 等端侧多模态模型的加持,Web AI 能够有更多花样百出的玩法,端侧智能也会越来越成熟,价值越来越大。

📣 我是 Jax,在畅游 Web 技术海洋的又一年,我仍然是坚定不移的 JavaScript 迷弟,Web 技术带给我太多乐趣。如果你也和我一样,欢迎关注私聊