AI开始下沉到端侧:当模型跑进手机,测试体系会被重写吗?

0 阅读4分钟

最近一波端侧AI更新,很多人可能只是当作“产品升级”看过去了:

  • Google 推出离线语音能力(Eloquent)
  • Gemma 在端侧跑到 40 token/s
  • LiteRT-LM 这类推理框架开始落地

但如果你是做测试的,这一波其实不是功能更新。

是测试边界在变。

过去你测的是接口。 现在你要开始测设备、测模型、测系统行为。


目录

  1. 端侧AI这波到底发生了什么
  2. 真正变化的不是模型,而是“运行位置”
  3. 推理速度背后,工程上做了哪些事
  4. 测试为什么会突然失效
  5. 新测试体系应该怎么搭
  6. 这波变化会重新定义测试岗位

一、端侧AI这波到底发生了什么

先把现象讲清楚。

这一波不是单一产品升级,而是三个方向同时成立:

  • 模型变小,可以在设备上运行
  • 推理速度足够支撑实时交互
  • 推理框架开始工程化落地

过去的AI调用路径是这样的:

图片

现在开始变成:

图片

路径缩短,但复杂度上升。


二、真正变化的不是模型,而是“运行位置”

很多人关注的是模型性能,但真正的变化在这里:

计算从云,移动到了端。

这个变化会直接影响系统设计。


延迟模型被重写

云模式:

  • 网络延迟
  • 推理延迟

端侧模式:

  • 只剩推理延迟

体验变好,但压力全部转移到设备。


系统边界消失

过去模型是外部服务,可以当黑盒。

现在模型在系统内部,成为运行链路的一部分。

测试对象不再是API,而是整个系统。


控制能力下降

云模型可以:

  • 热更新
  • 回滚
  • 统一监控

端侧模型:

  • 分发困难
  • 版本碎片化
  • 行为不可控

这对测试是直接冲击。


三、推理速度背后,工程上做了哪些事

端侧能跑起来,不是因为“模型变强”,而是工程做对了。


模型被重新设计

不是简单裁剪,而是重构:

  • 参数规模控制
  • 计算结构优化
  • 针对CPU/NPU适配

核心在于:

模型开始围绕“设备约束”设计。


推理框架在做极限优化

LiteRT-LM 这类框架,本质在做三件事:

  • 算子融合
  • 内存复用
  • 异构调度

整体流程可以这样理解:

图片


40 token/s意味着什么

这不是一个简单的性能指标。

它意味着:

  • 可以连续对话
  • 可以实时生成
  • 可以进入主流程

端侧AI开始具备“可用性”。


四、测试为什么会突然失效

很多团队的问题不是不会测,而是测错了对象。


Mock测试开始失效

云时代可以:

  • mock接口
  • 固定返回结果

端侧模型:

  • 行为不可完全预测
  • 输出存在波动

mock无法覆盖真实情况。

人工智能技术学习交流群

伙伴们,对AI测试、大模型评测、质量保障感兴趣吗?我们建了一个 「人工智能测试开发交流群」,专门用来探讨相关技术、分享资料、互通有无。无论你是正在实践还是好奇探索,都欢迎扫码加入,一起抱团成长!期待与你交流!👇

image.png


测试对象发生变化

过去:

  • 测接口

现在:

  • 测模型 + 框架 + 硬件 + 系统

测试边界扩大了。


性能测试维度改变

过去关注:

  • QPS
  • RT

现在必须关注:

  • CPU / GPU / NPU占用
  • 内存
  • 发热
  • 电量

测试从“服务性能”,变成“设备性能”。


五、新测试体系应该怎么搭

继续沿用原来的方法,基本会失效。

需要补新的工程能力。


设备级测试成为基础

必须做:

  • 多设备覆盖(不同芯片/系统)
  • 长时间稳定性
  • 极端场景(高温/低电量)

引入模型行为测试

不再只验证结果,而是验证行为:

  • 输出是否稳定
  • 语义是否一致
  • 边界输入是否异常

可以这样设计测试链路:

图片


性能测试必须贴近真实使用

不要只跑benchmark,要测:

  • 连续对话
  • 长时间运行
  • 多任务并发

做版本对比测试

端侧模型升级后,必须验证:

  • 输出是否漂移
  • 性能是否下降

这是很多团队当前缺失的一环。


六、这波变化会重新定义测试岗位

这不是简单的技术升级,而是岗位能力重排。


传统测试

只做接口、UI自动化 在端侧AI场景中价值下降明显


AI测试

具备:

  • 模型基础理解
  • 行为验证能力

可以参与,但不够深入


系统级测试

需要具备:

  • 模型理解
  • 性能分析
  • 设备调试

本质是跨领域能力


AI不再只是调用一个接口。

它开始变成系统的一部分。

那你现在负责的测试体系, 还能覆盖住这种“运行在设备里的模型”吗?

推荐学习

测试智能体与智能化测试平台公开课, 从架构设计到大厂落地,重塑自动化测试力。

扫码进群,报名学习。

image.png