最近一波端侧AI更新,很多人可能只是当作“产品升级”看过去了:
- Google 推出离线语音能力(Eloquent)
- Gemma 在端侧跑到 40 token/s
- LiteRT-LM 这类推理框架开始落地
但如果你是做测试的,这一波其实不是功能更新。
是测试边界在变。
过去你测的是接口。 现在你要开始测设备、测模型、测系统行为。
目录
- 端侧AI这波到底发生了什么
- 真正变化的不是模型,而是“运行位置”
- 推理速度背后,工程上做了哪些事
- 测试为什么会突然失效
- 新测试体系应该怎么搭
- 这波变化会重新定义测试岗位
一、端侧AI这波到底发生了什么
先把现象讲清楚。
这一波不是单一产品升级,而是三个方向同时成立:
- 模型变小,可以在设备上运行
- 推理速度足够支撑实时交互
- 推理框架开始工程化落地
过去的AI调用路径是这样的:
现在开始变成:
路径缩短,但复杂度上升。
二、真正变化的不是模型,而是“运行位置”
很多人关注的是模型性能,但真正的变化在这里:
计算从云,移动到了端。
这个变化会直接影响系统设计。
延迟模型被重写
云模式:
- 网络延迟
- 推理延迟
端侧模式:
- 只剩推理延迟
体验变好,但压力全部转移到设备。
系统边界消失
过去模型是外部服务,可以当黑盒。
现在模型在系统内部,成为运行链路的一部分。
测试对象不再是API,而是整个系统。
控制能力下降
云模型可以:
- 热更新
- 回滚
- 统一监控
端侧模型:
- 分发困难
- 版本碎片化
- 行为不可控
这对测试是直接冲击。
三、推理速度背后,工程上做了哪些事
端侧能跑起来,不是因为“模型变强”,而是工程做对了。
模型被重新设计
不是简单裁剪,而是重构:
- 参数规模控制
- 计算结构优化
- 针对CPU/NPU适配
核心在于:
模型开始围绕“设备约束”设计。
推理框架在做极限优化
LiteRT-LM 这类框架,本质在做三件事:
- 算子融合
- 内存复用
- 异构调度
整体流程可以这样理解:
40 token/s意味着什么
这不是一个简单的性能指标。
它意味着:
- 可以连续对话
- 可以实时生成
- 可以进入主流程
端侧AI开始具备“可用性”。
四、测试为什么会突然失效
很多团队的问题不是不会测,而是测错了对象。
Mock测试开始失效
云时代可以:
- mock接口
- 固定返回结果
端侧模型:
- 行为不可完全预测
- 输出存在波动
mock无法覆盖真实情况。
人工智能技术学习交流群
伙伴们,对AI测试、大模型评测、质量保障感兴趣吗?我们建了一个 「人工智能测试开发交流群」,专门用来探讨相关技术、分享资料、互通有无。无论你是正在实践还是好奇探索,都欢迎扫码加入,一起抱团成长!期待与你交流!👇
测试对象发生变化
过去:
- 测接口
现在:
- 测模型 + 框架 + 硬件 + 系统
测试边界扩大了。
性能测试维度改变
过去关注:
- QPS
- RT
现在必须关注:
- CPU / GPU / NPU占用
- 内存
- 发热
- 电量
测试从“服务性能”,变成“设备性能”。
五、新测试体系应该怎么搭
继续沿用原来的方法,基本会失效。
需要补新的工程能力。
设备级测试成为基础
必须做:
- 多设备覆盖(不同芯片/系统)
- 长时间稳定性
- 极端场景(高温/低电量)
引入模型行为测试
不再只验证结果,而是验证行为:
- 输出是否稳定
- 语义是否一致
- 边界输入是否异常
可以这样设计测试链路:
性能测试必须贴近真实使用
不要只跑benchmark,要测:
- 连续对话
- 长时间运行
- 多任务并发
做版本对比测试
端侧模型升级后,必须验证:
- 输出是否漂移
- 性能是否下降
这是很多团队当前缺失的一环。
六、这波变化会重新定义测试岗位
这不是简单的技术升级,而是岗位能力重排。
传统测试
只做接口、UI自动化 在端侧AI场景中价值下降明显
AI测试
具备:
- 模型基础理解
- 行为验证能力
可以参与,但不够深入
系统级测试
需要具备:
- 模型理解
- 性能分析
- 设备调试
本质是跨领域能力
AI不再只是调用一个接口。
它开始变成系统的一部分。
那你现在负责的测试体系, 还能覆盖住这种“运行在设备里的模型”吗?
推荐学习
测试智能体与智能化测试平台公开课, 从架构设计到大厂落地,重塑自动化测试力。
扫码进群,报名学习。