iOS Voice Trigger 是什么?

96 阅读4分钟

iOS Voice Trigger(语音触发系统)是 Apple 设备(如 iPhone、iPad、Apple Watch、HomePod 等)上的一项核心技术,主要用于实现“Hey Siri”或“Siri”唤醒功能。它允许设备在低功耗状态下持续监听麦克风输入,当检测到特定的触发短语时,立即激活 Siri 助手,实现免提交互。该系统完全在设备上(on-device)运行,不依赖云端处理,确保隐私保护和低延迟响应。

这项技术最早在 iPhone 6(iOS 8)上引入“Hey Siri”,后来扩展支持更短的“Siri”触发词,并覆盖多语言和多设备。

技术难点

Voice Trigger 的实现面临多项挑战,主要源于需要在资源受限的移动设备上实现高准确性、低功耗和隐私保护。Apple 官方研究中明确指出了四个具体挑战:

  1. 区分设备主要用户与其他说话者:防止他人声音误触发,需要准确的说话者验证,同时避免对主人声音的误拒。
  2. 识别并拒绝背景噪声引起的假触发:在嘈杂环境(如电视、音乐或人群)中,系统易受干扰,导致误激活。
  3. 识别并拒绝与触发短语语音相似的片段:处理类似发音的非触发词(如“Hey seriously”或背景对话中的相似音),避免假阳性。
  4. 支持更短且语音挑战性的触发短语(如“Siri”):短语更短、音素更复杂,在多语言/方言环境中检测难度更高。

其他通用难点包括:

  • 低功耗:持续监听不能显著消耗电池,尤其在设备锁屏或待机时。
  • 高准确性与鲁棒性:平衡低假阳性率(误触发)和低假阴性率(漏触发),在远场、回响或不同距离下保持性能。
  • 隐私与安全性:所有音频处理必须本地完成,不能上传到服务器。
  • 资源限制:模型需小巧高效,适应不同设备的计算能力和内存。

这些难点通过多阶段设计和模型优化得以缓解。

技术架构

Voice Trigger 采用多阶段流式处理架构(multistage streaming architecture),结合硬件专用处理器和先进神经网络模型,实现高效检测。核心流程如下:

  1. 音频输入与第一阶段检测(低功耗阶段)

    • 麦克风持续捕获音频(16kHz 采样),在 Always On Processor (AOP,低功耗协处理器) 上使用环形缓冲区存储。
    • 运行小型 DNN-HMM(深度神经网络 + 隐马尔可夫模型)关键词检测模型:高召回率(敏感度高),快速分析声学特征(如 mel 滤波器组),计算触发短语的置信分数。
    • 非触发音频直接丢弃,只将潜在触发片段传递到下一阶段,极大节省功耗。
  2. 第二阶段精密验证(高精度阶段)

    • Application Processor (AP,主处理器,可能借助 Neural Engine 加速) 上运行更大模型。
    • 使用 Conformer 编码器模型(结合自注意力机制和卷积层)重新评分音频序列,支持多任务学习(CTC 损失 + 判别损失)。
    • 集成 说话者识别 (SpeakerID):基于 LSTM 模型提取个性化说话者嵌入(speaker embeddings),比较与注册模型的相似度,确保只响应主人声音。
  3. 假触发缓解 (False Trigger Mitigation, FTM)

    • 多子系统并行:
      • 基于 ASR 格的 RNN (latticeRNN):利用自动语音识别(ASR)解码格子评估不确定性。
      • 基于声学的 FTM (aFTM):流式 Transformer 编码器处理声学特征。
      • 基于文本的域外检测 (ODLD):小型 Transformer 模型(类似 BERT)分析语义意图,判断是否为有效 Siri 请求。
    • 这些系统综合判断,拒绝噪声或相似短语。
  4. 个性化注册与更新

    • 用户注册时说出几句固定短语(如“Hey Siri”多次 + “Hey Siri, how’s the weather?”),在设备上训练说话者模型。
    • 支持隐式更新:使用日常接受的触发更新模型,最多存储 40 个向量,提高鲁棒性。

关键优化技术

  • 模型压缩:权重量化到 4-bit(palettization),减少计算和内存占用。
  • 端到端训练:包括课程学习(curriculum learning)和多任务优化,提高检测精度。
  • 硬件支持:AOP 处理初筛,AP/Neural Engine 处理复杂计算,确保低功耗和低延迟。
  • 隐私保障:所有模型和数据本地存储,无云端传输。

整体架构从早期单一 DNN(2017 年)演进到当前多阶段 Conformer + Transformer 系统(2023 年),显著提升了准确性和效率。

这项技术体现了 Apple 在设备端 AI 的领先实践,平衡了性能、隐私和能耗。