实时语音识别已变得非常普遍,以至于我们很多人现在都将其视为理所当然。但这种便捷性是多年深度学习研究和产品迭代的产物,期间经历的挫折远比成功的结果多得多。
事实证明,同时进行语音转录是现代人工智能中最棘手的工程问题之一,其原因更多地与人类语音的缺陷以及我们对延迟的零容忍有关,而非底层技术本身。
某机构(Deepgram Inc.)是一家通过应用程序编程接口提供可扩展的自动语音识别和文本转语音功能平台的开发商,其联合创始人兼首席执行官表示,语音是许多AI系统最先失效的地方,尤其是在各公司争相在面向客户的环境中部署智能代理的当下。
人类的容忍度是有限的
“这关乎实时性,”他说,“如果人们使用的产品本就不需实时运行,他们会容忍更多的失败或无声的失败。”
一个出错的聊天机器人可以重试。但一个会停顿、误解或反应笨拙的语音助手则会惹恼用户。这些延迟限制意味着“你必须在500毫秒或更短的时间内完成所有需要完成的任务。”
与标准化的文本不同,语音是多变的。同一个词,因口音、年龄、语言、麦克风质量、背景噪音,甚至说话者所站位置的不同,听起来都可能天差地别。他将此称为构建强大语音系统时最大的难题之一。
转录工具已经存在多年,但大多数仅在音频质量完美时才表现良好。那些基于规则的语音系统由分层模型构建而成,往往会导致错误累积。
“每个模型的准确率可能只有80%或85%,”他说,“当把五个这样的模型堆叠在一起,准确率就会下降到50%。”
深度学习的突破
突破口是端到端深度学习,在这种模式下,模型直接在庞大数据集上进行训练,并自行推断规则。
但即使是强大的模型也仅是解决方案的一部分。企业级语音系统必须像基础设施一样部署,企业用户的需求与消费者截然不同。“它必须具有低延迟、高吞吐量、高可靠性、可调试、可适应并能随时间不断改进,”他说。
部署选项也很重要。出于监管或隐私原因,许多企业希望在其自有环境中运行语音识别功能。某机构采用API优先的方法交付其技术,但其表示,差异化因素不在于接口,而在于大规模提供一致性能的能力。
他认为,衡量语音识别的质量远比许多高管想象的要复杂。语音转文字的主要指标是词错误率,即转录错误的单词百分比。“如果你的词错误率在25%或以下,你就能获得价值。”但完美是不现实的:“实际上并不存在零词错误率”,即使人工转录也是如此。
语音生成的客观评分则更加困难。他提到,这在很大程度上依赖于人工偏好测试,需要在不同场景下动用“数十或数百人”进行评估。
随着语音代理越来越多地依赖大型语言模型和后台工具调用,基础设施的负担也在不断增加。在全球范围内,延迟是一个物理问题。实时语音系统需要区域性的端点,因为“地球足够大,以至于光速都会产生影响”。这就是为什么某机构今年正在将其端点网络扩展到某洲,并计划后续扩展至某洲。
由于其固有的复杂性,语音AI不应被视为一个要么全有要么全无的命题。他建议先在几个词汇量有限的场景中进行测试,然后再逐步扩展。“不要试图一蹴而就。”
语音识别或许是人类最自然的交互界面,但要使其在实时状态下可靠运行,需要严谨的工程能力、全球性的基础设施,以及经过训练、能在人类嘈杂多变的说话方式中稳定运行的模型。FINISHED