豆包学会"抢话"：字节推出全双工语音模型Seeduplex2026年4月9日，字节跳动正式推出原生全双工语音大模型See

2026年4月9日，字节跳动正式推出原生全双工语音大模型Seeduplex。相比于上一代半双工豆包端到端语音模型，Seeduplex基于"边听边说"的全新框架设计，交互体验的自然感、顺畅度大幅提升。目前，该模型已在豆包App全量上线。

从"回合制"到"全双工"

传统语音交互是什么感觉？像打电话——你说完，我听完，我再回复。这种"半双工"模式虽然稳定，但不够自然。现实生活中的人类对话是重叠的：对方还没说完，你就开始点头；你话还没讲完，对方就插嘴补充。

Seeduplex的核心突破，就是让AI具备了这种"边听边说"的能力。

技术上，这意味着模型需要同时处理三个任务：持续监听用户输入、实时理解语义、在适当时机生成并输出回复。这要求模型具备毫秒级的响应延迟控制和精准的打断时机判断——太早会显得没礼貌，太晚又显得迟钝。

字节跳动没有公布具体的技术细节，但从"全双工"这个关键词可以推断，Seeduplex在架构上可能采用了流式处理机制，将语音识别、语义理解、回复生成、语音合成四个环节从"串联"改为"并联"，实现真正的实时交互。

Seeduplex的发布时机很微妙。

就在前几天，Anthropic刚刚宣布Claude切断OpenClaw等第三方框架的订阅通道，理由是成本倒挂。同一天，DeepSeek上线了快速模式和专家模式的分层设计。现在字节跳动又抛出Seeduplex——AI赛道的竞争，已经从"文本智能"卷到了"语音智能"。

对于客服行业来说，这又是一个"狼来了"的信号。

传统的智能语音客服为什么让人抓狂？因为它们只会按照剧本念台词，听不懂弦外之音，更不会灵活应对。但全双工语音模型不一样——它可以实时感知用户情绪，适时打断或追问，甚至在用户犹豫时主动提供建议。

如果Seeduplex的"边听边说"能力达到可用水平，第一批被替代的可能是电话销售、客户回访、预约提醒等标准化程度高的语音岗位。

但字节跳动面临一个现实问题：算力。

全双工交互对计算资源的要求远高于文本对话。每一句话都需要实时处理，延迟必须控制在几百毫秒内，否则用户体验就会崩塌。

就在4月8日，DeepSeek的专家模式还因为"高峰期需等待"而被用户吐槽。豆包如果全面推广Seeduplex，是否也会陷入同样的算力焦虑？

字节跳动的优势在于，它有一套成熟的推荐系统架构，擅长处理高并发、低延迟的实时计算。但语音模型的算力消耗是推荐系统的数倍，豆包能否扛住，还要看后续的实际表现。