今天做了一个非常有趣的数字人应用项目,「面试通(InterviewGo)」——全语音 AI 数字人模拟面试官 cockpit。
这是一款基于魔珐星云具身智能数字人平台能力打造的职场高保真模拟面试应用,支持全双工实时交互。用户可以通过纯语音与 3D 数字人面试官进行面对面的真实对练,数字人能够以顶级大厂 HRD 的专业姿态,实时响应用户的表现,进行岗位连环追问与全自动的连续模拟面试。
演示地址:patient-sun-128c.whl654261.workers.dev/
项目背景
传统的语音交互产品大多是“半双工”模式——你说一句,必须等AI回答完毕后才能说下一句,体验类似于对讲机。这在高度紧张、依赖即时抗压反馈的面试对练场景下是非常糟糕的:当用户在组织语言产生稍许停顿和思考时,传统系统就会鲁莽地抢话打断;而当数字人面试官宣读复杂的长考题或进行长点评时,用户若想中途打断、补充或纠正,也无法实现。这种高延迟和机械节奏极大地破坏了模拟面试的连贯性与自然度。
技术亮点
- 状态机管理:魔珐星云提供7种交互状态(离线/在线/待机/倾听/思考/说话等),状态切换丝滑
- 全双工打断:VAD语音检测 + interactiveIdle打断 + TTS队列清空,全双工打断 低时延响应
- 流式响应:大模型is_start/is_end流式输出,配合数字人speak逐句播报
- WebSocket长连接:前后端实时双向通信,支持断线自动重连
本人并不很会手写代码,堪称不会代码的编程小白,而此应用全程通过通过AI Coding工具辅助,几乎完全由AI完成了本次开发任务。魔珐星云产品提供了清晰的API文档和示例代码,结合Cursor等AI编程助手,即使是0基础开发者也能快速上手,搭建出可用的数字人应用。
效果展示
启动页面
数字人界面
视频演示 飞书文档
页面设计
- 大方、高科技感的暗蓝调大屏 UI 布局,左侧常驻 9:16 半身数字人总监,右侧集成丰富的交互矩阵。
- 高可玩度岗位切换与高压测试滑块
提供可点击的岗位矩阵与压力面滑动条,用户拖动至“高压面”时,大模型即刻以犀利刻薄的逻辑开展追问。
- 智能生命周期一键控制面板
顶部优雅地设计了“开启舱体”与“退出会话”按钮,一键自动化完成配置读取、SDK建立与彻底的资源注销销毁。
录屏使用效果
-
全双工打断功能:
- VAD持续监测用户语音
- 检测到插话 → 调用 interactiveIdle 打断当前播报
- 清空TTS队列,状态切换至 listen
- 用户说完 → think → 大模型流式返回
- 状态切换至 speak 播报回复
-
随时打断:
- 用户可随时打断新闻播报(此处为打断面试官的长评或提问)
- 打断后自动切换至倾听状态
-
上下文理解:
- 打断后数字人能够理解用户问题并回答
- 支持多轮对话
-
数字人形象:
- 播报姿态(此处为严肃严谨的高管审视与倾听神态)
- 唇形同步
-
特色功能:
- 地球模型+国家高亮(此处升级为:岗位图谱高亮与压力控制条联动)
- 底部信息栏显示新闻标题(此处升级为:流式呈现当前面试轮次与答题核心关键词)
- 待机状态波形显示
核心交互体验
-
随时打断
- 数字人播报新闻(面试提问)时,用户可随时开口说话
- 系统通过 VAD(语音活动检测)实时监测用户语音
- 检测到插话后立即停止当前播报,自动切换至倾听状态
- 支持打断后继续播报被打断的新闻(此处为顺应求职者的解释直接进入下一轮辩驳)
-
全双工对话流
- 完整流程:用户开口 → 数字人停止播报 → 倾听 → 思考 → 流式语音播报
- 打断后能准确理解用户问题并给出针对性回答
- 支持中途再次打断,实现真正的双向对话
-
智能模拟面试
- 具身职场气场:面试官苏晴在倾听用户陈述时眼神聚焦、微微点头,大模型输出压力测试文本时神态严肃干练
- 底部信息栏实时显示:当前考核维度(如:核心胜任力/STAR原则追问) + 实时答题速率
- 自动切换多模态数据看板、大模型低时延响应与环境音效的平衡顺序
-
多轮连续对话
- 支持连续多轮问答,对话历史上下文保持
- 数字人播报完毕后自动开启语音监听,等待下一轮对话
- 待机状态显示波形动画,营造数字科技(企业密闭考核舱)氛围
应用场景
- 大厂春招/秋招突击对练:为缺乏真实大厂面试经验、面临高管面试极度紧张的应届生提供零成本、高还原的通关对练。
- 高压压力面脱敏训练:通过调节压力滑块,帮助求职者在面临严厉、犀利的连续追问时保持冷静,锤炼心理韧性。
- 跨赛道转行职场话术模拟:提供各岗位的意图识别输入,帮助求职者快速习惯新赛道的专业术语与结构化答题逻辑。
全双工打断流程
- 用户开口说话
- VAD检测到语音活动
- 调用 interactiveIdle() 打断当前播报
- 清空TTS队列 + 中止当前语音 token
- 切换 avatarState → 'listen'(倾听状态)
- 开启语音识别监听用户完整表达
- 识别完成 → avatarState → 'think'(思考状态)
- 大模型流式返回 → avatarState → 'speak'(播报状态)
- 逐字/词实时语音合成 + 唇形同步
- 播报结束 → 自动开启下一轮监听
总结与体验
通过本次项目,我深刻体会到魔珐星云产品在数字人交互领域的优势:
- 低门槛:清晰的API文档 + 示例代码,0基础开发者也能上手
- 高质量:数字人形象逼真,唇形同步、表情自然
- 可扩展:状态机设计灵活,支持复杂交互场景定制
未来优化方向
- RAG 岗位真题库:深度挂载垂直行业的真实面试真题知识库,让苏晴的提问更具针对性
- 英文/多语种外企面试:拓展全球化外企多语种全双工语音切换功能
- 实时复盘生成:在“退出会话”销毁 SDK 的同时,自动化异步导出完整的面试多维度评分报告与话术修正建议
- 联席面试官生命周期:利用完备的生命周期管理,后续升级多数字人联动,打造 HR、技术总监三对一的群面体验
立即体验
欢迎大家一起体验魔珐星云数字人产品——魔珐星云产品体验链接
有任何问题欢迎在评论区留言交流,也欢迎更多技术分享!
#AI数字人 #魔珐星云 #全双工交互 #语音打断 #AI编程 #模拟面试 #职场效率工具