首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
VAD
订阅
iLoop
更多收藏集
微信扫码分享
微信
新浪微博
QQ
3篇文章 · 0订阅
3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录
3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目,结合声学、语义和视觉信息,提供高精度的说话人识别和语种识别功能。
揭秘语音交互的核心技术
AI语音拟人化三大技术:ASR精准识别语音,克服噪音方言;实时打断实现自然对话节奏,提升体验;TTS生成带情感的语音,消除机械感。三者融合,赋能智能客服与营销,显著降本增效。
活动回顾丨主动式语音 AI:全双工加持,让 AI 既会抢答也懂适时沉默|RTE Meetup
魔鬼藏在细节里,而让 Voice Agent 像人一样自然对话的秘密,就藏在 AI 是否能主动沉默、打断或发起对话的细节里。 你是否也曾憧憬过,AI 能够主动提醒你注意来往车辆,根据你的偏好为你推荐周