VAD - iLoop的收藏集 - 掘金

VAD

更多收藏集

3篇文章 · 0订阅

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目，结合声学、语义和视觉信息，提供高精度的说话人识别和语种识别功能。

蚝油菜花
1年前
563
点赞
评论

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

揭秘语音交互的核心技术

AI语音拟人化三大技术：ASR精准识别语音，克服噪音方言；实时打断实现自然对话节奏，提升体验；TTS生成带情感的语音，消除机械感。三者融合，赋能智能客服与营销，显著降本增效。

货拉拉技术
6月前
941
5
1

活动回顾丨主动式语音 AI：全双工加持，让 AI 既会抢答也懂适时沉默｜RTE Meetup

魔鬼藏在细节里，而让 Voice Agent 像人一样自然对话的秘密，就藏在 AI 是否能主动沉默、打断或发起对话的细节里。你是否也曾憧憬过，AI 能够主动提醒你注意来往车辆，根据你的偏好为你推荐周

RTE开发者社区
8月前
208
点赞
评论

活动回顾丨主动式语音 AI：全双工加持，让 AI 既会抢答也懂适时沉默｜RTE Meetup