知音助聋研发AR字幕手语眼镜，能将手语合成声音；阿里开源泛音频生成模型 ThinkSound 和 2531.8h 的数据集丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01有话题的技术

1、微软开源 GitHub Copilot Chat，可通过自然语言与代码库互动

7 月 1 日，微软首席执行官 Satya Nadella 分享了，VS Code 的最新 AI 开源编辑器 GitHub Copilot Chat。

GitHub Copilot Chat 支持 AI Agent 自动化编程模式，可以执行多步骤的编码任务，自动处理编译和语法检查错误，监控终端和测试输出，并持续迭代直至编程任务完成。

GitHub Copilot Chat 的 Agent 模式可以自主搜索代码库以获取相关上下文，根据任务需求自动执行编译和代码检查等操作，例如，修复一个特定函数的错误，并进行整个项目的修复。

同时 GitHub Copilot Chat 也支持 MCP 协议，可以进一步扩展 Agent 的能力，例如，集成第三方数据库、云平台、应用、搜索引擎等。

支持自然语言编程，开发者可以通过聊天界面使用自然语言与代码库互动，询问问题、请求解释或使用对话式提示指定代码更改。

开源地址：

github.com/microsoft/v… （@ AIGC 开放社区）

2、阿里通义开源泛音频生成模型 ThinkSound，同时发布 AudioCoT 数据集（2531.8 小时）

阿里通义语音团队最新开源的泛音频生成模型 ThinkSound，主要用于视频配音，支持每一帧画面都有专属匹配音效。它首次将 CoT 思维链推理引入了音频领域，解决了传统视频配乐技术往往只能生成单调的背景音，而难以捕捉画面中的动态细节和空间关系的难题。引入链式思维（CoT）推理后，整个过程可以拆解为：先分析视觉动态、再推断声学属性，最后按照时间顺序合成与环境相符的音效。即 AI 现在也能像专业音效师一样逐步思考，通过捕捉视觉细节来生成音画同步的高保真音频。

ThinkSound 拥有两大核心模块：

链式推理的多模态大语言模型（MLLM）
基于流匹配的统一音频生成模型

基于以上模块，实现了一个三阶思维链驱动的音频生成过程。

值得一提的是，理论上 ThinkSound 不限制上传视频的时长，但考虑到生成效果，当前团队建议最佳视频时长为 10s。

同时，团队还专门为 ThinkSound 构建了一个链式音频推理数据集——AudioCoT。

数据集主要包括两大类，时长总计 2531.8 小时：

第一类：源自 VGGSound （453.6 小时）和 AudioSet （287.5 小时），经 9.1 秒固定长度分段、剔除静音片段、并特别排除了含人声片段后精选而来的视频—音频对，涵盖动物鸣叫、机械运转、环境音效等真实场景。

第二类：源自 AudioSet-SL （262.6 小时）、AudioCaps （112.6 小时）、Freesound （1286.6 小时）与 BBC Sound Effects （128.9 小时），利用多样化的字幕/标签描述加深模型对听觉语义的理解。

目前 ThinkSound 一共有三种型号（1.3B、724M、533M）可选，开发者可在 GitHub、HuggingFace、魔搭社区下载体验。

项目主页：

thinksound-project.github.io/

论文：

arxiv.org/pdf/2506.21…

开源地址：

GitHub:

github.com/liuhuadai/T…

HuggingFace:

huggingface.co/liuhuadai/T…

魔搭社区：

www.modelscope.cn/studios/Aud…

3、语音语言模型学术资源整合 Awesome-SpeechLM-Survey

关于语音语言模型的资源库「Awesome-SpeechLM-Survey」系统性地整理了该领域的重要学术资料，包含分类框架、主流模型列表、训练数据集和评估基准等内容。资料中详细列出了 50 多个现有语音语言模型，包括 GPT-4o、Moshi 和 Mini-Omni 等，并对语音 tokenizer 技术进行了分类。此外，汇总了 20 多个主流训练数据集和 10 多个评估基准，提供了开发者深入了解语音 AI 技术的机会。

02有亮点的产品

1、知音助聋团队研发 AR 字幕手语眼镜，能将手语智能合成声音

腾讯第五届 Light 创造营，共收到了来自 847 个年轻团队申报的公益项目，其中 19 支队伍入围终审路演。

借助腾讯云的 AI 和大模型产品，知音助聋团队启动了「AI 不释手——知音开启听障人士无障碍生活」项目，他们研发了 AR 字幕手语眼镜，能把健全人的声音转成文字呈现在 AI 眼睛上让聋哑人看到。

同时，听障人士用手语回应后，摄像头还能将手语智能合成声音，实现聋哑人和健全人的双向交流。

团队还开发了 AI 不释手手语词典，为用户提供便捷学习途径。用户可通过打字或语音输入，获取对应手语动作图示与文字描述，遇到重要词汇，支持一键收藏便于复习。

据介绍，目前该产品已经服务 8 万余人，完成数亿次 AI 服务。

针对于因渐冻症、脑瘫、中风等原因导致手部障碍的人士。面面俱控团队研发了国内首个面控操作手机电脑的产品「面面俱控」，通过人脸识别技术，捕捉脸部动作，模拟手机手势和 PC 鼠标操作。

比如，用户可以通过设置张嘴、抬眉等动作对手机电脑进行不同的操作，语音控制也已实现。（@量子位、@腾讯基金会）

2、荣耀官方宣布，已成功部署全球首个端侧语音大模型

荣耀官方微博@MagicOS 宣布成功实现全球首个端侧语音大模型的部署，该成果被誉为「AI 语音技术再升级」，将在即将发布的荣耀 Magic V5 海外版中首发亮相。荣耀此前在国际顶尖会议 InterSpeech 上发表两篇学术论文，为此次大模型部署奠定基础。

链接：

www.aibase.com/news/19383 （@雨询）

3、国内团队开源 VideoLingo：支持 GPT-SoVITS，Azure，OpenAI 等多种高质量配音和 NLP 和大模型驱动的智能分句

VideoLingo 是一款便捷的一键搬运视频工具，利用 yt-dlp 下载 YouTube 视频，并通过 AI 技术进行字幕分割、翻译和自动添加字幕。同时，该工具还运用大模型进行配音，确保视频内容的完整性和多语言支持。用户也可以选择将 YouTube 视频下载并自行保存，适合需要搬运视频内容的用户。

商业版本还没发布，目前免费。

亮点：