开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01有话题的技术
1、微软开源 GitHub Copilot Chat,可通过自然语言与代码库互动
7 月 1 日,微软首席执行官 Satya Nadella 分享了,VS Code 的最新 AI 开源编辑器 GitHub Copilot Chat。
GitHub Copilot Chat 支持 AI Agent 自动化编程模式,可以执行多步骤的编码任务,自动处理编译和语法检查错误,监控终端和测试输出,并持续迭代直至编程任务完成。
GitHub Copilot Chat 的 Agent 模式可以自主搜索代码库以获取相关上下文,根据任务需求自动执行编译和代码检查等操作,例如,修复一个特定函数的错误,并进行整个项目的修复。
同时 GitHub Copilot Chat 也支持 MCP 协议,可以进一步扩展 Agent 的能力,例如,集成第三方数据库、云平台、应用、搜索引擎等。
支持自然语言编程,开发者可以通过聊天界面使用自然语言与代码库互动,询问问题、请求解释或使用对话式提示指定代码更改。
开源地址:
github.com/microsoft/v… (@ AIGC 开放社区)
2、阿里通义开源泛音频生成模型 ThinkSound,同时发布 AudioCoT 数据集(2531.8 小时)
阿里通义语音团队最新开源的泛音频生成模型 ThinkSound,主要用于视频配音,支持每一帧画面都有专属匹配音效。它首次将 CoT 思维链推理引入了音频领域,解决了传统视频配乐技术往往只能生成单调的背景音,而难以捕捉画面中的动态细节和空间关系的难题。引入链式思维(CoT)推理后,整个过程可以拆解为:先分析视觉动态、再推断声学属性,最后按照时间顺序合成与环境相符的音效。即 AI 现在也能像专业音效师一样逐步思考,通过捕捉视觉细节来生成音画同步的高保真音频。
ThinkSound 拥有两大核心模块:
-
链式推理的多模态大语言模型(MLLM)
-
基于流匹配的统一音频生成模型
基于以上模块,实现了一个三阶思维链驱动的音频生成过程。
值得一提的是,理论上 ThinkSound 不限制上传视频的时长,但考虑到生成效果,当前团队建议最佳视频时长为 10s。
同时,团队还专门为 ThinkSound 构建了一个链式音频推理数据集——AudioCoT。
数据集主要包括两大类,时长总计 2531.8 小时:
第一类:源自 VGGSound (453.6 小时) 和 AudioSet (287.5 小时),经 9.1 秒固定长度分段、剔除静音片段、并特别排除了含人声片段后精选而来的视频—音频对,涵盖动物鸣叫、机械运转、环境音效等真实场景。
第二类:源自 AudioSet-SL (262.6 小时)、AudioCaps (112.6 小时)、Freesound (1286.6 小时) 与 BBC Sound Effects (128.9 小时),利用多样化的字幕/标签描述加深模型对听觉语义的理解。
目前 ThinkSound 一共有三种型号(1.3B、724M、533M)可选,开发者可在 GitHub、HuggingFace、魔搭社区下载体验。
项目主页:
论文:
开源地址:
GitHub:
HuggingFace:
魔搭社区:
www.modelscope.cn/studios/Aud…
3、语音语言模型学术资源整合 Awesome-SpeechLM-Survey
关于语音语言模型的资源库 「Awesome-SpeechLM-Survey」 系统性地整理了该领域的重要学术资料,包含分类框架、主流模型列表、训练数据集和评估基准等内容。资料中详细列出了 50 多个现有语音语言模型,包括 GPT-4o、Moshi 和 Mini-Omni 等,并对语音 tokenizer 技术进行了分类。此外,汇总了 20 多个主流训练数据集和 10 多个评估基准,提供了开发者深入了解语音 AI 技术的机会。
相关链接:
4、OpenAI GPT-5 已经开始灰度测试,支持文字、语音、图像、代码甚至视频等输入
OpenAI 即将发布的 GPT-5 引发了科技界的广泛关注。据内部人士透露,GPT-5 已经开始灰度测试,预计将在 2025 年 7 月正式上线。这一代新模型将采用多模态设计,能够处理文字、语音、图像、代码甚至视频等多种输入,彻底改变我们与 AI 的互动方式。
OpenAI 的首席执行官 Sam Altman 表示,GPT-5 的推出将标志着 AI 技术的一次重大飞跃。新模型具备深度推理能力,能够进行实时视频生成和大量代码编写,进一步拓展了 AI 的应用场景。与之前的版本相比,GPT-5 不仅在功能上进行了整合,还将推理与记忆相结合,旨在减少 AI 生成内容时可能出现的「幻觉」现象。( @OneThingAI Lab)
02有亮点的产品
1、知音助聋团队研发 AR 字幕手语眼镜,能将手语智能合成声音
腾讯第五届 Light 创造营,共收到了来自 847 个年轻团队申报的公益项目,其中 19 支队伍入围终审路演。
借助腾讯云的 AI 和大模型产品,知音助聋团队启动了「AI 不释手——知音开启听障人士无障碍生活」项目,他们研发了 AR 字幕手语眼镜,能把健全人的声音转成文字呈现在 AI 眼睛上让聋哑人看到。
同时,听障人士用手语回应后,摄像头还能将手语智能合成声音,实现聋哑人和健全人的双向交流。
团队还开发了 AI 不释手手语词典,为用户提供便捷学习途径。用户可通过打字或语音输入,获取对应手语动作图示与文字描述,遇到重要词汇,支持一键收藏便于复习。
据介绍,目前该产品已经服务 8 万余人,完成数亿次 AI 服务。
针对于因渐冻症、脑瘫、中风等原因导致手部障碍的人士。面面俱控团队研发了国内首个面控操作手机电脑的产品「面面俱控」,通过人脸识别技术,捕捉脸部动作,模拟手机手势和 PC 鼠标操作。
比如,用户可以通过设置张嘴、抬眉等动作对手机电脑进行不同的操作,语音控制也已实现。(@量子位、@腾讯基金会)
2、荣耀官方宣布,已成功部署全球首个端侧语音大模型
荣耀官方微博@MagicOS 宣布成功实现全球首个端侧语音大模型的部署,该成果被誉为「AI 语音技术再升级」,将在即将发布的荣耀 Magic V5 海外版中首发亮相。荣耀此前在国际顶尖会议 InterSpeech 上发表两篇学术论文,为此次大模型部署奠定基础。
链接:
www.aibase.com/news/19383 (@雨询)
3、国内团队开源 VideoLingo:支持 GPT-SoVITS,Azure,OpenAI 等多种高质量配音和 NLP 和大模型驱动的智能分句
VideoLingo 是一款便捷的一键搬运视频工具,利用 yt-dlp 下载 YouTube 视频,并通过 AI 技术进行字幕分割、翻译和自动添加字幕。同时,该工具还运用大模型进行配音,确保视频内容的完整性和多语言支持。用户也可以选择将 YouTube 视频下载并自行保存,适合需要搬运视频内容的用户。
商业版本还没发布,目前免费。
亮点 :
-
支持一键下载 YouTube 视频并自动切割字幕;
-
NLP 和大模型驱动的智能分句,翻译更自然;
-
三步翻译流程,字幕质量媲美专业团队;
-
支持 WhisperX 字级对齐,字幕同步精准;
-
支持 GPT-SoVITS,Azure,OpenAI 等多种高质量配音;
-
支持多语言界面,Streamlit 一键启动;
-
单行字幕输出,体验接近 Netflix 标准;
-
详细日志,进度可断点续传;
-
支持本地和云端多种 API,易用性强
官网:
Github:
(@elliotchen100@X)
03有态度的观点
1、北京中小学生 9 月起开设 AI 通识课
据北京发布消息,《北京市中小学人工智能教育地方课程纲要(试行)(2025 年版)》近日公布:
从 2025 年秋季学期开始,全市中小学校开展人工智能通识教育,每学年不少于 8 课时,实现中小学生全面普及。
据纲要介绍,人工智能课程以全面提升学生人工智能素养为目标,面向全体学生提供人人必学、人人可学、人人愿学的基础性内容。课程包括人工智能意识与思维能力、人工智能应用与创新能力、人工智能伦理与社会责任三个方面。
据悉,各学段将设置不同的教学目标:
-
小学:通过体验式课程,初步理解人工智能的基本概念与特点,感知人工智能技术对学习和生活的深远影响;
-
初中:以认知类课程为主,完善学生对人工智能技术的系统认知,培养进阶的实践能力与伦理意识;
-
高中:以综合性和实践性课程为主,全面培养人工智能素养与技术运用和创新能力。其中需要熟悉数据处理与标注、机器学习算法原理及深度学习入门知识;
三个阶段均包含人工智能基本概念/应用与技术/实现方法/理论与社会课程。
值得一提的是,将建立学段衔接机制,将人工智能课程评价结果纳入学生综合素质评价体系,形成贯穿中小学阶段的完整评价链条。(@APPSO)
2、《人类简史》作者赫拉利:AI 的希望与危机
日前,《人类简史》的作者、历史学家兼哲学家尤瓦尔・诺亚・赫拉利在《华尔街日报》首席执行官理事会峰会上探讨了 AI 的发展前景。
赫拉利指出,AI 并非传统意义上的工具,而是一种能够独立决策、发明新思想并自我学习和改变的 「智能体」。
他强调,与以往人类发明的印刷机、原子弹等工具不同,AI 具有自主性。例如,AI 武器可以自行决定攻击目标并设计下一代武器,而印刷机无法自行写书和决定印刷内容。
他特别提到,目前全球都在热议 AI 「如何确保这些超级智能体的行为符合人类目标和利益」。然而,这本身就面临着两大难题:
一是,AI 的定义本身就意味着它能够自我学习和改变,人类无法完全预测其行为。
二是,AI 如同孩子,其学习过程更多地受到人类实际行为的影响,而非单纯的指令。
赫拉利对 AI 可能导致的 「无用阶层」表示担忧。他认为,人类不应陷入历史或技术决定论,而是可以通过选择如何发展和部署 AI 技术,塑造不同的社会。
然而,目前领导 AI 革命的公司和国家陷入了军备竞赛的局面,即使意识到需要放慢速度、加强安全投资,也担心被竞争对手超越,从而更加紧张的研发「更强更快」的应用。
赫拉利的在会议中的讨论无疑为人们敲响了警钟,提醒我们应该更加深入地思考如何引导 AI 的发展。(@APPSO)
更多 Voice Agent 学习笔记:
语音能否彻底取代键盘?Wispr Flow 融资 3000 万美金背后的思考丨Voice Agent 学习笔记
11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记
实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记
级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻