混元发布 Spatial-TTT 框架,实现长序列空间智能流式推理;通义实验室开源首个影视级 AI 配音多模态大模型 Fun-CineForge丨日报

0 阅读16分钟

开发者朋友们大家好:

这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@鲍勃

01 有话题的技术

1、通义实验室开源首个影视级 AI 配音多模态大模型 Fun-CineForge

通义实验室发布并开源了首个支持影视级多场景配音的多模态大模型 Fun-CineForge。

Fun-CineForge 基于通义实验室自研的 CosyVoice3 语音合成底层能力构建,能够接收无声视频片段、配音文本、角色属性与情感线索、时间信息及参考语音作为输入,输出与视频画面高度对齐的合成语音。

Fun-CineForge 最重要的技术创新,是在配音模型中首次引入**「时间模态」。**传统 TTS 模型通常只关注文本内容、声音特征或视觉信息,但影视配音中还有一个关键维度:时间

这些信息能够直接帮助模型深入理解**「在什么时间段内,哪个角色在说什么。」**,在视觉模态「看不到」说话人的时候,时间模态作为一种强监督目标,使语音出现在该出现的时间区域内。

这一点使模型具备了在复杂场景下的配音能力。

为了实现上述能力,Fun-CineForge 模型同时利用四类信息,它们相互补充、相辅相成。

  • **视觉模态:**学习唇部运动,理解面部表情;

  • **文本模态:**提供台词内容,描述角色属性和情感语气;

  • **音频模态:**作为模型预测目标;

  • **时间模态:**控制语音出现的时间,在对话场景指示说话人身份。

官方宣称,Fun-CineForge 在语音自然度、字错率、情感表达、音色相似度、唇形同步、时间对齐及指令遵循等多项关键指标上均优于现有开源配音模型。

GitHub链接:

github.com/FunAudioLLM…

HuggingFace链接:

huggingface.co/FunAudioLLM…

(@通义实验室)

2、混元研究团队与清华大学共同发布 Spatial-TTT 框架,实现长序列空间智能流式推理

清华大学与混元研究团队近日提出 Spatial-TTT 框架,旨在解决视觉模型在超长视频流中构建 3D 空间记忆的效率瓶颈。该框架通过测试时训练(Test-Time Training, TTT)机制,将模型权重转化为可动态更新的结构化空间记忆。

核心技术演进

  • 测试时训练(TTT)机制:放弃传统的固定权重推理,引入可更新的 Fast Weights 作为记忆载体。模型在推理过程中通过自我监督任务不断优化权重,使其能够实时捕获并组织视频流中的空间特征。

  • 3D 时空卷积 TTT 层:在 TTT 层中集成 3D 卷积算子,显式建模几何对应关系(Geometric Correspondence)与时间连续性,替代了传统 Transformer 架构中随序列长度线性增长的注意力机制。

  • 空间预测机制(Spatial-predictive Mechanism):通过预测后续帧的空间结构来驱动权重更新,确保模型构建的 3D 空间记忆具备结构化特征。

Spatial-TTT 为具身智能(Embodied AI)和长视频分析提供了低功耗、高密度的记忆方案。其核心突破在于解决了「空间证据」在超长流式输入下的存储与检索难题,使模型在持续运动中能够维持稳定的 3D 环境认知。

GitHub 链接:

github.com/THU-SI/Spat…

(@TencentHunyuan@X)

3、xAI 推出 Grok 文字转语音 API

Grok 的文字转语音(TTS)API 现已正式开放。

其旨在使用自然的人声与丰富的表达控制进行开发,为应用注入生命力。

( @xai@X)

4、IBM 开源 Granite-4.0-1b-speech 语音模型,支持多语言互译

IBM 开源了 Granite-4.0-1b-speech 语音语言模型,支持 英、法、德、西、葡、日 六种语言的语音识别及双向翻译,同时具备 英语到普通话 的翻译能力。

IBM 近日在 Hugging Face 开源 Granite-4.0-1b-speech 模型,采用 Apache 2.0 协议。

该模型专为多语言自动语音识别(ASR)和双向自动语音翻译(AST)设计。官方支持英语、法语、德语、西班牙语、葡萄牙语和日语输入,可实现与英语互译,另支持英语到意大利语及普通话翻译。

但官方未将普通话列为输入语种,不支持其语音直接识别。

Huggingface 链接: huggingface.co/ibm-granite…

(@橘鸦 Juya)

02 有亮点的产品

1、追觅戒指 Glow 正式发布!全球首创指尖 AI 心电监测

日前,在 AWE 中国家电及消费电子博览会上,追觅科技正式发布旗下全新一代旗舰智能硬件产品追觅 AI 戒指 Glow。这款产品凭借突破性的健康监测技术,成为全球首款指尖 AI 心电分析+心率血氧分析 AI 智能戒指,彻底打破传统健康穿戴设备的技术壁垒,开启 AI 指尖健康管理全新时代。

这款智能戒指集时尚首饰与健康管家于一身,内置多种传感器,实现 24 小时不间断、高精度心电、心率、血氧、体温等核心生理指标监测。依托千万级健康数据样本训练的自研健康 AI 大模型,结合清华大学联合研发的深度学习算法,可为每位用户建立专属健康基线,精准捕捉身体细微变化。

发布会上,追觅全球 AI 硬件事业群总裁潘志东正式公布追觅 AI 戒指 Glow 定价:产品官方售价 1799 元,惊喜首发价 1499 元。潘志东强调:「我们希望用亲民的定价,让专业级健康管理不再是少数人的专属,让每一位普通消费者都能轻松拥有 24 小时在岗的私人健康管家,让 AI 科技真正惠及每一个人。」

(@雷锋网)

2、黄仁勋在 GTC 携手英伟达物理 AI 家族亮相

在 2026 年 GTC 的开幕现场,那个永远穿着黑色皮夹克的男人——黄仁勋发表演讲,并携手其物理 AI 家族亮相

英伟达宣布 NVIDIA **自动驾驶出租车(Robotaxi)平台再添四家全新合作伙伴:比亚迪、现代、日产、吉利。**这些厂商每年合计生产 1800 万辆汽车。加上此前已加入的奔驰、丰田、通用等伙伴,未来支持 Robotaxi 的汽车数量将极为可观。英伟达还宣布将在多个城市,把这些支持 Robotaxi 的车辆接入合作伙伴的运营网络。

未来,传统的无线电塔,将变成 NVIDIA Aerial AI RIM 智能基站。它会成为一座「Robotaxi 无线电塔」。到时候,企业能够理解交通状况,智能调整波束赋形,在最大化保真度的同时,尽可能节省能源。

他还提到,借助英伟达 Alpamayo,车辆现在具备推理能力,能在各种场景下安全、智能地行驶。我们可以让车辆解释它的决策思考过程,并直接服从语音指令。

比如我们对车说:「hey Mercedes,我们能开快一点吗?」车辆可以回答:「当然,我这就提速。」通过传统仿真与神经仿真相结合,它们生成海量合成数据,并大规模训练策略模型。

这一次,NVIDIA 还打造了多款开源工具:Isaac Lab:用于在仿真中训练和评估机器人 Newton:可扩展、GPU 加速的微分物理仿真引擎 Cosmos 世界模型:用于神经仿真 GR00T 开源机器人基础模型:用于机器人推理与动作生成。

在主题演讲的结尾,迪士尼《冰雪奇缘》的雪宝机器人登上舞台,目前迪士尼的机器人正在用 NVIDIA 仿真训练。「我个人最期待的机器人之一就是来自迪士尼的机器人。」黄仁勋说道。

(@极客公园)

03 有态度的观点

1、初创公司首席产品官:不用 Vibe Coding 的员工「很可能不会继续留在公司」

金融科技初创公司 Ramp 的首席产品官 Geoff Charles 在播客节目「Behind the Craft」中表示,不使用 AI 辅助编程工具的员工正在落后于同事。

如果你今年还不使用 Claude Code,无论你担任什么职位,你的表现很可能都不如公司里的其他人。

Ramp 是一家估值达 320 亿美元、专注于帮助企业管理账单支付的 AI 金融科技公司。Charles 透露,该公司目前有 50% 的代码由 AI 生成,预计到今年 3 月这一比例将达到 80%。

Charles 将员工的 AI 使用能力划分为四个层级:

  • L0 为「偶尔使用 ChatGPT」的员工,属于最低层级;

  • L1 为已构建自定义 GPT、并有一定 Claude Code 使用经验的员工;

  • L2 为能够熟练运用「Vibe Coding」(氛围编程)构建应用、实现工作流自动化的员工;

  • L3 则是最高层级的「系统构建者」。他直言,仍停留在 L0 的员工「很可能不会继续留在公司」,并补充道:「如果你没有自驱力,也没有成长心态,培训起来会非常非常困难。」

(@APPSO)

04 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、AI 原生赛道 | 全球化产品 | 找几位硬核研发做 Founding Engineer 🚀

各位 Voice Agent 社群的大佬们打扰啦:

朋友这边是一家在 AI 赛道商业化非常不错的行业独角兽,超头部美元基金 back up,团队氛围极其全球化友好(北美总部 🏝 Chill 文化拉满)!这次在国内开放中国区核心研发岗位(Base 上海,从 0 到 1 建核心班底),急寻以下极客:

🎯 我们在找谁:

* Tech Lead / 资深研发经理: 懂全局架构,能 hold 住核心技术决策。

* 全栈 / 服务端工程师: 搞得定 LLM Ops、高并发,以及复杂的全球支付链路。

* iOS / Android 专家: 死磕多端极致体验、弱网环境和国内生态上架。

💡 极其看重的 DNA(招聘重点):

1⃣ 有高并发 APP 研发实战经验

2⃣ 具备 Startup 创业经历或高自驱精神(有开源/闭源项目是巨大加分项)

3⃣ 全英文日常沟通协作(Global 协同,全英文极客浓度超标)

4⃣ 积极拥抱 AI / Agent 协同工作(重度使用 Cursor/Claude 优先)

5⃣ 如申请 Tech Lead 岗需具备一定的管理经验。;

感兴趣的研发同学、2-4人的技术创业团队,或者身边有渴望 Global 视野的极客朋友,欢迎直接联系!

📮 投递通道: 可发中英文简历/GitHub链接至 china.hiring.team@gmail.com (极速反馈,合适可直接推 GM

随附 JD 详情:

关于团队

我们是一家快速成长的 AI 原生国际化公司,致力于用前沿技术重塑学习与表达的方式。产品已在多个海外市场规模化落地,服务数百万用户,并持续保持高速增长。

随着中国市场的重要性不断提升,我们正在组建 中国区核心工程团队。在严格合规的前提下,我们希望构建 高质量、可扩展、面向长期的 AI 原生产品体验,并寻找以下关键角色:

  • 一位 能代表中国市场、对技术与业务结果负责的工程负责人;

  • 一位 能在支付与 AI 并存的复杂环境中,把系统真正跑稳的全栈工程师;

  • 一位 懂中国移动生态,能在真实设备与复杂网络条件下交付稳定体验的客户端工程师。

团队欣赏的特质

  • 使命驱动的 Ownership:对所负责的领域有主人翁意识,愿意为结果和长期价值负责;

  • 用户至上:始终从用户视角出发思考与决策,追求真实有效的体验提升;

  • 快速迭代:在高速增长与国际化环境中保持敏捷,通过持续试验与反馈不断优化;

  • 跨文化协作:乐于与不同背景的团队成员合作,具备开放心态与跨国沟通能力。

资深研发经理

岗位职责

  • 主导中国区工程架构的落地与演进,对稳定性、合规与关键业务指标结果负责,覆盖支付与合规、AI 基础设施、移动端性能与稳定性等关键模块

  • 与总部工程团队紧密协作,确保中国区代码与全球主干架构的优雅对接,并在全球技术体系中代表中国市场的特殊需求;

  • 搭建并带领中国工程团队:招聘、培养并激励优秀工程师,建立清晰的工程规范、Code Review 机制与技术决策流程,塑造自驱、敏捷、以用户为中心的工程文化;

  • 深度参与产品与技术决策,从工程视角持续优化核心指标(转化率、稳定性、延迟、支付成功率等),提升产品核心指标;

任职要求

  • 5 年以上工程经验,2 年以上技术管理或 Tech Lead 经验;在 全栈 / 移动端 / AI 应用 中至少一个方向具备专家级判断力;

  • 熟悉 Node.js / TypeScript、React / React Native、Python,具备跨端(Web / Mobile / Backend / AI)的系统设计与代码评估能力;

  • 有 从 0→1 或从孵化到上线 的完整项目经验,或在创业公司 / 快速增长型业务中独当一面的经历;

  • 具备良好的英文沟通能力,能够向总部清晰解释中国市场的技术复杂性(如合规、备案、特殊网络环境等);

  • 强烈的主人翁意识,对工程质量有高要求,愿意为长期工程质量与团队成长负责;

**加分项 (可选) **

  • 有跨国科技公司或一线硅谷风格初创公司的工程或管理经验;

  • 有 AI / LLM 应用层经验或系统级理解,能够在模型能力、工程复杂度与业务目标之间做出合理判断。

全栈/服务端

岗位职责

  • 设计、搭建并维护中国区核心后端与 AI 服务架构,对系统稳定性、可扩展性与长期可维护性负责,覆盖支付、订阅、模型接入与推理服务;

  • 在国内云环境 部署并接入大语言模型与语音模型,管理多家模型 API,理解能力差异并优化调用策略;

  • 设计并维护 本地化推理与 AI 服务,包括低延迟优化、吞吐扩展、内容安全与合规处理;

  • 建立并优化 LLM Ops 流程:Prompt 管理、自动化评测、日志监控、多模型路由与成本控制;

  • 与总部工程团队协作,对接全球服务与代码主干,确保中国区系统与整体架构的一致性;

  • 与客户端(iOS / Android)及产品团队协作,保障端到端体验稳定、可扩展、可持续迭代

任职要求

  • 本科及以上学历,计算机或相关专业,3 年以上全栈 / 服务端 / 平台开发经验;

  • 熟练掌握 Python / Node.js / TypeScript,具备扎实的服务端开发与系统设计能力;

  • 熟悉 Web 架构、API 设计、性能优化与安全性设计(高并发、稳定性、权限与数据安全);

  • 熟悉数据库设计与实现(如 MySQL、MongoDB 等),具备 API 网关或中间层开发经验;

  • 对 LLM 应用开发有实践经验,了解 LangChain / Vector DB / RAG / Embedding 等相关技术;

  • 熟悉云原生技术(Docker、Kubernetes),有国内云环境部署与运维经验;

  • 具备良好的英文沟通能力,能够与海外团队进行跨国、跨职能协作;

  • 具备良好的产品意识与沟通能力,自我驱动力强,能在不确定环境中快速推进和迭代;

加分项(可选)

  • 有支付等 强合规场景 的系统或 AI 服务部署经验;

  • 有大规模 AI 应用、语音或多模态应用的研发经验;

  • 有 LLM Ops、成本优化或多模型调度的实际经验;

  • 有开源项目贡献或技术社区活跃经历。

客户端(iOS / Android)

岗位职责

  • 负责中国区客户端的开发与维护,对核心用户体验、性能与稳定性负责,支持 iOS 国区 App Store 与国内安卓应用市场上架与合规;

  • 负责支付 SDK、推送 SDK 等本地化功能接入,保证用户完整的订阅和通知体验;

  • 优化弱网环境和多机型适配,保障用户在不同设备上的性能与稳定性;

  • 与服务端和海外团队协作,确保核心功能和用户体验顺利落地和快速迭代;

任职要求

  • 本科及以上学历,3 年以上移动端开发经验,有实际产品上线经验;

  • 熟练掌握 Swift/Objective-C 或 Java/Kotlin,具备原生移动开发经验;

  • 熟悉移动应用常见架构(MVC、MVVM 等),具备良好的代码质量与性能优化能力;

  • 有应用商店支付 SDK 接入经验;熟悉国内应用市场上架流程与审核要求;

  • 具备良好的英文沟通能力,能与海外团队协作;

  • 良好的产品意识与沟通能力,自我驱动力强,能够快速迭代并独立解决问题;

**加分项 (可选) **

  • 有 React Native / Flutter 跨端开发经验

  • 有移动端音视频流式技术经验(如 WebSockets、LL-HLS)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点,仅供参考