VUI Labs(宇生月伴)再获数千万元融资,端侧同传小模型已商业化落地;OpenAI 获超千亿美元融资,估值直逼特斯拉 丨日报

0 阅读11分钟

开发者朋友们大家好:

这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@瓒an、@鲍勃

01 有话题的技术

1、DeepSeek 悄悄上线新论文,北大清华联创

近期,DeepSeek 联合北京大学与清华大学悄悄上线了一篇论文,正式发布名为 DualPath 的新技术方案,重点解决了 AI 大模型在执行复杂多轮任务时遭遇的历史数据读取瓶颈。

据论文介绍,现在 AI 系统在处理超长上下文时,负责「处理输入信息」和「生成文本回答」的两个计算模块,会出现数据通道资源错配的情况。

针对此问题,新的 DualPath 打破了常规的单线传输限制,允许历史数据先通过闲置通道进入「生成回答」模块,随后利用集群内部的高速网络,瞬间转发给「处理输入」模块。

官方评估数据显示,在处理真实复杂的 AI 任务时,该技术将离线处理吞吐量最高提升 1.87 倍,在线服务吞吐量平均提升 1.96 倍。

当前,大模型正快速向具备自主规划能力的「智能体(Agent)」方向演进,AI 需要频繁回顾动辄数万字的上下文,导致系统性能的制约因素已从「算力不足」转变为「数据传输太慢」。

而 DualPath 技术的验证,证明了通过优化底层数据流向,可以在不增加硬件采购成本的情况下大幅盘活闲置资源。

( @APPSO)

2、首创音视频深度协同与统一拼接框架:SkyReels V4 开启「生成+修复+编辑」一体化视频创作

2 月 27 日,Skywork AI 正式发布多模态视频基础模型 SkyReels V4。该模型以双流多模态扩散 Transformer(MMDiT)为核心架构,可实现 1080p 分辨率、32 FPS 帧率及 15 秒时长的音视频同步生成是全球首个集多模态输入、联合音视频生成及统一生成/修复/编辑任务于一体的视频基础模型

在权威评测机构 Artificial Analysis 的基准测试中,SkyReels V4 在「文本生成视频(带音频)」领域排名全球第二,表现显著优于 Google Veo 3.1、OpenAI Sora 2 及 Wan 2.6 等主流模型。

针对传统视频模型普遍存在的模态割裂与功能分散问题,SkyReels V4 通过三大核心技术创新实现了多场景覆盖:

  • 音视频深度协同生成:采用对称双流架构,视频与音频分支共享文本编码器,通过联合流匹配损失函数相互引导,从根本上解决唇形同步、音效对齐等痛点。

  • 一站式统一拼接框架:提出通道拼接与时序拼接相结合的双维统一范式。该设计将文本/图像到视频的生成、区域智能修复(如替换主体、去除水印)及全维度视频编辑等多样化需求,统一转化为特定掩码配置下的修复问题,实现全流程无缝操作。

  • 高效平衡生成策略:首创「低分辨率全序列+高分辨率关键帧」联合生成策略,配合视频稀疏注意力(VSA)机制,在保持高质量的前提下将计算成本降低了约 3 倍。

目前,SkyReels V4 的一体化创作能力已在广告营销、影视制作及教育培训等多个场景落地应用。未来,Skywork AI 计划进一步扩展 60 秒以上的长视频生成能力,增强交互编辑功能,并向开发者开放模型 API 接口。

(@昆仑万维集团)

3、Deepgram 成为 IBM 首个语音技术合作伙伴,全面接入 watsonx 打造企业级实时语音智能体

2 月 24 日,IBM 与 Deepgram 宣布达成合作,**IBM 将把 Deepgram 的语音转文本和文本转语音技术整合至其 watsonx Orchestrate 生成式 AI 解决方案中。**通过此次合作,Deepgram 正式成为 IBM 的首个语音技术合作伙伴。

此次技术整合主要为满足企业客户对高性能转录和实时字幕的需求,帮助企业实现运营自动化。面对真实世界中复杂的音频环境,该系统展现出以下核心功能优势:

  • 复杂音频处理:能够有效应对背景噪音、多重口音以及真实的日常对话等复杂场景。

  • 多语种与方言支持:提供更广泛的语言和方言选择,包含数十种阿拉伯语和印地语变体,以及反映不同地区口音的语音库。

  • 定制与实时功能:增加了自定义调整、实时字幕生成以及自然语音输出等高级选项。

这些新引入的语音 AI 技术,将为医疗保健和金融等领域的自动化客户服务与支持、通话分析以及语音驱动的数据录入开辟新的应用场景

Deepgram 首席执行官 Scott Stephenson 表示,语音正迅速成为人类与技术交互的默认接口,企业客户如今可以通过 watsonx Orchestrate Agent Builder,在经过十多年完善的实时架构上构建语音智能体和支持语音的工作流。IBM 相关业务副总裁 Nick Holda 也指出,引入全新的语音识别与转录能力将优化并加速企业组织的 AI 计划,实现运营的现代化。

( @IBM Newsroom)

02 有亮点的产品

1、VUI Labs 完成数千万天使+轮融资,发力情感语音大模型与多模态 Agent

VUI Labs(宇生月伴)宣布完成数千万元天使+轮融资,由同创伟业领投,老股东靖亚资本、小苗朗程持续加注。公司半年内累计获得近亿元投资,资金将用于核心模型迭代、产品和商业化落地、全球人才引进及 Voice Agent 平台建设。VUI Labs 由上海交通大学特聘教授钱彦旻与连续创业者梅杰创办,专注于打造多模态情感对话语音大模型与语音智能体平台

基于在端到端语音模型领域的深厚积累,VUI Labs 自研了多模态情感交互语音大模型 Luna 系列,其核心技术成果主要包含以下三点:

  • Luna-1:作为全球首个端到端情感语音交互模型,在 VoiceBench 权威测评中取得 79.05 的高分,语音对话延迟仅 1.4 秒。

  • Luna-TTS-1:语音合成模型延迟低至 200 毫秒,无需依赖「抽卡式」生成,即可在不同场景下提供稳定且具备丰富情感的高质量语音输出。

  • Luna-Live-Translation-1:基于 SimulMEGA 无监督策略学习框架研发的端侧同声传译模型,大小仅 500M,延迟低至 1.5 秒,目前已在某知名手机品牌的欧洲版本上落地商业应用。

在产品应用方面,公司于 2026 年 1 月推出首个 C 端语音智能体产品 SaySo。与传统语音转文字工具不同,SaySo 具备多步规划、工具调用等能力,能精准理解上下文语境并优化输出内容。早期测试数据显示,该产品展现出极高的用户粘性:用户 78% 的文字产出已由其完成,横跨近 50 个主流应用;仅用 6 周时间,中位数用户的键盘依赖度即断崖式降至 20%。

投资方认为,下一代人机交互界面的核心技术在于语音,而语音交互的关键在于时延与情感。VUI Labs 在这两方面的基础技术优势,结合成熟的工程化商业落地经验,将有力推动其在多模态 Agent 这一未来核心应用场景中实现快速突破与规模化发展。

( @Z Potentials)

2、中兴官宣 MWC 2026 推 TopFlow「直播神器」,还有 AI 宠物 iMoochi

中兴官方今日预热,将在 MWC 2026 世界移动通信大会(3 月 2 日开始)推出一款 TopFlow「直播神器」

从宣传海报可以看到,TopFlow 带有屏幕和疑似录制按钮,屏幕中显示上传和下载速度,有望整合拍摄、网络、直播等功能。

中兴还将同时推出一款 AI 宠物 iMoochi。这款产品采用毛茸茸造型,配有萌趣大眼睛。

根据官方介绍,iMoochi 是一款以「陪伴」为核心的 AI 宠物,用柔软的触感、克制的表达与理解你之后的回应,陪在你身边。

(@IT 之家)

3、OpenAI 宣布获得超千亿美元融资

昨晚,OpenAI 终于宣布完成 1100 亿美元新一轮融资,投前估值高达 7300 亿美元。

具体来看该笔融资:软银投 300 亿美元、英伟达投 300 亿美元、亚马逊投 500 亿美元。 而拥有了该笔融资后的 OpenAI,估值更是直逼特斯拉。

而这笔钱将分别用于「与英伟达合作获取下一代推理芯片」「通过亚马逊 AWS 触达更多企业客户」和「支撑公司从研究型机构向全球产品公司转型」

除了砸钱,亚马逊还与 OpenAI 签署了 战略合作协议:

  • AWS 将成为 OpenAI Frontier 平台的独家第三方云分销渠道;

  • 双方联合开发 Stateful Runtime Environment(有状态运行时环境),让 AI Agent 能记住上下文、调用工具;

  • OpenAI 将消耗 2 吉瓦的 Trainium 算力用于训练和推理。

与此同时,微软也紧急发声明「维稳」:与 OpenAI 的合作关系一切照旧。

  • Azure 仍是 OpenAI API 的独家云服务提供商;

  • 微软保留对 OpenAI 模型和 IP 的独家授权;

  • 收入分成模式不变。

另外,OpenAI 还晒出了一组恐怖数据:ChatGPT 周活跃用户突破 9 亿,付费企业用户超过 900 万,消费者订阅用户达到 5000 万+。

OpenAI 称今年 1 月和 2 月有望成为公司历史上新增订阅用户最多的两个月。

( @APPSO)

03 有态度的观点

1、Salesforce CEO 反驳「软件末日」:都不是第一次这样讲了

近期,客户关系管理软件服务提供商 Salesforce CEO Marc Benioff 在最新的财报电话会上,正面回应了「AI 智能体将导致 SaaS 模式消亡」的市场担忧。

针对近期资本市场担忧 AI 智能体将颠覆按座席收费模式的「SaaS 末日论(SaaSpocalypse)」,Benioff 在会上指出,行业并非首次面临此类危机,而企业级 SaaS 因集成 AI 智能体而变得更具护城河。

而据 TechCrunch 报道,这一观点的抛出,被业界视为对底层大模型厂商越界行为的直接反击。

本月早些时候,OpenAI 推出企业级智能体 Frontier 时展示了截然相反的路线图:OpenAI 意图掌控技术栈核心,而将提供核心业务数据的 SaaS 供应商降级为底层的系统记录引擎。而该路线分歧正是触发本轮 SaaS 概念股抛售潮的核心诱因。

近期,Anthropic 宣布 Claude Code 能自动梳理 COBOL 依赖、生成文档并识别风险,引发市场对 IBM 主机业务受冲击的担忧,IBM 股价在当地时间本周一录得近 26 年最大单日跌幅,市值蒸发约 310 亿美元。

( @APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点,仅供参考