阶跃星辰开源多模态模型 Step3‑VL‑10B,小模型实现大模型能力;华为或将发布首款 AI 眼镜,支持同传拍照 丨日报

0 阅读13分钟

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@瓒an、@鲍勃

01有话题的技术

1、阶跃星辰开源 Step3‑VL‑10B:10B 模型对标 200B 能力

昨天,阶跃星辰宣布正式开源旗下 10B 参数量多模态模型 Step3‑VL‑10B。该模型在多项核心基准测试中达到同规模 SOTA 水平,部分能力甚至超越 10–20 倍体量的大模型。

Step3‑VL‑10B 主打「小模型实现大模型能力」,在视觉感知、逻辑推理、数学竞赛题、多模态对话等任务中表现突出。

阶跃星辰称,Step3‑VL‑10B 的性能已接近甚至超越部分百亿级开源模型(如 GLM‑4.6V 106B‑A12B、Qwen3‑VL‑Thinking 235B‑A22B),并在部分场景中达到顶级闭源旗舰模型(如 Gemini 2.5 Pro、Seed‑1.5‑VL)水平。

官方强调,该模型的关键突破来自三项核心设计:

  • 全参数端到端多模态联合预训练:在 1.2T 高质量多模态数据上训练,实现视觉与语言的深度对齐;

  • 大规模多模态强化学习:经历超过 1,400 次迭代,使模型在识别、推理与对话能力上持续提升;

  • 并行协调推理机制:通过并行探索与证据聚合提升复杂任务的准确度,尤其在数学推理、OCR、计数与空间拓扑任务中效果显著。

Step3‑VL‑10B 同时提供 SeRe(顺序推理)与 PaCoRe(并行推理)两种范式,覆盖 STEM 推理、OCR、GUI Grounding、空间理解与代码等多项能力维度。

当前,Step3‑VL‑10B 已开放 Base 与 Thinking 两个版本,社区可在 HuggingFace 与 ModelScope 获取模型并进行微调。

项目主页: stepfun-ai.github.io/Step3-VL-10…

Hugging Face: huggingface.co/collections…

ModelScope: modelscope.cn/collections…

论文链接: arxiv.org/pdf/2601.09…

(@阶跃星辰、@APPSO)

2、showlab 开源 whisperVideo:集成 SAM3 与 TalkNet 实现长视频「音视对齐」的说话人转录

showlab 近期开源了名为 whisperVideo 的项目,专门致力于解决长视频场景下「谁在说话」的身份归属难题。该工具打破了传统方案仅依赖音频的局限,通过融合视听双重特征,实现了语音内容与画面特定人脸的精准对齐。

为了突破纯音频方案在多人混响或近距离交谈时常见的识别漂移问题,whisperVideo 构建了一套紧密的多模态级联架构。它集成了 WhisperX 负责语音转录、Pyannote.audio 处理声纹分离,并引入 SAM3 进行人脸分割以及 TalkNet 判定主动说话人。这种组合拳方式,确保了机器能像人类一样同时「听」和「看」,从而做出更准确的判断。

针对小时级素材中常见的跨场景挑战,工具特别引入了「长时身份一致性」机制。利用视觉嵌入与轨迹聚类技术,系统能在漫长的视频时间轴上记住每一张脸,确保同一说话人的 ID 在不同场景切换中始终保持稳定。

在工作流设计上,whisperVideo 追求全自动化体验。内置的 SceneDetect 能够自动进行场景切割与分段处理,无需人工干预即可完成时间戳、文本与视觉 ID 的三方对齐。最终生成的成果不仅包括带说话人 ID 的字幕,还支持可视化的面板模式,并将底层数据以 。pckl 格式开放给开发者。

目前,项目已在 GitHub 开源,需使用 CUDA GPU 环境,依赖 HuggingFace Token 调用 Diarization 模型,支持 Python 命令行一键推理。

GitHub: github.com/showlab/whi…

( @aigclink@X)

3、Bolna 获 630 万美元种子轮融资:自研 SLM 语音智能体,支持「印式英语」混说

总部位于班加罗尔的初创公司「Bolna」近日完成了由 General Catalyst 领投的 630 万美元种子轮融资。这家公司致力于通过自研的专用小模型(SLM)技术,打破多语言环境下的自动化通信瓶颈。

为了适应印度极其复杂的语言生态,Bolna 构建的语音智能体不仅将端到端响应延迟控制在 500 毫秒以内,更实现了深度的本地化适配。它能够流畅处理包括印地语、泰米尔语在内的 10 余种本土语言及 50 多种地区口音,甚至针对印度特有的语言混合现象,专门优化了对「印式英语(Hinglish)」的语义理解与生成能力。

在技术架构上,Bolna 摒弃了昂贵的通用大模型方案,转而采用针对事务性查询优化的 SLM 与智能路由架构。这种策略有效平衡了计算成本与响应速度,使其更适合大规模商业落地。配合其提供的无代码控制台,企业可自主设计并监控智能体。目前,该平台的日呼叫处理量已从 1,500 通激增至 20 万通以上,广泛应用于购物车挽回、货到付款确认及招聘筛选等场景。

平台现已正式上线,主要面向印度企业提供订阅制的自助服务。

( @AI Tech Suite)

02有亮点的产品

1、消息称华为首款 AI 眼镜将在上半年发布:搭载鸿蒙 OS,支持同传翻译与拍照

1 月 20 日多家媒体消息,华为的第一款「AI 眼镜」暂定在今年上半年推出,支持拍照和音频,鸿蒙系统 + 跨端无缝协同,同传翻译等功能。 AI 眼镜被誉为「下一代 AI 终端超级入口」,已然是大厂必争之地,百度、小米、阿里、理想等早已进场,并推出了 AI 拍照眼镜,字节也即将推出 AI 眼镜,作为国内消费类智能终端龙头的华为自然不会落后于人。

据 @数码闲聊站 爆料,华为 AI 眼镜将采用鸿蒙 OS 系统与轻量化设计,内置 3 块锂电池,支持跨端无缝协同,进一步拓展使用场景。并提供流光银、钛银灰、摩登黑三款配色,支持拍照、拍视频、音频播放以及同声传译等功能。

虽然目前具体细节尚未公布,但结合华为在 AI 技术领域的探索,预计将内置华为 AI 助手小艺,产品可能涉及 AI 识物、智能场景推荐等功能。

经查询发现,华为曾推出带有音频功能的智能眼镜,主打听音乐、打电话、健康播报等。如今随着 AI 的兴起,智能眼镜行业也纷纷上马 AI,以及自带摄像头、显示屏的 AI 眼镜也不断推新。

据 IDC 预测,智能眼镜产品成为 2025 年消费电子赛道的黑马,相应产品在中国市场出货量预计达到 290.7 万台,同比增长 121.1%。业内人士普遍认为,这缘于技术突破、市场需求释放以及产业链成熟等多重因素。

汇丰控股认为,智能眼镜市场仍处于加速扩张阶段。分析师预计,智能眼镜的用户规模将在未来十多年内迎来爆发式增长,到 2030 年代末将达到 2.89 亿人,较 2025 年的 1500 万用户增长超过 18 倍。

(@即智 Ultra、@IT 之家)

2、MiniMax 推出「Agent 实习生」,AI-native Workspace 全面升级

昨天,MiniMax 官宣,AI-native Workspace 迎来两项核心升级,进一步推动 AI 深度嵌入真实工作场景,并面向用户开放限时免费体验。

  • 桌面端应用正式上线: 用户可在本地环境中指定 Workspace 作为工作空间与上下文,使 AI 能够直接理解本地文档、代码仓库、邮件与日程,从而构建一个专属于个人的智能工作环境。

  • 推出「专家 Agents」能力: 用户可构建在特定领域达到「95 分甚至 100 分」水平的专业智能体。这类 Agent 能够在复杂任务链路中稳定执行、主动判断并长期协作。

公司内部数据显示,「Agent 实习生」在过去数周已被接近 100% 的员工使用,并在运维场景中承担了约 80% 的查 Bug 工作量。

MiniMax 表示,AI-native Workspace 标志着 Agent 从「被动执行指令」向「主动感知环境」的形态演进。

公司认为,未来的 Agent 将具备长期记忆、完整职业上下文与跨系统感知能力,成为用户的长期工作伙伴,而非一次性工具。

目前,MiniMax 已开启专家 Agents 的限时免费体验。用户可通过 Web 端直接试用,也可通过官方体验链接获取桌面端安装包。

体验地址: agent.minimaxi.com/

( @APPSO)

3、Crow 发布 AI 智能体框架:支持 OpenAPI 与 MCP 协议,实现「对话即 UI」交互

Crow 近期推出了一套专为 SaaS 产品打造的 AI 智能体基础设施,旨在通过「对话即 UI」的理念重构软件交互模式。该工具的核心逻辑在于将传统的点击操作转化为自然语言指令流,通过接入 OpenAPI 规范或 MCP 协议,使智能体不仅能回答问题,更能直接触发后端 API 调用及前端 UI 导航,从而实现对软件功能的深度控制。

为了解决生成式 AI 不可控的难题,Crow 引入了名为「Journeys」的结构化工作流。开发者可以针对取消订阅、创建报表等特定业务场景,定义确定性的引导路径,确保智能体在执行敏感操作时严格遵循预设的逻辑分支。配合支持文件与文档集成的 RAG 管道,智能体还能充分理解产品特定的业务逻辑与私有数据。

在开发与运维层面,Crow 提供了生产级的观测指标,能够详细追踪每一条指令对应的工具调用路径。其低代码部署方案仅需嵌入单行 Script 标签,官方宣称这能将传统长达半年以上的自研周期缩短至一周以内,并支持与 Claude Code 或 Cursor 等工具集成。目前该产品已正式上线,开发者项目可免费试用,同时针对中大型企业提供了定制化方案。

( @Y Combinator Launch)

4、Thread 发布 Voice AI:实现 MSP 电话自动化分拣与实时工单同步,单人效能提升 30%

Thread 宣布其专为托管服务提供商设计的 Voice AI 正式商用。该产品旨在终结传统 IVR(交互式语音应答)系统的僵化体验,通过语音智能体接管电话接入、分拣与派发的全流程,将高成本的电话渠道整合进结构化的自动化运维体系中。

AI Attendant 与 Overflow Agent 双引擎驱动:

  • AI Attendant:取代传统 IVR,能够即时接听电话并识别来电者身份。它不仅能进行自然的语音交互,还能在后台实时创建工单、匹配技术人员,并完成「热切换」,确保客户在转接给真人时无需重复复述问题。

  • Overflow Agent:专为下班后或线路繁忙场景设计。它能拦截进入语音信箱的电话,自动收集关键信息并进行分类;遇到 P1 级紧急事件时,可直接升级并呼叫待命团队,消除了「下班后盲区」。

Voice AI 的核心价值在于将非结构化的语音高效转化为结构化数据。系统不仅能根据通话内容自动填充工单的标题、类别、优先级和解决摘要,还引入了「自动时间条目」功能,可依据通话时长直接生成计费记录。据官方数据统计,这一特性为每张工单平均节省了 19 分钟的处理时间,从而推动单一技术人员的日均通话处理量从 8-12 通显著提升至 14-20 通。

在生态兼容性方面,该方案作为 Thread AI Service Desk 平台的重要组成部分,已与 ConnectWise、Autotask 和 HaloPSA 等主流 PSA 系统实现了原生集成。这意味着所有通话数据都会实时转化为结构化文档,并无缝同步至企业现有的工作流中,从而确保了整个服务链条的完整性与可追溯性。

据 Thread 统计,通过消除手动记录和人工轮班需求,该系统可使响应速度提升 5 倍,平均解决时间缩短 78%。目前该服务已正式上线。

相关链接: www.getthread.com/voice-ai

( @Mansfield News Journal)

03有态度的观点

1、谷歌前 CEO 施密特:欧洲要么投资开源 AI,要么依赖中国模型

1 月 20 日,据外媒报道,谷歌前 CEO、科技投资人埃里克 · 施密特 (Eric Schmidt) 周二表示,欧洲必须投资建设自己的开源 AI 实验室,并解决能源价格飙升的问题,否则很快就会发现自己对中国的模型产生依赖。 施密特周二在达沃斯世界经济论坛表示:「在美国,企业基本上正在转向闭源,这意味着这些技术将被购买、授权等等。而与此同时,中国在做法上基本是开放权重、开源的。除非欧洲愿意为欧洲自己的模型投入大量资金,否则欧洲最终将会使用中国的模型。」

目前,许多热门 AI 模型都是闭源的,比如谷歌的 Gemini 和 OpenAI 的 ChatGPT,这意味着这些公司不会向外界提供底层代码供下载或审查。虽然这种方式能为用户带来更顺畅、更统一的使用体验,但通常成本更高、灵活性也更低。中国在所谓「开放权重」模型的开发方面处于领先地位,这类模型具有更高的透明度。

为了在开发更强大 AI 模型和智能体的全球竞赛中具备竞争力,欧洲还需要解决高企的能源价格问题,并建设更多可用于训练这些技术的数据中心。施密特曾联合创办一家数据中心公司,致力于应对这类基础设施巨大的能源需求。他也对美国 AI 发展对电力供应的影响表示担忧。

(@IT 之家)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点,仅供参考