蚂蚁入股 AI 玩具跃然创新，后者首家线下门店将开业；MiniMax Coding Plan 升级为 Token Plan，支持全模态模型调用丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、Luma AI 正式发布多模态模型 Uni-1，推理视觉同步

Luma AI 正式发布多模态模型 Uni-1，该模型通过单一架构融合了逻辑推理与视觉生成能力，在 RISEBench推理基准测试及人类偏好评测中均排名第一，被视为 Nano Banana 系列的有力挑战者。

该模型基于「统一智能」架构，旨在将逻辑推理与视觉想象能力结合在单一系统中。

Uni-1 采用仅解码器自回归 Transformer 架构，通过单一交错序列同时处理文本与图像的输入及输出，实现了思考与像素生成的同步进行。

与此同时，该模型还具备常识场景补全、空间推理、参考引导生成及多风格适应等核心能力。

根据官方提供的数据，Uni-1 在 RISEBench 推理基准测试中达到了最先进（SOTA）水平，并在人类偏好 Elo 评测中的总评、风格与编辑以及参考生成类别中排名第一。

参考链接：

lumalabs.ai/uni-1

（@橘鸦 Juya）

2、Willow 发布自研语音模型：零编辑听写性能达 OpenAI 两倍

语音 AI 初创公司 Willow 今日宣布其最新一代模型取得重大突破。测试数据显示，该模型在零编辑语音听写（Zero-edit Voice Dictation）性能上表现强劲，识别准确度达到 OpenAI、Apple、Dragon 及 Deepgram 等主流竞品的 2 倍。

针对「用户在发送语音转文字信息前平均需手动修改 3-4 次」的行业痛点，Willow 新模型旨在实现「即说即发」的无缝体验，大幅降低了对键盘校对的依赖。目前，该模型已在 Willow Voice 应用内上线，标志着边缘侧高精度自然语言处理在交互效率上的进一步演进。

( @WillowVoiceAI@X)

02 有亮点的产品

1、MiniMax 将 Coding Plan 升级为 Token Plan，支持全模态模型调用

MiniMax 宣布将旗下 Coding Plan 全面升级为 Token Plan，定位为「全球首个支持全模态模型的订阅计划」。

新版 Token Plan 向 Plus / Plus-极速版及以上套餐用户新增了多模态模型的调用支持，覆盖 Hailuo 视频模型、Speech 语音模型、Music 音乐模型和 Image 图像生成模型。多模态模型的赠额不占用编程模型用量，套餐赠额内调用无需额外付费。

对于有批量生产需求的专业开发者和企业用户，MiniMax 还推出**「语音资源包」与「视频资源包」增购选项**，支持旗舰语音模型 Speech 2.8 及视频模型 Hailuo 2.3 / 2.3-Fast，官方称相较单独调用可节省最多 20% 的使用成本。

(@APPSO)

2、蚂蚁集团入股跃然创新，后者首家线下门店将开业

近日，AI 玩具公司跃然创新（Haivivi）主体深圳跃然创新科技有限公司发生工商变更，新增蚂蚁科技集团股份有限公司全资子公司上海云玚企业管理咨询有限公司为股东，同时注册资本增至 316.52 万元。

2024 年 7 月底，跃然创新正式推出了第一款 AI 玩具产品 BubblePal（AI 对话交互式挂件玩具）。截至 2025 年 6 月，BubblePal 的销量已突破 25 万台。

2025 年 8 月以来，跃然创新推出第二代 AI 玩具产品——基于端到端技术的 CocoMate 系列产品，其中就包括重磅 IP 奥特曼以及首个原创 IP「泡泡」。

2026 年 1 月，跃然创新正式发售旗下第三代旗舰新品——「光之召唤」奥特曼 AI 互动对话器。据介绍，该产品支持多种佩戴方式，并搭载 AI 互动对话、无限距离组队对讲、感应式 AI 主题游戏、语音电话四大核心功能。

此前，跃然创新已获得多轮投资。其中，2025 年 8 月，跃然创新宣布完成 2 亿元 A 轮系列融资，由中金资本旗下基金、红杉中国、华山资本、愉悦资本领投，招银国际等共同参投，Brizan Ventures 等老股东持续加注。这也是迄今为止 AI 玩具领域最大的一轮融资。

COO 高峰曾在 2025 年 6 月的一次活动中表示：「在 AI 玩具这个行业里，我们跟其他家最大的不同是，我们不只是在做面向孩子的教育用品，而是想提供给全龄段用户更好玩的产品。」

跃然创新的首家线下门店即将开业，地点位于北京市朝阳区蓝色港湾，当前正在招募线下店员。

（@多知）

3、AI 穿戴式拍摄迷你智能相机 Amkov AIBOX Cyan，免手持、场景化

Amkov AIBOX Cyan 是香港团队在 Kickstarter 推出的全球首款融合 AI 视觉识别、实时多语言翻译与第一人称穿戴式拍摄的迷你智能相机，属于穿戴式智能硬件的品类创新产品：：其核心定位为 「日常便携的 AI 随行助手 + 免手持拍摄设备」，瞄准跨境旅行、国际商务、轻量化内容创作等场景。

作为产品的核心差异化模块，AI 功能并非泛化的语音助手，而是与视觉拍摄深度绑定的场景化交互，基于自研算法 + ChatGPT 技术实现，且仅处理用户实时拍摄 / 拾音的原创数据，无第三方预生成内容，隐私性有保障。

语音 AI 助手：支持语音唤醒或物理按键激活，免指令自然对话，可解答日常问题（天气、常识等），支持 7 种语言、4 种音色自定义，对话 10 秒无操作自动结束，交互过程可一键切换拍摄模式
视觉 AI 识别：相机成为 AI 的「眼睛」，可实时识别场景 / 物体（植物、标识、菜单）、估算食品热量、解读街标 / 文字，直接通过语音或 APP 反馈结果，实现「所见即问即答」，填补了传统翻译机 / 相机的视觉交互空白

翻译功能是产品的核心实用模块，区别于传统便携翻译机，其与录音、拍摄功能深度结合，并支持内容的后期智能化处理，适配两大核心场景：

会议 / 访谈模式：实时拾音并翻译 139 种语言，支持 30/60/120 分钟长时录制，录制内容可自动生成会议摘要、思维导图，并支持多倍速播放、编辑保存，解决国际商务的记录与翻译痛点；
面对面交流模式：一键切换双方语音输入，自动检测语言并语音播报翻译，也可静音在 APP 查看文字，适配跨境旅行、线下沟通的即时翻译需求。

传统迷你相机仅聚焦拍摄，便携翻译机无视觉识别与拍摄能力，AI 手环 / 耳机仅能实现简单语音交互，而 AIBOX Cyan 将三者深度融合，实现「记录世界的同时理解世界」，填补了多模态穿戴式智能硬件的市场空白。

（@AI 智能硬件—智方）

4、乐奇 Rokid 在「带显示的 AI+AR 眼镜」赛道中，统治全球市场

近日，全球知名科技市场研究机构 Omdia 发布最新数据：2025 年全球 AI 眼镜出货量达870 万台，同比增长322% 其中，尽管 Meta 以 85.2%的份额继续统治「无显示」AI 眼镜市场，但在一个更关键的细分赛道——「带显示的 AI+AR 眼镜」中，中国厂商却悄然完成了反超，市场占比高达 71%。

而站在这个细分赛道顶端的，是来自中国杭州的乐奇 Rokid。

它率先将「AR 显示」与「AI 能力」进行了有机融合，并精准踩中了两个关键产业节奏点。

第一个节奏点，是显示功能的爆发临界点。 Omdia 数据显示，支持显示功能的智能眼镜市场份额已从 2024 年的 3.3%提升到 2025 年的 8.4%，总量达 73 万台，同比增长超过 150%。这意味着，市场正在用脚投票：当 AI 眼镜从「尝鲜」走向「常用」，显示功能正在成为分水岭——没有显示，眼镜只能「听」答案；有了显示，眼镜才能真正「看」世界。

第二个节奏点，是中国产业链已具备「降维打击」能力。 当大厂还在用「做手机」的思路堆砌 Type-C 接口、把眼镜做成笨重的「头戴式手机」时，乐奇 Rokid 已经联手国内供应链，死磕出 49 克的轻量化机身和行业首创的磁吸式充电胶囊。

它还是全球首款接入谷歌 Gemini 大模型的 AI 眼镜，也是全球唯一可以接入 OpenClaw 的智能眼镜。用户可以在千问、DeepSeek、豆包等主流大模型之间自由切换，甚至能通过灵珠平台的「自定义智能体」功能，接入本地 NAS 上私有的 AI 模型，或直接调用自己写的 Python 脚本。这种开放带来的直接优势，是满足了用户的多样化需求。

对于极客和开发者来说，这副眼镜不再是一个封闭的消费电子产品，而是一个可以自主编程的开放平台。

（@智东西）