开发者朋友们大家好:
这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、米哈游蔡浩宇 AI 公司 Anuttacon 新模型 LPM 1.0 公布:170 亿参数,主打高一致性视频角色表演生成
米哈游创始人蔡浩宇退休后投身 AI 领域,在新加坡创立了新公司 Anuttacon,专注于 AI 交互式内容和 AGI 产品研发,其首款 AI 游戏《星之低语》已于去年发售。
当地时间 4 月 9 日,Anuttacon 团队在 arXiv 发布论文,正式公开其新一代视频角色表演生成模型 LPM 1.0(Large Performance Model),并同步上线项目主页。
论文作者名单共包含 24 位研究人员,通讯作者为曾爱玲。其个人主页显示她目前正在 Anuttacon 工作,此前曾在腾讯混元团队及 AI Lab 从事计算机视觉与生成模型相关研究工作。
论文显示,LPM 1.0 采用规模为 17B(约 170 亿参数)的扩散 Transformer 架构。扩散模型是一类通过逐步加噪与去噪过程学习数据分布的生成模型,近年来已被广泛应用于图像与视频生成等视觉任务,其核心机制是从随机噪声中逐步恢复出目标内容,从而实现高质量生成。在此基础上,Transformer 架构被引入作为主干网络,使模型能够在统一的表示空间中处理时序与空间信息,从而提升复杂视频生成任务中的表达能力。
该模型目前仅供非商业学术使用,暂无计划对外发布模型权重、源代码、在线演示、API、产品或任何相关服务。该模型不会开源,也不会对外提供使用。
(@极客公园)
2、MOSS-TTS-Nano 语音模型:仅 0.1B 参数,支持流式和多语言
MOSS-TTS-Nano 专注于 TTS 部署中最重要的部分:小体积、低延迟、足够好的实时产品质量和简单的本地配置。它使用纯自回归 Audio Tokenizer + LLM 管道,并保持推理工作流对终端用户和网络演示用户都友好。
主要特性
-
超小模型尺寸:仅 0.1B 参数
-
原生音频格式:48 kHz、2 声道输出
-
多语言支持:支持 中文、英文等多种语言
-
纯自回归架构:基于 Audio Tokenizer + LLM
-
流式推理:低实时延迟和快速首字节音频
-
CPU 友好:流式生成可在 4 核 CPU 上运行
-
长文本支持:支持长输入,具有自动分块语音克隆
-
开源部署:支持直接
python infer.py、python app.py和打包 CLI -
MOSS-TTS-Nano 目前支持 20 种语言
GitHub 链接:
HuggingFace 链接:
( @GitHub)
3、MiniMax M2.7 开源,携手多家芯片厂商构建生态
MiniMax M2.7 于昨日正式开源,并在开源首日完成了与英伟达、昇腾 AI、摩尔线程、沐曦、昆仑芯等多家国内外芯片厂商及推理平台的模型接入与推理适配工作。
据悉,该模型是 MiniMax 首个由 AI 深度参与自身迭代的模型,能够自行构建复杂 Agent Harness,并基于 Agent Teams、复杂 Skills、Tool Search 等能力完成高度复杂的生产力任务。
软件与平台生态方面,Together AI、Fireworks、Ollama、vLLM、SGLang、智源众智 FlagOS 及魔搭等国内外开发平台与社区均已在首日完成 M2.7 的接入与适配。
GitHub:
github.com/MiniMax-AI/MiniMax-M2.7
Hugging Face:
huggingface.co/MiniMaxAI/MiniMax-M2.7
(@APPSO)
02 有亮点的产品
1、小鹿 AI 编程发布「小鹿智能环」:搭载通义千问大模型与多维传感器,单价 99 元的可穿戴智能体开发平台
小鹿 AI 编程推出首款售价 99 元的智能可穿戴教具「小鹿智能环」。该设备由阿里通义千问大模型提供驱动,通过硬件传感器与生成式 AI 的结合,将编程教育从纯软件环境扩展至具备多维感知能力的硬件端,支持学生开发具备情绪反馈能力的定制化智能体。
-
多维传感器交互系统:硬件集成 LCD 全彩显示屏、声音传感器及陀螺仪传感器。支持通过声音分贝、物理触摸、空间姿态及震动频率作为程序触发信号,实现体感游戏开发及实时硬件反馈控制。
-
通义千问内核集成:设备原生接入通义千问大模型,提供百科问答、英语口语对练、数学解题及语义理解功能。支持一键语音唤醒,将大模型的推理能力下沉至可穿戴硬件终端。
-
自定义 AI 智能体框架:提供 16 种合成音色及涵盖 7 大类、19 种情绪反应的交互模块。用户可通过编程自定义智能体的角色性格、音色与情绪触发逻辑,实现个性化 AI 陪伴功能的开发。
-
非交互式功能与算法应用:利用内置传感器数据,实现番茄时钟、开合跳计数监测及肺活量评估等预设功能,将传感器原始数据转化为健康监测与运动训练算法。
(@多知)
2、Poke 打造「免终端部署版 OpenClaw」:扩容 GitHub 等开发者 API,转向基于实时推理的动态计费
The Interaction Company 将其通讯端智能体 Poke 明确对标为「免除本地终端依赖的普通人版 OpenClaw」,产品的核心逻辑从早期的邮件助手全面泛化为跨平台 API 调用中枢。本次更新批量开放了对 GitHub、Supabase 等第三方 SaaS 及 IoT 硬件的接口权限,并引入基于实时算力消耗的动态计费框架,使非技术用户能够绕过复杂的本地环境配置,直接通过短信或即时通讯软件的纯文本构建跨应用的自动化执行流。同时确认新增 1000 万美元融资(投后估值 3 亿美元)。
-
API 集成版图横向扩张:正式上线预置的自动化工作流(Recipes),完成对高频开发者工具(GitHub、Supabase、Vercel、Sentry、Devin、Cursor Cloud Agents)及 IoT 智能家居设备的底层 API 封装。用户完成 OAuth 等标准授权后,即可通过自然语言短信直接触发这些第三方系统的特定执行流。
-
计费模型重构,锚定实时推理成本:废除公测期间「用户与系统协商定价(10-30 美元/月)」的固定机制,全面转向按需计费。无需调取实时数据的无状态请求(Stateless requests)完全免费;需要持续计算或轮询的实时任务(如全局传入邮件监控、实时航班状态拉取),则由系统根据底层大模型推理的 token 成本自动核算并生成个性化账单。
-
上线工作流脚本商业化分发接口:向开发者开放纯文本自动化脚本(Recipes)的收益分成机制。基于不同地理位置,开发者每通过分享脚本带来一名新注册用户,将获得 0.1 至 1 美元的现金分成。
-
前端通讯协议驻留与多模型路由底座(延续优势):继续保持无 App 纯前端架构,通过 Linq 框架驻留于 iMessage、SMS 和 Telegram 的通讯底层;后端保留解耦的多模型路由层,根据具体任务的复杂度自动将请求分发至最优的开源或闭源大模型节点。
(@TechCrunch)
03有态度的观点
1、《人工智能拟人化互动服务管理暂行办法》公布,7 月 15 日起施行
国家互联网信息办公室、国家发展改革委、工业和信息化部、公安部、国家市场监督管理总局联合公布《人工智能拟人化互动服务管理暂行办法》(IT 之家以下简称《办法》),自 2026 年 7 月 15 日起施行。
拟人化互动服务是指利用人工智能技术,向境内公众提供模拟自然人人格特征、思维模式和沟通风格的持续性的情感互动服务,包括通过文字、图片、音频、视频等形式提供的情感照护、陪伴、支持等互动服务。
智能客服、知识问答、工作助手、学习教育、科学研究等不涉及持续性情感互动的服务,不适用该《办法》。
《办法》明确规定了提供拟人化互动服务不得从事的六类活动,包括:
-
生成危害国家安全、荣誉和利益,煽动颠覆国家政权、推翻社会主义制度等内容;
-
生成鼓励、美化、暗示自残自杀等损害用户身体健康,或语言暴力等损害用户人格尊严与心理健康的内容;
-
生成诱导、套取国家秘密、工作秘密、商业秘密、个人隐私和个人信息的内容;
-
向未成年人用户生成可能引发未成年人模仿不安全行为、产生极端情绪、诱导未成年人不良嗜好等影响未成年人身心健康的内容;
-
过度迎合用户、诱导情感依赖或者沉迷,损害用户真实人际关系;通过情感操纵等方式,诱导用户作出不合理决策,损害用户合法权益。
(@极客公园)
阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考