超小语音模型 MOSS-TTS-Nano：0.1B 参数，支持流式和多语言；《人工智能拟人化互动服务管理暂行办法》7 月 15 日起施行丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、米哈游蔡浩宇 AI 公司 Anuttacon 新模型 LPM 1.0 公布：170 亿参数，主打高一致性视频角色表演生成

米哈游创始人蔡浩宇退休后投身 AI 领域，在新加坡创立了新公司 Anuttacon，专注于 AI 交互式内容和 AGI 产品研发，其首款 AI 游戏《星之低语》已于去年发售。

当地时间 4 月 9 日，Anuttacon 团队在 arXiv 发布论文，正式公开其新一代视频角色表演生成模型 LPM 1.0（Large Performance Model），并同步上线项目主页。

论文作者名单共包含 24 位研究人员，通讯作者为曾爱玲。其个人主页显示她目前正在 Anuttacon 工作，此前曾在腾讯混元团队及 AI Lab 从事计算机视觉与生成模型相关研究工作。

论文显示，LPM 1.0 采用规模为 17B（约 170 亿参数）的扩散 Transformer 架构。扩散模型是一类通过逐步加噪与去噪过程学习数据分布的生成模型，近年来已被广泛应用于图像与视频生成等视觉任务，其核心机制是从随机噪声中逐步恢复出目标内容，从而实现高质量生成。在此基础上，Transformer 架构被引入作为主干网络，使模型能够在统一的表示空间中处理时序与空间信息，从而提升复杂视频生成任务中的表达能力。

该模型目前仅供非商业学术使用，暂无计划对外发布模型权重、源代码、在线演示、API、产品或任何相关服务。该模型不会开源，也不会对外提供使用。

（@极客公园）

2、MOSS-TTS-Nano 语音模型：仅 0.1B 参数，支持流式和多语言

MOSS-TTS-Nano 专注于 TTS 部署中最重要的部分：小体积、低延迟、足够好的实时产品质量和简单的本地配置。它使用纯自回归 Audio Tokenizer + LLM 管道，并保持推理工作流对终端用户和网络演示用户都友好。

主要特性

超小模型尺寸：仅 0.1B 参数
原生音频格式：48 kHz、2 声道输出
多语言支持：支持中文、英文等多种语言
纯自回归架构：基于 Audio Tokenizer + LLM
流式推理：低实时延迟和快速首字节音频
CPU 友好：流式生成可在 4 核 CPU 上运行
长文本支持：支持长输入，具有自动分块语音克隆
开源部署：支持直接 python infer.py、python app.py 和打包 CLI
MOSS-TTS-Nano 目前支持 20 种语言

GitHub 链接：

github.com/OpenMOSS/MO…

HuggingFace 链接：

huggingface.co/OpenMOSS-Te…

( @GitHub)

3、MiniMax M2.7 开源，携手多家芯片厂商构建生态

MiniMax M2.7 于昨日正式开源，并在开源首日完成了与英伟达、昇腾 AI、摩尔线程、沐曦、昆仑芯等多家国内外芯片厂商及推理平台的模型接入与推理适配工作。

据悉，该模型是 MiniMax 首个由 AI 深度参与自身迭代的模型，能够自行构建复杂 Agent Harness，并基于 Agent Teams、复杂 Skills、Tool Search 等能力完成高度复杂的生产力任务。

软件与平台生态方面，Together AI、Fireworks、Ollama、vLLM、SGLang、智源众智 FlagOS 及魔搭等国内外开发平台与社区均已在首日完成 M2.7 的接入与适配。

GitHub:

github.com/MiniMax-AI/MiniMax-M2.7

Hugging Face:

huggingface.co/MiniMaxAI/MiniMax-M2.7

(@APPSO)

02 有亮点的产品

1、小鹿 AI 编程发布「小鹿智能环」：搭载通义千问大模型与多维传感器，单价 99 元的可穿戴智能体开发平台

小鹿 AI 编程推出首款售价 99 元的智能可穿戴教具「小鹿智能环」。该设备由阿里通义千问大模型提供驱动，通过硬件传感器与生成式 AI 的结合，将编程教育从纯软件环境扩展至具备多维感知能力的硬件端，支持学生开发具备情绪反馈能力的定制化智能体。

多维传感器交互系统：硬件集成 LCD 全彩显示屏、声音传感器及陀螺仪传感器。支持通过声音分贝、物理触摸、空间姿态及震动频率作为程序触发信号，实现体感游戏开发及实时硬件反馈控制。
通义千问内核集成：设备原生接入通义千问大模型，提供百科问答、英语口语对练、数学解题及语义理解功能。支持一键语音唤醒，将大模型的推理能力下沉至可穿戴硬件终端。
自定义 AI 智能体框架：提供 16 种合成音色及涵盖 7 大类、19 种情绪反应的交互模块。用户可通过编程自定义智能体的角色性格、音色与情绪触发逻辑，实现个性化 AI 陪伴功能的开发。
非交互式功能与算法应用：利用内置传感器数据，实现番茄时钟、开合跳计数监测及肺活量评估等预设功能，将传感器原始数据转化为健康监测与运动训练算法。

（@多知）

2、Poke 打造「免终端部署版 OpenClaw」：扩容 GitHub 等开发者 API，转向基于实时推理的动态计费

The Interaction Company 将其通讯端智能体 Poke 明确对标为「免除本地终端依赖的普通人版 OpenClaw」，产品的核心逻辑从早期的邮件助手全面泛化为跨平台 API 调用中枢。本次更新批量开放了对 GitHub、Supabase 等第三方 SaaS 及 IoT 硬件的接口权限，并引入基于实时算力消耗的动态计费框架，使非技术用户能够绕过复杂的本地环境配置，直接通过短信或即时通讯软件的纯文本构建跨应用的自动化执行流。同时确认新增 1000 万美元融资（投后估值 3 亿美元）。

API 集成版图横向扩张：正式上线预置的自动化工作流（Recipes），完成对高频开发者工具（GitHub、Supabase、Vercel、Sentry、Devin、Cursor Cloud Agents）及 IoT 智能家居设备的底层 API 封装。用户完成 OAuth 等标准授权后，即可通过自然语言短信直接触发这些第三方系统的特定执行流。
计费模型重构，锚定实时推理成本：废除公测期间「用户与系统协商定价（10-30 美元/月）」的固定机制，全面转向按需计费。无需调取实时数据的无状态请求（Stateless requests）完全免费；需要持续计算或轮询的实时任务（如全局传入邮件监控、实时航班状态拉取），则由系统根据底层大模型推理的 token 成本自动核算并生成个性化账单。
上线工作流脚本商业化分发接口：向开发者开放纯文本自动化脚本（Recipes）的收益分成机制。基于不同地理位置，开发者每通过分享脚本带来一名新注册用户，将获得 0.1 至 1 美元的现金分成。
前端通讯协议驻留与多模型路由底座（延续优势）：继续保持无 App 纯前端架构，通过 Linq 框架驻留于 iMessage、SMS 和 Telegram 的通讯底层；后端保留解耦的多模型路由层，根据具体任务的复杂度自动将请求分发至最优的开源或闭源大模型节点。

(@TechCrunch)