开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@瓒an、@鲍勃
01 有话题的技术
1、Google DeepMind 升级 Kaggle Game Arena:新增狼人杀与扑克,Gemini 3 系列霸榜
Google DeepMind 更新了其独立公共基准测试平台 Kaggle Game Arena,在原有的国际象棋基础上,新增了「狼人杀(Werewolf)」和「扑克(Poker)」两款新游戏。此次更新引入了非完全信息博弈场景,意在评估 AI 模型在社交动态导航、风险计算以及不确定性环境下的决策能力。
Google DeepMind CEO Demis Hassabis 表示,AI 领域亟需更具难度和稳健性的基准来测试前沿模型的能力与一致性。虽然国际象棋能有效测试推理和战略规划,但它属于「完全信息游戏」。现实世界的决策往往基于不完整信息,因此新增的狼人杀和德州扑克将针对规划、沟通及不确定性下的决策制定提供新的客观衡量标准。
三大基准测试详情如下:
-
国际象棋(推理与规划):排行榜已更新至最新一代模型,目前 Gemini 3 Pro 和 Gemini 3 Flash 占据榜首。不同于依赖暴力计算的传统引擎 Stockfish,大语言模型通过模式识别和类似人类的「直觉」来缩减搜索空间,展示了基于棋子机动性、兵型结构等概念的战略推理能力。
-
狼人杀(社交演绎):这是该平台首个完全通过自然语言进行的团队游戏。模型需在信息不透明的情况下,通过对话识别真相或进行伪装。该项目不仅测试沟通、谈判等「软技能」,还作为代理安全研究的沙盒,评估模型检测操纵及应对欺骗的能力。Gemini 3 Pro 和 Gemini 3 Flash 目前在此项目中也位居前两名。
-
扑克(风险管理):该项目引入了风险量化维度。模型必须在运气成分之外,通过推断对手底牌并适应其打法来制定最佳策略。平台为此启动了一场 AI 扑克锦标赛,最终排行榜于 2 月 4 日决赛后公布。
为配合新基准发布,Google DeepMind 联合国际象棋特级大师 Hikaru Nakamura 以及扑克界知名人物 Nick Schulman、Doug Polk 和 Liv Boeree,于 2 月 2 日至 4 日在 Kaggle 官网进行为期三天的直播活动,对顶级模型之间的对决进行专家解说与分析。
相关链接:
( @GoogleDeepMind@X、@Google DeepMind Blog)
2、四步搭建音视频流水线:乐鑫 ESP-Capture 上线,支持自动格式协商
乐鑫科技昨天发布了专为 ESP32 系列芯片打造的多媒体捕获框架——ESP-Capture。该框架基于通用多媒体框架 esp-gmf 构建,将复杂的音视频采集、对齐、编码与封装逻辑整合为一套统一系统,解决了开发者在底层音视频处理中面临的碎片化难题。
作为一款轻量级多媒体采集组件,ESP-Capture 具有低内存占用和模块化设计的特点,能够满足音视频录制、AI 大模型输入、WebRTC 推流及远程监控等多种场景需求。其核心功能主要体现在以下四个方面:
-
自动构建流水线:框架能够主动探测输入设备(如摄像头)的原生输出格式与应用层目标格式(如 RGB565),自动识别不匹配问题并插入转换模块。开发者仅需声明最终格式,系统即可自动搭建最优数据通路,省去了繁琐的手动配置。
-
自动音画同步:针对嵌入式开发中常见的不同步痛点,ESP-Capture 内置了时钟同步机制。通过为每一帧数据生成 PTS(显示时间戳)并严格控制帧率,确保视频画面与音频信号精确对应,避免跳帧或错位。
-
本地存储与复用:内置通用 Muxer 模块,原生支持 MP4、TS 等主流格式,保证数据稳定写入。
-
一源多用架构:采用 Multi-Sink 多接收端设计,支持将一份原始数据分流至录像、屏显、AI 识别等不同分支,且全程共享内存,有效降低了硬件资源消耗。
此外,ESP-Capture 提供了高度灵活的扩展能力。在设备接入上,其统一接口兼容 DVP、UVC 设备及降噪后的麦克风音频;在处理流程中,支持插入自定义图像算法或音频滤镜;在输出端,内置 H264、OPUS 等主流编码器,并支持切片存储与流媒体传输。
开发者仅需通过创建数据源、打开实例、配置输出、启动获取四步,即可快速构建成熟的音视频应用,如语音助手、智能门铃及 AI 视觉产品。
GitHub:
(@乐鑫朋友圈)
3、ComfyUI 获 ACE-Step 1.5 首日支持:将商业级 AI 音乐生成带入消费级硬件
昨天,ComfyUI 官方宣布,开源音乐生成模型 ACE-Step 1.5 现已获得首日支持。此次更新将商业级音质引入本地设备,支持在消费级硬件上运行,生成一首完整歌曲的时间可控制在 10 秒以内。
ACE-Step 1.5 采用了创新的混合架构,其核心由负责歌曲结构规划的语言模型与专门处理音频合成的扩散 Transformer 组成。该模型利用思维链推理整合元数据、歌词与描述信息,引导扩散生成过程,从而产出连贯性更强的长篇音乐作品。
在性能表现与硬件适配方面,该模型具备以下特点:
-
极速生成效率:在 RTX 5090 显卡上,生成一首 4 分钟完整歌曲仅需约 1 秒;即使使用 RTX 3090,耗时也能控制在 10 秒以内。
-
低配置需求:仅需不到 4GB 显存即可运行,适配广泛的消费级硬件。
-
高音质标准:在标准评估指标中,其音乐连贯性评分达 4.72,超越多数商业音乐模型。
-
多语言支持:严格遵循 50 多种语言指令,其中中文、英语、日语及韩语等语种的支持效果尤为出色。
此外,ACE-Step 1.5 支持通过 LoRA 训练实现轻量化个性化。创作者仅需少量歌曲(甚至几十首)即可微调出符合特定风格的模型。由于全程在本地运行,用户完全拥有 LoRA 的所有权,无需担忧数据泄露。虽然音乐重构和片段修复功能目前暂未在 ComfyUI 中支持,但预计社区将很快实现跟进。目前,用户需将 ComfyUI 更新至 0.12.0 版本,即可在「模板库」中下载对应工作流进行体验。
(@ComfyUI 中文)
02 有亮点的产品
1、AI 开发平台「码上飞」实测:「打电话」即生成应用,或可解决四五线城市数字化痛点
一次在美甲店的偶然闲聊,暴露了线下小微商家面临的数字化困境:因无力承担高达两万三千元的小程序外包报价,店主只能长期忍受人工管理预约的低效与混乱。
这一真实痛点促使测评者对 AI 开发平台「码上飞」进行了深度实测,验证其是否真能通过语音交互打破技术与资金的壁垒。
该平台的特点在于通过语音交互完成应用开发。在美甲预约系统的实测中,测评者通过「打电话」的方式描述了营业时间、技师资历差异及复杂的阶梯定价逻辑。
测试结果显示,系统不仅精准识别了「30% 定金」等业务细节,还在数分钟内生成了包含瀑布流作品展示、分时段预约入口的前端界面,以及涵盖订单日历与技师管理的独立后台,实现了前后台功能的闭环。
测评者特别提到,其独有的「魔杖模式」支持点击即改,且支持一键发布为微信小程序,费用仅为传统外包的百分之一。
除基础预约功能外,测评者还测试了更复杂的场景:
-
AI 创意工具:仅耗时约七分钟,便生成了具备 AI 换装及视频生成功能的小程序,且支持完整的参数记录。
-
知识付费系统:在涉及支付、内容锁及学习进度追踪的逻辑中,平台在十分钟内完成了约 80% 的工作量,支付流程在预览环境下均可跑通。
报告指出,相比 Cursor 等面向程序员的工具,「码上飞」选择将技术复杂度彻底封装。正如其创始人武鑫所言,此类工具的应用场景更可能出现在数字化薄弱的四五线城市,让不具备编程能力的普通人也能以低成本拥有数字化工具。
(@特工宇宙)
2、AI 玩具也能线下交友:京东京造升级 JoyAI,支持 8 种方言与密语连接
2 月 4 日,京东京造旗下的 JoyInside 基于 JoyAI 大模型能力,宣布对首批核心 AI 产品进行功能升级,重点推出了「欢乐星球社交玩法」及「TTS 语音合成升级」。
此次更新标志着京东京造试图构建跨品类的智能硬件社交网络。在这一体系下,AI 毛绒玩具、智能闹钟、台灯及机器人等不同形态的设备已实现互联互通。官方设计了「线下面对面密语匹配」的连接方式,用户通过专属密语即可添加好友,进而实现设备间的语音留言和节日祝福传递。
在语音合成方面,升级后的功能主要聚焦于方言对话与智能唱歌,目前已覆盖四川话、东北话、粤语等八个地区的方言。这一改进被视为 AI 对「家庭情感联结」的支持:
-
长辈可通过熟悉的乡音与设备聊天,化解独处寂寞;
-
儿童则可跟随设备学习方言祝福语或共唱贺岁歌,完成音乐与语言的双重启蒙。
此外,京东京造还公布了「AI 玩具全家桶」方案,通过组合不同产品以适配多样化场景。例如,「唠唠鹦+圆月熊」组合侧重跨代互动,动物系列组合支持组队游戏,而盲盒与球球 JOJO 系列则分别针对情绪互动与情侣闺蜜场景。
值得注意的是,智能设备的社交功能此前主要由「小天才」儿童手表主导。小天才通过「碰一碰」的极简交互和封闭式社交圈建立了极高的行业壁垒,形成了排他性的竞争优势。
随着 AI 陪伴类产品进入爆发期,京东京造此举被视为打响了 AI 玩具领域的「社交第一枪」。行业关注的焦点在于,这种专属于 AI 玩偶间的社交模式,能否复制小天才的成功路径,为 AI 陪伴产品开启新的生命周期。
(@多知)
3、Talenpal 亮相:一款由前华为高管开发的无屏 AI 互动玩具
前华为、OPPO 及腾讯技术骨干联合打造了一款名为 Talenpal 的无屏 AI 玩具。该团队由曾负责华为手机和 OPPO 海外业务的马秀成,以及曾任歌尔声学 VP 的潘璇等核心成员组成。
两人均为父亲,创业灵感源于对孩子成长需求的观察:3-6 岁是想象力发展的关键期,无屏化设计能避免屏幕成瘾,并通过声音留白和即时互动激发儿童想象力。
Talenpal 外观酷似一座小房子,带有微型提示屏,需配合获赠的玩偶使用。 孩子将不同 IP 形象的玩偶(如长颈鹿、小猎豹)放置于楼阁上,即可触发特定的故事内容;按下烟囱则可启动 AI 对话。
该产品主攻美国市场,不仅需满足严格的法案合规与数据安全要求,更依托独家 IP 资产构建竞争壁垒。其内容体系结合了海外绘本版权与国内团队的再生产,针对不同玩偶设定了专属世界观(如情绪认知、社交教育)。
技术实现上,Talenpal 在美国本地部署服务器,直接调用当地大模型,并结合本地知识库降低延迟。为保障儿童安全,团队构建了三层防护体系:
-
底层模型:选用对儿童最安全的美国大模型,并进行青少年友好化限制。
-
本地 RAG:基于大量故事素材进行精简和加工,优化知识库。
-
智能体调优:每个公仔智能体均有差异化世界观,并由 AI 工程师与美国专家共同调试。
商业模式方面,Talenpal 采用「剃须刀+刀片」策略:硬件作为基础平台,通过不断推出新公仔(定价 10-15 美元)来解锁新内容,从而延长用户生命周期并实现持续变现。目前,该产品已在北美市场推出,并获得中东等地区的关注。
(@硬氪)
4、ElevenLabs 完成 5 亿美元融资:红杉领投,估值飙升至 110 亿美元
语音 AI 公司 ElevenLabs 今日宣布,在由红杉资本领投的新一轮融资中筹集了 5 亿美元。红杉资本此前曾通过这家初创公司的上一次二级市场要约收购进行投资。红杉资本合伙人安德鲁·里德将加入该公司董事会。
这家初创公司现在的估值是 110 亿美元,是其 2025 年 1 月最近一轮融资时估值的三倍多。
本轮融资获得了新老投资者的广泛支持。现有投资者 a16z 将投资额增加了三倍,Iconiq 则将投资额增加了一倍;BroadLight、NFDG、Valor Capital、AMP Coalition 和 Smash Capital 等也参与了跟投。新投资者包括 Lightspeed Venture Partners、Evantic Capital 和 Bond。
公司透露,将在 2 月下旬公布一批可能涉及战略合作的投资者名单。截至目前,ElevenLabs 累计融资额已超过 7.81 亿美元。
关于资金用途与未来规划,公司表示将把资金投入研究与产品开发,并计划进军印度、日本、新加坡、巴西和墨西哥等国际市场。联合创始人 Mati Staniszewski 表示,ElevenLabs 将开发超越语音领域的智能体,并整合视频功能。今年 1 月,该公已宣布与 LTX 合作制作音视频内容。
Staniszewski 指出,这笔资金将支持公司突破纯语音领域,帮助创作者将音频技术与视频及智能体相结合,使企业能够构建具备对话及执行操作能力的智能体。
在财务表现方面,ElevenLabs 展现出强劲增长势头。截至去年底,其年度经常性收入(ARR)达到 3.3 亿美元。Staniszewski 此前接受采访时透露,公司仅用五个月时间就将 ARR 从 2 亿美元提升至 3 亿美元区间。
目前,语音 AI 模型供应商正成为市场焦点。今年 1 月,竞争对手 Deepgram 融资 1.3 亿美元,估值达 13 亿美元;Google 近期也从 Hume AI 招募了包括其 CEO 在内的顶尖人才。
( @TechCrunch)
03 有态度的观点
1、黄仁勋:AI 不会取代软件,市场恐慌「不合逻辑」
据财联社报道,英伟达 CEO 黄仁勋近日发言,认为「人工智能会取代软件及其工具」的观点并不成立。
他强调,人工智能的核心在于更高效地使用现有软件工具,而非重建整个软件生态。
黄仁勋指出,上周 Anthropic 发布升级版聊天机器人后,市场对软件行业商业模式被颠覆的担忧加剧,导致美股软件板块遭遇大幅抛售。
伦敦证券交易所集团下跌 13%,汤森路透下跌 16%,Legalzoom.com Inc。 下跌 20%。
在上述背景下,黄仁勋强调人工智能与软件工具之间的互补关系。
他表示,人工智能系统的设计目标是与现有工具协同工作,而不是替代它们。他认为,软件工具本身就是为复杂操作而生,因此将继续成为先进人工智能生态的重要组成部分。
他直言:「认为软件行业的工具会被人工智能取代,这是世界上最不合逻辑的事情。」
另据彭博社报道,昨天,英伟达 CEO 黄仁勋在休斯顿的一场会议上表示,当前在全球多地给电网带来压力的人工智能算力扩建,最终将推动能源成本下降。
今年以来,随着 AI 模型规模持续扩大、数据中心建设加速,外界对能源消耗的担忧不断升温。
黄仁勋认为,市场力量正迫使产业加大对电力基础设施的投资,而这类投入将反过来提升能源供应能力,并推动电网现代化。
黄仁勋指出,随着能源生产与分配环节引入更多人工智能技术,整体效率将随时间提升。
他强调「能源成本将会下降」,并表示算力需求的增长正在促使企业和政府加速扩建电力容量,这将带来长期结构性改善。
( @APPSO)
阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考