混合Mamba-Transformer MoE模型与AI代理技术进展本期播客深入探讨了Nvidia开源的Nemotron

LWiAI 播客 #237 - Nemotron 3 Super, xAI 重组, Anthropic 诉讼, 研究动态!

第237期节目，总结并讨论上周的AI大新闻！

录制于2026年3月13日

主持：Andrey Kurenkov 和 Jeremie Harris

欢迎将您的问题和反馈通过邮件发送至 andreyvkurenkov@gmail.com 或 hello@gladstone.ai

本期内容:

工具与应用:
- Perplexity 发布了 “Personal Computer”，一个基于Mac的本地AI代理，定位为比OpenAI的计算机使用代理更安全的替代方案。
- Anthropic 为GitHub PR代码审查功能增加了定价选项，价格为15至25美元。
- Cursor 推出了基于触发器的 “Automations” 功能，用于实现始终在线的编码代理。
模型与开源:
- ChatGPT 引入了交互式数学/科学可视化功能。
- Anthropic 在聊天中增加了交互式图表/示意图功能。
- Nvidia 发布了其1200亿参数的 Natron Free Super 混合 Transformer–Mamba 隐式MoE模型的开放权重，该模型专为Blackwell GPU以4位精度原生训练。
商业与政策:
- 因海关封锁和国内芯片竞争压力，Nvidia 停止了对中国的 H200 生产。
- xAI 出现了联合创始人离职潮。
- Anthropic 预览了用于企业采购的 Claude 应用市场。
- Yann LeCun 的 aMI 实验室融资13亿美元。
- 人形机器人制造商 Sanctuary 估值达到11.5亿美元。
- Anthropic 就 “供应链风险” 的认定起诉某机构，相关备忘录要求在180天内移除。
研究与安全:
- 研究涵盖了模型抵抗激活引导、思维链控制的局限性、推理扩展提升网络任务成功率、低概率风险行为、SWE-bench的弱点、多模态预训练、长上下文RNN内存缓存、上下文并行训练效率、用于CUDA内核优化的强化学习，以及通过潜在内省检测概念注入。

感谢我们当前的赞助商： Box - 访问 Box.com/AI 了解更多信息 ODSC AI - 访问 odsc.ai/east 并使用优惠码 LWAI 享受ODSC AI East 2026 门票额外15%折扣 Factor - 访问 factormeals.com/lwai50off 并使用代码 lwai50off，可获得50%折扣及一年的免费早餐

时间戳：

(00:00:10) 介绍 / 闲聊
(00:01:23) 回应听众评论

工具与应用

(00:02:06) Perplexity 的 Personal Computer 将您的闲置Mac变为AI代理 | The Verge
(00:04:22) Anthropic 推出代码审查工具，以应对AI生成代码的激增 | TechCrunch
(00:08:08) Cursor 正在推出一种新型的代理编码工具 | TechCrunch
(00:11:14) ChatGPT 现可创建交互式视觉内容，帮助理解数学和科学概念 | TechCrunch
(00:11:56) Anthropic 的 Claude AI 现在可以用图表、示意图等视觉内容进行回复 | The Verge

项目与开源

(00:13:54) 介绍 Nemotron 3 Super：一个用于代理推理的开放混合 Mamba-Transformer MoE 模型 | Nvidia 技术博客

应用与商业

(00:21:22) Nvidia 停止 H200 生产，因中国转向华为 AI 芯片
(00:28:33) 另一位 xAI 联合创始人已离职，另一位表示将要离开 | Business Insider
(00:34:04) Anthropic 的 Claude 应用市场允许客户购买第三方云服务 | TechRadar
(00:37:57) Yann LeCun 的 AMI 实验室筹集10.3亿美元以构建世界模型 | TechCrunch
(00:44:52) 人形机器人制造商 Sunday 为实现家用机器人，估值达到11.5亿美元 | TechCrunch

政策与安全

(00:46:09) Anthropic 就“供应链风险”标签起诉某机构 | 纽约时报 + Google 和 OpenAI 刚刚提交了一份支持 Anthropic 的法律简报
(00:53:24) 内部备忘录命令军事指挥官从关键系统中移除 Anthropic AI 技术 | CBS News
(00:58:15) 语言模型中对激活引导的内生抵抗
(01:06:27) 推理模型难以控制其思维链
(01:09:52) “这意味着数据中心需要导弹防御”：无人机袭击引发对海湾地区作为AI超级大国地位的质疑
(01:14:57) AI网络任务中推理扩展的证据：增加评估预算揭示更高成功率
(01:18:24) 前沿模型可能以低概率采取行动

研究与进展

(01:24:20) 研究笔记：许多通过SWE-bench的PR不会被合并到主分支
(01:28:26) [2603.03276] 超越语言建模：多模态预训练的探索
(01:40:09) 内存缓存：具有增长内存的RNN
(01:48:47) Untied Ulysses：通过头部分块实现内存高效的上下文并行
(01:58:41) CUDA Agent：用于高性能CUDA内核生成的大规模代理强化学习
(02:08:57) 潜在内省：模型可以检测到先前的概念注入
(02:16:45) 强化学习的物理学：奖励寻求涌现的简易缩放定律FINISHED