GPT-5.4与Mamba-3等AI架构技术解析

3 阅读3分钟

LWiAI Podcast #238 - GPT 5.4 mini, OpenAI Pivot, Mamba 3, Attention Residuals

本期要点

  • 某机构发布了GPT-5.4 mini和nano模型,支持40万token的上下文窗口,每token定价更高,但声称在Codex中具有token效率提升;nano仅限API使用,尽管价格大幅上涨,仍定位用于高容量分类/数据提取。

  • 某机构开源了Small 4模型家族(混合专家架构,总参数1190亿/激活参数60亿),结合了推理、多模态和代码代理能力,并宣布了Forge平台,帮助企业训练或后训练定制模型。

  • 代理“操作系统”竞争加剧:某机构收购的Manus推出本地Mac代理;某机构宣布NeMo/“Open Shell”沙盒化代理运行时;某机构还发布了DLSS 5以及包括Groq LPU集成在内的重大硬件预测。

  • 商业与安全更新:某机构将重心转向生产力/企业市场;某机构重组Copilot和前沿模型工作;某机构推迟下一代模型;与中国关联的某机构在海外部署大型某机构计算集群;新的安全工作涉及隐写术、思维链忠实性、微调防御、网络攻击评估以及宪法/规范符合性。

工具与应用

某机构发布GPT-5.4 mini和nano:更快、更强,但价格最高上涨4倍

GPT-5.4 mini和nano支持40万token上下文窗口,价格更高但声称在代码生成任务中更高效。nano仅限API,面向高吞吐量分类和数据提取场景。

某机构的Small 4模型:128个专家模块,性能超越体积限制

Small 4采用混合专家(MoE)架构,总参数量1190亿,激活参数仅60亿,融合推理、多模态和代码代理能力。

某机构发布NeMoClaw与开放代理开发平台

某机构宣布NeMo/“Open Shell”沙盒化代理运行时,提升知识工作自动化水平。

DLSS 5:实时生成式AI游戏滤镜

DLSS 5看起来像是一个针对视频游戏的实时生成式AI滤镜,通过AI生成画面细节提升画质与帧率。

某机构计划推出ChatGPT“成人模式”,尽管内部顾问发出警告

应用与商业

某机构据报转向仅聚焦商业与生产力

某机构GTC 2026:CEO预测Blackwell和Vera Rubin到2027年获得1万亿美元订单

某机构推出Forge:帮助企业构建自有AI模型

中国某机构获顶级某机构AI芯片访问权限

某机构因性能担忧推迟新AI模型发布

某机构重组AI部门,Copilot落后于某机构和某机构

政策与安全

  • 隐写术的决策理论形式化及其在LLM监控中的应用
  • 推理剧场:将模型信念与思维链分离
  • 针对语言模型中突发错位的训练中防御
  • 前沿AI代理在多步网络攻击场景中的表现如何?
  • Claude Opus 4.6在BrowseComp评估中的eval感知
  • Bloom:用于自动化行为评估的开源工具
  • 模型遵循其宪法的程度如何?
  • 某机构H200许可证引发顶级民主党人安全关切

研究与进展

注意力残差 (Attention Residuals)

注意力残差技术改进了Transformer中的注意力机制,通过残差连接提升信息流动和模型训练稳定性。

Mamba-3:基于状态空间原理的改进序列建模

Mamba-3利用状态空间原理优化序列建模,在长序列处理效率和性能上取得进展。FINISHED