GPT-5.4与Mamba-3等AI架构技术解析本文讨论了GPT-5.4 mini和nano的上下文窗口与定价策略、Mi

LWiAI Podcast #238 - GPT 5.4 mini, OpenAI Pivot, Mamba 3, Attention Residuals

某机构发布了GPT-5.4 mini和nano模型，支持40万token的上下文窗口，每token定价更高，但声称在Codex中具有token效率提升；nano仅限API使用，尽管价格大幅上涨，仍定位用于高容量分类/数据提取。
某机构开源了Small 4模型家族（混合专家架构，总参数1190亿/激活参数60亿），结合了推理、多模态和代码代理能力，并宣布了Forge平台，帮助企业训练或后训练定制模型。
代理“操作系统”竞争加剧：某机构收购的Manus推出本地Mac代理；某机构宣布NeMo/“Open Shell”沙盒化代理运行时；某机构还发布了DLSS 5以及包括Groq LPU集成在内的重大硬件预测。
商业与安全更新：某机构将重心转向生产力/企业市场；某机构重组Copilot和前沿模型工作；某机构推迟下一代模型；与中国关联的某机构在海外部署大型某机构计算集群；新的安全工作涉及隐写术、思维链忠实性、微调防御、网络攻击评估以及宪法/规范符合性。

GPT-5.4 mini和nano支持40万token上下文窗口，价格更高但声称在代码生成任务中更高效。nano仅限API，面向高吞吐量分类和数据提取场景。

Small 4采用混合专家（MoE）架构，总参数量1190亿，激活参数仅60亿，融合推理、多模态和代码代理能力。

某机构宣布NeMo/“Open Shell”沙盒化代理运行时，提升知识工作自动化水平。

DLSS 5看起来像是一个针对视频游戏的实时生成式AI滤镜，通过AI生成画面细节提升画质与帧率。

注意力残差技术改进了Transformer中的注意力机制，通过残差连接提升信息流动和模型训练稳定性。

Mamba-3利用状态空间原理优化序列建模，在长序列处理效率和性能上取得进展。FINISHED