经过数月关于某机构正在开发更强大AI大语言模型的传闻后,该机构今日以更正式的名称GPT-5.5发布了其最新产品。该模型在通用大语言模型中重新夺回领先地位,在某个基准测试上以微弱优势击败了竞争对手的最新公开产品。
核心技术定位
该机构研究副总裁表示:“无论是在基准测试、合作伙伴反馈还是我们自身经验上,这无疑是我们最强的编程模型。”该机构将GPT-5.5定位为智能与计算机操作系统及专业软件堆栈交互方式的根本性重新设计。
该机构联合创始人兼总裁强调:“这个模型真正特别之处在于,它能用更少的指导完成更多工作。使用起来直观得多。它可以审视模糊问题并判断下一步需要做什么。”
编程与系统构建能力
该模型在以下方面表现出色:
- 代码编程:极其擅长编程任务
- 计算机操作:擅长更广泛的计算机工作
- 科学研究:适用于智能瓶颈明显的应用场景
技术架构创新
模型的核心聚焦于“代理式”性能,特别是在编程、计算机使用和科学研究方面。与需要细粒度逐步提示的前代模型不同,GPT-5.5被设计为能够自主处理混乱的多部分任务。它擅长在线研究、调试复杂代码库以及在不同文档和电子表格间切换,无需人工干预。
最显著的技术飞跃之一是模型效率的提升。该模型在保持与前代相同每token延迟的同时,提供了更高级别的智能。这是通过深度硬件-软件协同设计实现的。该模型运行于某机构的GPU系统上,利用AI自身编写的自定义启发式算法,在GPU核心间划分和平衡工作负载。据报道,这项优化将token生成速度提升了20%以上。
基准测试表现
在Terminal-Bench 2.0(测试模型在沙箱终端环境中导航和完成任务的能力)上,GPT-5.5达到了82.7%的准确率。在内部编程基准测试中,该模型显著优于前代,同时使用了更少的token。
| 基准测试 | GPT-5.5 | 竞品模型A | 竞品模型B | 受限模型C* |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7 | 69.4 | 68.5 | 82.0 |
| OSWorld-Verified | 78.7 | 78.0 | — | 79.6 |
| CyberGym | 81.8 | 73.1 | — | 83.1 |
| SWE-bench Pro | 58.6 | 64.3 | 54.2 | 77.8 |
安全与许可框架
该模型引入了“网络防御可信访问”概念。由于模型现在能够识别和修补高级安全漏洞,该机构对普通用户实施了更严格的“网络风险分类器”。对于合法的安全专业人员,该机构提供专门的“网络宽容”许可证,允许经过验证的防御者使用不受限制的模型版本,减少对安全相关提示的拒绝。
该模型在生物和网络安全能力方面被归类为“高风险”。API部署需要比面向消费者的产品更严格的安全保障措施。FINISHED