OpenAI全新旗舰款模型GPT4.1系列

191 阅读1分钟

OpenAI此次发布了全新旗舰系列模型GPT4.1系列,包含了GPT4.1,GPT4.1 mini和GPT4.1 nano。接下来说一下GPT4.1系列的指标评测和计费情况。

1. 指标对比

- 长文本能力

本次升级的一个重要特色就是上下文从128K提升到了1M,并且上下文能力有显著提升。

image.png

- 智力水平与响应速度

GPT4.1与GPT4.1 mini相比GPT-4o系列有着更好的智力能力

image.png

  • 代码能力

官方展示GPT4.1系列在SWE-bench Verified和Aider's polyglot测试集中的表现。

在SWE - bench Verified测试中,会给模型提供一个代码仓库和问题描述,模型必须生成一个补丁来解决该问题。

image.png

在Aider's polyglot基准测试中,模型通过编辑源文件来解决来自Exercism的编码练习,允许重试一次。“Whole”格式要求模型重写整个文件,这可能会比较耗时且成本较高。“Diff”格式要求模型编写一系列的搜索/替换块。

image.png

- 指令遵循能力

在指令遵循能力方面GPT4.1略逊于GPT4.5及o3-mini-high,但是比GPT4o强很多,并且GPT4.1 mini在指令遵循能力方面与GPT4.1相当

image.png

  image.png

image.png

- 视觉能力

image.png

image.png

image.png

2. 价格对比

整体来说,性能方面GPT4.1和GPT4.1 mini是全方面包围GPT4o和GPT4o mini。接下来对比GPT4.1相比其他模型的价格。

image.png

openai #gpt4o #大语言模型 #ai工具