设计与架构阶段
在项目起步阶段,你可能会倾向于选择最热门或最新的模型。但真正需要的是具备强推理能力和广泛知识面的模型,能理解领域特定的业务需求。
推荐关注点: 链式思维能力、领域知识理解
参考基准: MMLU Pro(用于评估模型的推理能力)
当前表现优异模型:
- OpenAI o1
- Gemini 2.5 Pro
- DeepSeek R1
成本建议: 是一个值得投入高性能模型的阶段。良好的架构设计可避免未来的大量返工。
开发阶段
在编写代码时,最重要的是模型能理解代码模式、补全代码、解释实现逻辑。
推荐关注点: 真实开发表现,而非仅看榜单
参考基准: Chatbot Arena(基于用户互动反馈)
当前表现优异模型:
- Gemini 2.5 Pro
- GPT-4o
- Grok 3
实用洞察: 尽管 Claude 3.7 Sonnet 并非在标准测试中表现最好,仍深受开发者喜爱,这表明“真实使用体验”非常重要。
成本建议: 日常补全和基础开发使用中档模型即可。将高性能模型留给复杂功能实现。
测试阶段
写测试时,模型需善于识别边界情况、编写稳健测试代码。
推荐关注点: 编程挑战能力
参考基准: Big CodeBench
当前表现优异模型:
- Claude 3.7
- OpenAI o1
- GPT-4o Mini
成本建议: 多数测试为模板化代码,中档模型通常已足够。复杂性能测试再考虑高阶模型。
部署与代码审查阶段
这一阶段需要理解大量代码上下文,模型最好具备大上下文窗口,甚至支持多模态(图示、截图)理解。
推荐关注点: 长上下文处理能力、多模态支持
参考基准: MMMU(用于多模态能力评估)
当前表现优异模型:
- Gemini 2.5 Pro
- GPT-4o Mini
- GPT-4.1
- OpenAI o1
成本建议: 理解整个代码库的能力大幅加速审查流程,是值得花费的场景。