如何选择大语言模型（LLM）：选型思路、常见模型与代码质量量化大家都是如何选择Agent所使用的LLM的呢？是懒得选，比

大家都是如何选择Agent所使用的LLM的呢？是懒得选，比如直接用cursor的auto模式？还是会进行详细的前期调研？那又该如何调研呢？又或者说可以根据哪些指标量化LLM生成代码质量的好坏呢？

一、我要说的是，其实「没有 universally 意义上最好的模型」

不同 LLM 在推理深度、代码能力、上下文长度、多模态、工具调用、延迟、价格、合规与部署形态上取舍不同。任何选型的本质都是：在约束条件下最大化任务成功率与可维护成本。

那么我们就需要理一下我们的需求，再选模型：

维度	你要问自己的问题
任务类型	是闲聊、摘要、翻译，还是写代码、做 Agent、处理长文档？
上下文规模	单次输入是否超过几万～百万 token？是否需要整库索引？
延迟与吞吐	在线交互能否接受数秒级首 token？批处理可否异步？
成本	按 token 计费还是按年/月订阅？输出 token 往往比输入贵得多。
合规与数据	是否允许数据出境？是否必须私有化部署（开源权重 / 本地推理）？
生态	是否深度绑定某 IDE（如 Cursor、Copilot）、某云（Vertex、Azure OpenAI）？

二、市面上常用的模型家族（部分，排名不分先后）

1. Anthropic — Claude 系列

常见定位：长文理解与写作、复杂指令遵循、代码与重构场景口碑较好；不同档位（如 Haiku / Sonnet / Opus）通常对应「更快更省」到「更强更贵」
适用：代码助手、文档密集型任务、需要较强「说明理由与分步」的场景

2. OpenAI — GPT（Codex）系列

常见定位：通用能力强，工具调用与生态（ChatGPT、API、部分第三方插件）成熟
适用：通用对话、企业集成。

3. Google — Gemini 系列

常见定位：多模态与长上下文（部分版本强调超大窗口）
适用：图文混合、长文档等
注意：Flash 类通常偏速度与成本，Pro / Ultra 偏能力

4. 其他

如 Grok、 Qwen（通义千问）、DeepSeek 等，国内大模型更适合内网部署、成本可控、可微调。

部分模型 API 参考价格（美元 / 百万 tokens，Standard 档为主）

以下为各厂商公开 API 文档中的标价，便于粗算成本；以下数字随官方调整而变化，仅供参考哈

Anthropic Claude（官方定价）

模型	输入 ($/MTok)	输出 ($/MTok)	备注
Claude Sonnet 4.6 / 4.5	3	15	编程与 Agent 常用档；Batch API 约为输入 1.5 / 输出 7.5（约五折）
Claude Opus 4.6 / 4.5	5	25	更强推理；
Claude Haiku 4.5	1	5	高吞吐、低成本

OpenAI GPT（官方定价）

模型（示例）	输入 ($/MTok)	输出 ($/MTok)	备注
gpt-4o	2.50	10.00	多模态通用；另有 Batch / Priority 等档位
gpt-4.1	2.00	8.00	—
gpt-5.4	2.50	15.00	旗舰迭代；同页含 mini / nano / pro 等多档
gpt-5.2	1.75	14.00	—
gpt-5-mini	0.25	2.00	轻量
gpt-4o-mini	0.15	0.60	低成本场景

Google Gemini（Gemini API 定价）

模型（示例）	输入 ($/MTok)	输出 ($/MTok)	备注
Gemini 3.1 Pro Preview（短提示档：不超过约 200k tokens）	2.00	12.00	更长提示时输入/输出单价更高（同页分段计价）
Gemini 3 Flash Preview	0.50（文本/图/视频）	3.00	平衡速度与能力
Gemini 3.1 Flash-Lite Preview	0.25	1.50	高量、低成本

产品与 API 的区别

ChatGPT / Claude 网页版 / Gemini 应用：多为订阅（如按月），与上表 按 token 的 API 计价不同。
Cursor、IDE 插件：通常打包在订阅中或按厂商协议，不一定等于上表单价，比如cursor pro 年包是$20 / mo.。

三、如何「系统化」选择：

定义成功标准：例如「单测通过率」「CR 可合并率」「P95 响应时间」「每月 API 预算上限」
- CR 可合并率：Claude Code、OpenAI Codex、GitHub Copilot 等都会用 合并率 衡量表现，例如：Claude Code PR 合并率约 59%，OpenAI Codex 约 82.6%
准备小样本基准集：10～50 个与你业务高度相关的真实任务（脱敏），覆盖典型与边界情况
多模型盲测或 A/B：同一提示词与同一评测脚本，对比正确性、可维护性、成本与延迟
分层路由：简单补全/格式化 → 小模型或本地模型；架构设计、疑难 Bug → 大模型或更强档位
持续回归：模型升级后重复跑基准集，避免「静默退化」

四、如何量化「生成代码」的质量

代码质量不能只凭主观感觉，建议结合自动化指标与人工评审，并区分「单次生成」与「进入仓库后的长期成本」。

1. 功能正确性（最硬核）

单元测试 / 集成测试通过率：在沙箱中运行测试套件；可报告 pass_rate、失败用例分类（逻辑错误、边界、并发等）。
黄金用例集（Golden tasks）：来自生产或近生产的小任务，验收标准明确（输入输出、性能、副作用）。

2. 可维护性与安全

静态分析与 Lint：如 ESLint、Ruff、mypy、Sonar 等；统计告警数量、严重级别、新增债务。
类型与接口契约：TypeScript/静态语言下，「无类型逃逸」「公共 API 变更」可量化。
安全扫描：依赖漏洞（SCA）、密钥泄露检测、危险 API 使用（eval、拼接 SQL 等）。

3. 行业基准（横向对比模型能力，仅供参考）

公开基准可帮助理解模型相对强弱，但不应该作为在实际工作中表现的评判标准：

HumanEval / MBPP：AI 代码能力的 “高考” 和 “基础会考”，函数级小任务补全（经典但偏窄）
SWE-bench 等：衡量 LLM 能否成为 合格软件工程师 的终极试金石：它不只考 “会不会写代码”，更考 “能不能在真实项目里解决问题

使用方式：把基准当作粗筛，最终以你团队的真实任务集为准，毕竟高考不等于工作能力一定强~

4. 人机协同指标

Code Review 结果：一次 PR 中「需大改 / 小改 / 可直接合」的比例；评审耗时。
返工率：合并后短期内因缺陷回滚或 hotfix 的比例。
开发者主观评分：可维护性、可读性、与项目风格一致性。

5. 成本与效率

单位任务总成本：API 费用 + 人工审查时间折算。
迭代轮数：从提示到可合并 PR 的平均往返次数。

量化方式汇总表

类别	指标示例	说明
正确性	测试通过率、Golden task 通过率	权重高
质量	Lint/静态分析、复杂度、重复代码	防技术债
安全	SCA、密钥与注入类规则	生产必备
效率	首 token 延迟、总耗时、迭代轮数	影响体验与成本
人的反馈	CR 修改密度、合入难度	真实体验也很重要

五、结语

选型 LLM 不是直接选大家觉得好的，需要拿自己实际的业务场景去测试，用起来好才是真的好。
还有就是AI在飞速发展，模型名称与能力每天都可能变化，固定内部基准集与流水线，每隔一段时间测评一次，及时调整才是合理的。

如何选择大语言模型（LLM）：选型思路、常见模型与代码质量量化