本系列博客为记录各个 AI Coding Agent 在不同任务下的对比, 每期进行综合评分排名, 评分维度可能包括:
- 逻辑正确程度
- UI 精美程度(如果有)
- 开发体验(报错次数是否少)
- 一些别的维度, 视具体任务而定
每一项满分 10 分, 最后会给出一个综合评分排名.
参赛的选手包括:
- Claude
- GPT
- Gemini
- Composer (Cursor 自研的一个模型, 速度极快)
- Kimi
- Qwen
每一期不一定全部选手参赛.
声明: 本系列偏向娱乐性质, 单次任务的测试方差较大, 最后的排名不代表各个模型真正的能力 (虽然大趋势上应该是比较能说明梯度情况的). 如需真正模型评分和排名, 请参考专业机构.