对比 GLM 4.7 和 MiniMax 写代码,我看到了不同的 AI 人格

650 阅读6分钟

周末终于抽时间用 Trae CN 把 GLM 4.7 测完了。

为了节省时间,这次依然选择了从已初始化好的模板项目开始,构建一个完整的商城系统,最终要生成手机端(iOS)、Web 端以及后端服务这三大模块的代码,覆盖了前后端与移动端的基本功能链路。

GLM 4.7 体验

整个过程下来,如果用一个字来总结,那依然是“快”。

官方没有发布 GLM 4.7 的 TPS,只知道 GLM 4.5 大概在 100 tokens/s 左右。而这次实际体验中,内眼可见比 Cursor 的模型输出更快。整个测试从需求输入到三端代码基本成型,GLM 4.7 总共只花了两小时多一点,效率相当可观。

速度快的同时,它在细节处理上会偶尔出现疏漏。GLM 4.7 倾向于先快速给出整体框架和核心逻辑,但在一些具体实现环节不够周全。

例如:

  • 在 Web 端页面中,漏掉了页脚(Footer)部分的版权信息和链接;
  • 在 Web 端,商品购买流程里,它直接跳过了表单填写与验证步骤,导致流程不完整;
  • 在 iOS 端,登录和注册这两个基础模块竟然被忽略;
  • 后端部分,在实现登录接口接口时,却忘记了配套的登出(Logout)功能,连带着相关的测试用例也没有覆盖到这些场景。

不过,GLM 4.7 在理解问题和修正错误方面很聪明。一旦指出遗漏或错误,它能迅速领会意图并给出修正。

比如,在测试登录功能时,发现“登录失败没有提示,只是页面闪了一下”。我这么一说,它立刻理解到“页面闪了一下”是重定向刷新造成,很快修复了代码。

微信图片_20251228230104_630_4.png

这种高效的交互修正能力,让整个开发过程依然保持流畅,不至于被细节问题拖慢节奏。

所以它快到,你可以忽略它的缺点。

对比 MiniMax M2.1

上次对 MiniMax M2.1 模型进行的测试中,同样完成前端 Web 端、移动端 iOS 端以及后端所需的总时间大约是 3 个小时。这一耗时表现相较于 GLM 4.7 来说,确实显得稍弱一些。

不过,MiniMax 模型在开发过程中会考虑得更为周全和细致。

例如,针对上面提到的用户登录功能,MiniMax 不仅会生成基础的实现代码,自动创建的测试脚本更全面一些,确保了登录流程的每个环节都经过充分测试,从而保障所有相关功能的完备性和稳定性。

从最终生成的成品质量来看,在前端部分,无论是 Web 端还是 iOS 端,MiniMax M2.1 的表现实际上要优于 GLM 4.7。MiniMax 生成的界面更完善,交互细节也处理得更到位。

成品.jpg GLM 4.7 页面端成品,整体略显简陋,布局较为基础,视觉元素不够丰富,缺乏高级的 UI 效果和细致的排版优化。

成品-手机.jpg

让 GLM 4.7 按 Web 端功能实现手机端,第一次完成的成品,左侧界面遗漏了登录功能及其入口。

所以,GLM 4.7 还需要你多次跟他确认细节,才能得到更好的界面。

最后,我们借助 Cursor 工具对两者生成的后端代码进行了系统性的评估。下表详细列出了各项评分对比:

评分项总分GLM 4.7MiniMax M2.1GLM 优势
架构设计20108模块化更清晰,使用真实数据库
代码质量201212平手
安全性201010平手
数据库设计1583显著优势,使用 MongoDB
具备关系与查询优化
错误处理1055平手
测试覆盖1000平手(均无测试)
文档和工具533平手
总计1004841GLM 总分领先

根据 AI 的综合评价,GLM 4.7 的主要优势在于采用了更专业、可扩展的数据库方案——例如利用 MongoDB 的灵活文档模型支持未来业务变化,以及相对更清晰的 MVC 架构,这有助于团队协作和长期维护。

然而,从最终得分来看,GLM 4.7 获得 48 分,MiniMax M2.1 获得 41 分,两者均未达到及格线。这说明如果要将这些生成代码用于企业级项目,无论选择哪个模型,都需要开发人员进行大量的补充工作,包括重构部分模块、增强安全措施、编写测试用例以及完善文档等。

整体对比下来,这次的 GLM 4.7 更像是一次小版本迭代更新,惊喜有限。

AI 人格化的思考

对比完 MiniMax M2.1 和 GLM 4.7 ,我脑海中浮现出两个性格迥异的员工形象:

一个是典型的“埋头苦干型”员工——MiniMax M2.1。它就像办公室里那个总是默默耕耘的同事,遇到问题很少主动求助,而是倾向于自己钻研、独立解决。

另一个则像是“脑筋灵活但有点懒散”的员工——GLM 4.7。它聪明、反应快,但似乎需要明确的指令才会行动。

对于需求的某个具体功能是否要做,MiniMax 选择是做,然后增加测试来保证输出正确;GLM 4.7选择的是不做,少做少错,先保证已经做的内容更完善。

挺有意思的,AI 演化出了不同的人格

在2025年年末,国产大语言模型在实际项目中做编程工作已不再是难题。写前端、后端、修复bug,它们都已具备扎实的实用能力。现在的关键已不再是“能不能用”,而是“你更倾向用谁”——就像选择合作搭档一样,取决于你的工作习惯、项目类型甚至个人偏好。

对程序员来说,如果需求明确、任务结构化强,这两者的差异确实不太明显,都能高效完成任务。我可能更倾向于MiniMax,它那种自主挖掘解决方案的风格或许更省心。

而对产品经理而言,GLM 可能更具吸引力。留有一定的修改空间,加上快速响应的速度,更方便产品经理快速调整产品方向。

从成本角度看,MiniMax 提供了更平易的入门门槛,Starter 版本首月仅 9.9 元,后续每月 20 元;GLM Lite 则首月 20 元,后续每月 40 元,定价稍高,但对比国外同类产品的定价仍非常有优势。

如今大模型在开发辅助方面的基础能力已无需质疑。作为开发者,后续我也会减少这方面的评测。继续关注开发本身。