2025使用AI Coding 生产代码和实际工作的一些体验,评测,思考,实践(一)

302 阅读8分钟

2025使用AI Coding 生产代码和实际工作的一些体验,评测,思考,实践(一)

各种工具类型的体验记录,会随体验更新和使用情况也会不定期更新
所以,文章内容也将会是动态的

摘要

  • AI Coding
  • Vibe Coding
  • SDD(Special-Driver Development)
  • OpenSpec
  • Vibe Coding + Vide SDD
  • AI Coding 路径展望: Base Temple + MCP(or Skills)

体验篇

感谢 AI Coding , 感谢 Vibe Coding 概念的认知强化

对于技术一线从业者和技术玩家,很容易会有两种感受

  1. 要不失去最初的兴趣,
  2. 要不新玩具体验之后的懈怠,

Vibe Coding (氛围式编程),这一概念的强化就非常有用了。

这一概念非常有助于清楚的提示你自己,你在用 AI Coding 在干什么。

几个观念:

  1. AI Coding 确实是Coding 的生产力提效工具
    • 对于目标领域技术上的熟手。是真正确实在提效。
    • 对于二把刀和糙哥们,容易增加致命的自信和幻觉。
  2. 时刻不要忘了 "Vibe Coding"
  3. 要清楚 AI Coding 的边界和基于概率统计的原理,和传统代码模板引擎确实是不一样的,怎么互补,可以去思考和实践
  4. 上高度,就最好看看最近非常烧脑但非常有用的“强化学习之父”-Richard Sutton 的对大模型的模仿缺陷和对AGI应该是基于理解和持续经验学习的展望
  5. SDD,规范驱动开发对AI Coding的推进作用,怎么高估都不过份

一些已经有了实际生产意义的AI Coding Tools 的时间线

先不谈较早的cursor的时间线,
据说是2025年1月出的trae,
2月claude code预览版,
5月claude code正式版,
然后5-7,8月国内厂商批量推出代理型ai coding工具,

但我是8,9月份才开始体验代理型工具,有些体会, 5月份之前,我曾经听人说,几个小时就能出一个生产原型,我是不太信的,因为也体验过web版大模型出代码的效果,
感觉大多数大模型产出code片段是可以的,但离工程化还是不够;
可以谈到工程化的claude 网页版,能出一些app 原型和整体工程的代码下载,但也感觉针对的工程类型有限和是另一种网页产出代码片段的整合而已。

但是体验过终端代理型的claude code之后,感觉不一样了,然后又继续体验其他的ide代理型工具,对比之后,感觉需要说一说了,

这些工具已经确实可以用在第一线生产,至少可以作为主力工具了。

但对于糙手和二把刀,效率之外,“快“”方便”可能会给使用者带来的一种一时的快乐幻觉,对使用者个人的长期进步反而有害,

因为会让处于幻觉中的人停止对基本功的训练和进步,变得更懒,从而更快的被AI替代。

也有几个关键问题,

例如技术人员是否会被AI代替?

AI生产力目前有没有可能已经可以替换掉多数初级技术人员的讨论,

还有一个关键问题代码大模型和传统代码模版引擎的差别有没有本质区别

都放在文章尾部总结一下。

评测篇

下面说说我最近在使用几个最新的AI编程工具的体验。

工具体验列表

使用和测试过的工具和代码大模型

终端代理类型 - console 类型

  • claude code
  • qwen cli

IDE代理类型 - ide 类型

  • ali qoder
  • tencent codebuddy
  • bytedance trae
  • baidu comate

在线web代理类型 - web 类型

  • manus

code-llm 代码大模型

  • chatglm-4.5
  • qwen3

以前简单体验过又值得一提的

  • IDE代理类型 - ide 类型
    • cursor
  • 补全型插件助手类型 - plugin 类型
    • copilot github产品
    • codegeex 智谱产品
    • lingma 通义产品
    • other
  • 在线大模型服务直接提供的code辅助生成
    • 国内
      • deepseek
      • doubao
      • kimi
      • qwen
      • zhipu
    • 国外
      • gemini

      • chatgpt

      • groq

      • claude

    • 没体验过但依然值得提到的
      • windsurf
      • v0
      • augment code
      • other

工具体验记录(偏前端,后端后续总结)

个人总结

  • 也许目前的环境,个人感觉可能ali qoder算是我用到过的最为合适的工具了。
  • 很多ai coding工具,后端方面的支持普遍比较好前端方面对react的支持比较好,对vue的支持不太好
  • 原因我感觉还是和前端方面的vue的作为训练数据的数量和质量比较好的代码仓库没有react的多
  • manus,claude code+国内代码大模型 都还有更多的可解决问题域的优劣情况分布非常明显的问题

使用claude code+chatglm4.5 AI Coding生成代码的一些Bug记录

  • 生成vue3代码,使用tailwind4,代码依然使用tailwind3的写法,如果不清楚tailwind4和tailwind3的差异,让大模型自己排错,是个大问题
  • 生成vue3代码,使用framer-motion,代码引入framer-motion的方式是react版的写法
  • ...
  • 修复后,不报错,能跑,但tailwindcss4的样式依然没有生效。
  • 转用ali qoder用同样的提示词来生成工程,qoder的方式是调用vue的官方工具来生成工程,再逐步按要求来添加,但代码的初期bug也很多,修复麻烦度比claude code调用chatglm4.5生成的要麻烦。
  • 综上,claude code很强质量对代码大模型的依赖也很强,所以,使用ai coding,不用手写一行代码,对于实现已经确定相关领域的代码训练数据已经很成熟和高质量的话,是成立的,但是之外,就不要盲目乐观了

使用manus 生成代码的一些Bug记录

好像只对react类型的前端代码支持比较好,能一次生成后基本不需要排错,别的暂没比较

使用 ali qoder 生成代码的一些Bug记录

要求使用tailwind4时,对vue3,react类型的前端代码生成都有些问题, 直到指定使用react-nextjs类型模版生成代码,才不会刚生成就需要排错

使用bytedance trae 生成代码的一些Bug记录

生成代码速度时间比较慢, 相对例如qoder生成前后端代码,30分钟左右, 而trae生成前后端代码,也许是我直接使用"build with mcp"模式的原因,前端代码生成后进入大模型的代码bug检测和修复过程,漫长的1个半小时后,告诉我还有几十个bug,只好停止。。。 而且trae对提示词的理解,有的理解不到位,有的理解的倒是很好

使用tencent codebuddy 生成代码的一些Bug记录

初用很惊艳,之后修改和提新的要求时,会发觉不太像AI

使用baidu comate 生成代码的体验

一言难尽,作为ide类型编码工具,输入提示词后,还是和web版在线大模型一样,返回各个页面的代码内容,需要你自己手动粘贴

思考篇

一些观念的讨论

代码生成工具是否会替代技术人员

  • 长期来看,会替代一部分质量和训练不足的技术人员;但在强人工智能到来之前,好的技术人员会是ai coding的发动机部分,你觉得发动机会被替代吗
  • 如果技术人员技术很糙,不思考提升和训练基本功,还很想偷懒和取巧,也就是说“偷心”很强,即时初期使用AI-Coding获取了甜头,最后就是自己帮助AI把自己替代,我认为这部分技术人员无论做不做技术,都是从业者的耻辱
  • but: 二八定律。AI Coding可以高质量的解决80%的多数重复性代码编写,而剩下的20%中,一半AI Coding依然可以帮助技术人员更加合理有效的编写和组织代码,另一部分则要看AI Coding的上限。毕竟在还不是强智能的AI时期,AI Coding的上限就是依赖足够数量和质量的训练代码数据,训练数据里没有或者还不在训练数据的部分,AI Coding就只能继续交给人类。

代码生成工具是否真的可以不用写一行代码

  • 对于多数重复性较强和已经通性化的代码,无论前端后端,理论上是可以不用写一行代码,直接就可以一次生成高质量的代码,前提是有高质量的训练数据
  • 对于即使逻辑上可以由AI高质量生成的代码,如果训练数据不足,生成的代码就会有问题,必然需要人工修改
  • 对于AI Coding上限之外的代码,这个问题不需要讨论

代码大模型和传统代码引擎的差异,是否有本质区别,是不是也要依赖足够数量和质量的模版代码?

  • 另外,有疑问多问问大模型,deepseek回答我code llm和以前的代码模版引擎的区别,回答很精彩。
  • deepseek的回答,code llm还是
    • 基于概率的上下文序列生成
    • 训练数据基于“意图”-“代码实现”的映射
  • 所以,训练数据的数量和质量情况,就是前面问题的根本底层逻辑能不能不写一行代码,取决于要处理的目标代码领域的训练数据情况