K2 vs qwen3 vs deepseek v3.1 小测试

2025-08-22 208 阅读1分钟

用TRAE分别测试了下这几个模型的效果，给了一个爬虫和建站的小任务。

prompt

帮我做一个claude code subagents汇总站，希望有真实的数据。你可以爬取各种汇总站，或者github上的一些subagents集合仓库

kimi-k2

✅页面还算美观，比较素
✅搜索、子页面基本也能打开（gif是没走梯子）。
❌并没有执行爬虫，全部mock数据。

执行过程，确实和claude4相似度比较高，蒸馏石锤

qwen3

❌视觉不是很有眼看，差太远了
✅首先做了检索，用的是真实数据。但是也没有系统的爬虫。-

ds v3.1

✅功能基本是ok的
✅有写爬虫程序并执行，其他两个都没做。幻方出品，爬虫能力很在线。。。
❌视觉太素了，有一点点简陋，但比qwen3强点
第一轮还有error，不是很重要的error，先算过。

结论

K2和ds v3.1还是可以接受的。不过我还是用claude4吧(手动狗头)