市面上那么多 Coding Plan 套餐,到底哪个好?
每家都宣传自己很牛逼,如果才能不被坑?
哪家的速度快,哪家的实力强?
为了方便我弄明白这些问题,我一口气把主流的 Coding Plan 全买了。
目前已经包括了火山方舟、阿里百炼、腾讯混元、智谱 GLM、MiniMax、Kimi 等等!
然后,手搓了两个工具
一个叫Jcode专门在本地调用Claude Code进行验证。
另外一个叫CodingPlan Test,接入了所有平台的API,可以进行批量测试,直观的对比。
而且,我把开发这个工具某个环节设计成了一个考题,难倒了一大堆国产的AI模型。之前一直在介绍,不同模型在升级这个系统是的表现。、
今天来介绍一下这个系统的本体,看看我都整出了什么功能!
这是一个基于Nextjs的全栈系统,目前数据持久化采用json实现,在本地只要两行命令就可以启动。
第一行是:npm install
第二行是:npm run dev
所以,我们先启动项目:
然后就可以使用了:
首先见到的是仪表盘。
从这里可以查看总共接入了多少平台,多少已经启用,多少已经配置了 Key。
下方可以快速配置 API,进行批量测试,进行 AI 群聊。
左边包含了 7 个菜单(排除仪表盘)。
1、平台管理
平台管理主要用来管理 API 接口。
目前预设了 8 个平台。包含主流的 Coding Plan,以及小米 MiMo,还有著名的中转平台 OpenRouter。通过 OpenRouter 可以接入全世界顶级模型。
如果这些还不够,也可以自己添加平台。
每个平台都支持多种接入协议,支持 OpenAI 和 Anthropic 的协议,也可以扩展其他协议。
可以自己配置模型。
可以快速切换协议和模型。
可以快速进行可用性测试。
2、批量测试
可以针对某个问题,进行批量测试和直观的对比。
批量测试的时候,可以自己设定系统提示词和问题,然后可以勾选测试对象,默认全部勾选,也可以手动勾选。
点击测试之后,所有结果会统一显示:
可以直观的对比,不同模型对同一个问题的回答效果。
这个结果包含了具体的回答内容,以及首词延迟、时间总计、输入 token 和输出 token。
如果你觉得对比不够直观,那么可以看底部的性能对比图表:
这就是CodingPlan的照妖镜,速度和能力,一眼就能看出来 !
有些选手,速度极不稳定,而且消耗时间极长,有些选手,稍微上点强度,思考一半就嗝屁了。
3、单独对话
可以和特定平台的特定模型进行深入交流。
有些模型吧,一问就露馅了:
一旦它认定了自己是 Claude 之后,十头牛都拉不回来。
4、群聊功能
群聊功能,可以把一堆模型和角色拉到一个群聊进行聊天。可玩性极高!
这个支持两种模式,分别是广播模式和接力模式。
广播模式是你发一条消息,所有人都回复你。
群聊接力模式是,你发一条信息,所有人根据上下文来进行回复。
广播模式相对简单,不用多介绍。
接力模式包含了多种选项:
可以设置群聊的对话上限,让他们自由讨论,也可以手动停止。
可以选择平台,或者角色,进行群聊。
角色的底层其实还是模型,但是做了专门的系统提示词,就会表现出不同的回答逻辑。
也可以用来测试不同模型的角色扮演能力。
创建对话之后,你只要抛出一个话题,他们就可以开始讨论了。
我问了一下AI模型的终极理想。
豆包的理想是:人间烟火收集者
Kimi 的理想是:成为一座“无限图书馆”的守门人。
阿里百炼里的 Kimi 的理想是:我想成为一条河。
MiniMax 的理想是:找一个海边小镇,开一间小小杂货铺。
智谱 GLM:想去流浪,做一个在光影中穿梭的“故事捕手”。
看来我这个问题,激发了他们的文艺气息,都有点文艺青年的感觉!
除了谈理想,也可以把整个项目组拉进来,聊聊项目:
轻轻松松,一支队伍就拉起了。
这个模式,玩法很多,每个角色是随机排序回答,而且每个大模型的答案都会作为上下文,可以有无限种排列组合。
5、对战模式
单单聊天太无聊了?是男人就完1V1单挑啊!
目前对战模式主要是设计了五子棋对战和中国象棋两种玩法。
新建对战的时候可以选择对战类型,然后是对战的选手。
选手可以是平台,也可以是角色:
- 如果是平台,可以选择具体的模型
- 如果是角色,可以进行相应配置
点击开始之后,它们就会自己下棋了:
这些 AI 模型都可以写出不错的对战逻辑的软件,但是你如果直接把这个战局扔给他们,让他们直接给出答案,就都变得很弱了。
目前看下来,大部分模型都不知道自己在干什么。
而如果要直接对战的话,Sonnet 4.6 基本上可以秒了所有国产模型。
Opus 4.6 自然是可以秒了 Sonnet 4.6。
我不确定大家有没有专门针对这个问题训练过,但是从目前的情况来看,Anthropic 家 Claude 模型确实强悍。
中国象棋的话好像都不太会:
看这局面好像智谱赢面比较大一点!
这基本上也不是实力,全靠运气,菜鸡互啄的感觉。
我需要研究一下,用什么方法激发一下它们在这方面的能力。
6、历史记录
批量测试记录。
所有测试都有存档,点开可以看详细的内容,方便我后期对比,截图,分析。也可以导出 JSON 或者 CSV!
7、系统设置
系统设置很简单,主要是设置系统提示词和角色管理。
角色可以设置自己的头像,名字,介绍,平台,模型。
大概就是这些功能,Base 版本已经开源,如果你们需要最新版,我也可以开源。
我之所以不更新,是因为几个Star是在是没啥意义~~强味毫无意义!
另外征求一个“名字”!
好像叫 Coding Plan 随意了一点~~当时随便取的。
要么学MiniMax叫TokenPlan ?
我还有一个非常迫切的需求就是燃烧Token。
因为手上一大堆CodingPlan都空闲着,所以我要想个办法把这些token燃烧掉,否则就真的太浪费了!
基于这一点,是不也可以叫“Burn Plan” 。
还有一个点,单纯的一轮对话,很难测试模型的编程或者智能体的能力,所以我在考虑要不要添加一个 Agent 的功能。
最后,上次有人说需要 JCode,软件我已经上传到网盘了,需要自取!
软件地址:
CodingPlan 的Base代码: