手搓 CodingPlan 照妖镜,TOKEN 燃烧器!

0 阅读6分钟

市面上那么多 Coding Plan 套餐,到底哪个好?

每家都宣传自己很牛逼,如果才能不被坑?

哪家的速度快,哪家的实力强?

为了方便我弄明白这些问题,我一口气把主流的 Coding Plan 全买了。

目前已经包括了火山方舟、阿里百炼、腾讯混元、智谱 GLM、MiniMax、Kimi 等等!

然后,手搓了两个工具

一个叫Jcode专门在本地调用Claude Code进行验证。

另外一个叫CodingPlan Test,接入了所有平台的API,可以进行批量测试,直观的对比。

QQ20260326-093350

而且,我把开发这个工具某个环节设计成了一个考题,难倒了一大堆国产的AI模型。之前一直在介绍,不同模型在升级这个系统是的表现。、

今天来介绍一下这个系统的本体,看看我都整出了什么功能!

这是一个基于Nextjs的全栈系统,目前数据持久化采用json实现,在本地只要两行命令就可以启动。

第一行是:npm install

第二行是:npm run dev

所以,我们先启动项目:

然后就可以使用了:

首先见到的是仪表盘。

从这里可以查看总共接入了多少平台,多少已经启用,多少已经配置了 Key。

下方可以快速配置 API,进行批量测试,进行 AI 群聊。

左边包含了 7 个菜单(排除仪表盘)。

1、平台管理

平台管理主要用来管理 API 接口。

目前预设了 8 个平台。包含主流的 Coding Plan,以及小米 MiMo,还有著名的中转平台 OpenRouter。通过 OpenRouter 可以接入全世界顶级模型。

如果这些还不够,也可以自己添加平台。

每个平台都支持多种接入协议,支持 OpenAI 和 Anthropic 的协议,也可以扩展其他协议。

可以自己配置模型。

可以快速切换协议和模型。

可以快速进行可用性测试。

2、批量测试

可以针对某个问题,进行批量测试和直观的对比。

批量测试的时候,可以自己设定系统提示词和问题,然后可以勾选测试对象,默认全部勾选,也可以手动勾选。

点击测试之后,所有结果会统一显示:

可以直观的对比,不同模型对同一个问题的回答效果。

这个结果包含了具体的回答内容,以及首词延迟、时间总计、输入 token 和输出 token。

如果你觉得对比不够直观,那么可以看底部的性能对比图表:

这就是CodingPlan的照妖镜,速度和能力,一眼就能看出来 !

有些选手,速度极不稳定,而且消耗时间极长,有些选手,稍微上点强度,思考一半就嗝屁了。

3、单独对话

可以和特定平台的特定模型进行深入交流。

有些模型吧,一问就露馅了:

一旦它认定了自己是 Claude 之后,十头牛都拉不回来。

4、群聊功能

群聊功能,可以把一堆模型和角色拉到一个群聊进行聊天。可玩性极高!

这个支持两种模式,分别是广播模式和接力模式。

广播模式是你发一条消息,所有人都回复你。

群聊接力模式是,你发一条信息,所有人根据上下文来进行回复。

广播模式相对简单,不用多介绍。

接力模式包含了多种选项:

可以设置群聊的对话上限,让他们自由讨论,也可以手动停止。

可以选择平台,或者角色,进行群聊。

角色的底层其实还是模型,但是做了专门的系统提示词,就会表现出不同的回答逻辑。

也可以用来测试不同模型的角色扮演能力。

创建对话之后,你只要抛出一个话题,他们就可以开始讨论了。

我问了一下AI模型的终极理想。

豆包的理想是:人间烟火收集者

Kimi 的理想是:成为一座“无限图书馆”的守门人。

阿里百炼里的 Kimi 的理想是:我想成为一条河。

MiniMax 的理想是:找一个海边小镇,开一间小小杂货铺。

智谱 GLM:想去流浪,做一个在光影中穿梭的“故事捕手”。

看来我这个问题,激发了他们的文艺气息,都有点文艺青年的感觉

除了谈理想,也可以把整个项目组拉进来,聊聊项目:

轻轻松松,一支队伍就拉起了。

这个模式,玩法很多,每个角色是随机排序回答,而且每个大模型的答案都会作为上下文,可以有无限种排列组合。

5、对战模式

单单聊天太无聊了?是男人就完1V1单挑啊!

目前对战模式主要是设计了五子棋对战和中国象棋两种玩法。

新建对战的时候可以选择对战类型,然后是对战的选手。

选手可以是平台,也可以是角色:

  1. 如果是平台,可以选择具体的模型
  2. 如果是角色,可以进行相应配置

点击开始之后,它们就会自己下棋了:

这些 AI 模型都可以写出不错的对战逻辑的软件,但是你如果直接把这个战局扔给他们,让他们直接给出答案,就都变得很弱了。

目前看下来,大部分模型都不知道自己在干什么。

而如果要直接对战的话,Sonnet 4.6 基本上可以秒了所有国产模型。

Opus 4.6 自然是可以秒了 Sonnet 4.6。

我不确定大家有没有专门针对这个问题训练过,但是从目前的情况来看,Anthropic 家 Claude 模型确实强悍。

中国象棋的话好像都不太会:

看这局面好像智谱赢面比较大一点!

这基本上也不是实力,全靠运气,菜鸡互啄的感觉。

我需要研究一下,用什么方法激发一下它们在这方面的能力。

6、历史记录

批量测试记录。

所有测试都有存档,点开可以看详细的内容,方便我后期对比,截图,分析。也可以导出 JSON 或者 CSV!

7、系统设置

系统设置很简单,主要是设置系统提示词和角色管理。

角色可以设置自己的头像,名字,介绍,平台,模型。

大概就是这些功能,Base 版本已经开源,如果你们需要最新版,我也可以开源。

我之所以不更新,是因为几个Star是在是没啥意义~~强味毫无意义!

另外征求一个“名字”!

好像叫 Coding Plan 随意了一点~~当时随便取的。

要么学MiniMax叫TokenPlan ?

我还有一个非常迫切的需求就是燃烧Token。

因为手上一大堆CodingPlan都空闲着,所以我要想个办法把这些token燃烧掉,否则就真的太浪费了!

基于这一点,是不也可以叫“Burn Plan” 。

还有一个点,单纯的一轮对话,很难测试模型的编程或者智能体的能力,所以我在考虑要不要添加一个 Agent 的功能。

最后,上次有人说需要 JCode,软件我已经上传到网盘了,需要自取!

软件地址:

pan.quark.cn/s/1ca548308…

CodingPlan 的Base代码:

github.com/JarvisPMS/c…