快速测评AI模型,同时得到4个回答结果--模型判官帮你做出选择,现已开源

110 阅读4分钟

目前大语言模型层出不穷,他们的能力如何效果怎么样却无法判断。如果能同时查看多个模型的回答结果并且有模型能帮助用户评估模型回答的质量,那么会为大家节省很多时间。所以就诞生了这个项目:模型判官

image.png

什么是模型判官

不论是使用国外的ChatGPT,Claude 还是国内的Kimi 豆包等应用,用户的每次提问只能看到1个模型的回答,而模型判官让用户能够同时看到4个回答。所谓孩子多了好打架,4个模型同时解决一个问题,从回答的专业度和效率上讲都是非常可靠的。最重要的是由第四个模型评估前三个模型的答案,取长补短,得到最优结果。

image.png

在使用的过程中增加了一定的趣味性:打分系统,以满分100分为标准给其他模型的答案打分。之所以当他为趣味性是因为当前还没有一个明确的评分标准,全凭判官的喜好,后续可能会增加例如A B C或者星级评分,然后做个统计:某个判官给其他模型的评分偏好,说不定会更有趣味性。

目前支持向千问,Deepseek,智浦等模型选择。所有模型都来自硅基流动,通过链接邀请注册即送2000万token,做 MVP验证产品完全够用了。

image.png

模型判官是如何工作的

首先在得到用户输入的内容并且选择好模型后,模型判官直接同时请求3个模型并且同时返回结果。颇有一种骇客帝国中从屏幕上落下各种字符的感觉。有些模型返回的内容长并且返回的速度慢,有些模型返回的速度快(后续也将增加此类统计)。当3个模型完全返回所有结果后,第四个模型便开始启动。首先它将评估前三个模型的回答效果,指出他们回答的优缺点,然后给出一个综合结果。如此看来这对于前三个模型来说可能是闭卷考试,对于第四个模型来说这有点像开卷考试。 一图胜千言

%%{init: {'theme': 'base', 'themeVariables': { 'primaryColor': '#cffafe', 'primaryTextColor': '#000000', 'primaryBorderColor': '#22d3ee', 'lineColor': '#cffafe', 'secondaryColor': '#cffafe', 'tertiaryColor': '#10ffff', 'fontSize': '24px', 'messageFontSize': '18px'}}}%%
sequenceDiagram
  participant User as 用户
  participant System as 系统
  participant Model1 as 模型1
  participant Model2 as 模型2
  participant Model3 as 模型3
  participant Judge as 评判模型

  User->>System: 输入问题或任务描述
  System->>Model1: 发送任务
  System->>Model2: 发送任务
  System->>Model3: 发送任务
  Model1-->>System: 返回处理结果
  Model2-->>System: 返回处理结果
  Model3-->>System: 返回处理结果
  System->>Judge: 发送所有模型的结果
  Judge-->>System: 返回评分和详细评价
  System->>User: 显示每个模型的得分和评价
  User->>System: 选择最适合的模型
  System->>User: 确认选择并结束流程
  
  

谁适合使用模型判官

不论你是AI应用开发者还是普通用户都适用模型判官。模型判官有几十个模型供开发者和用户选择,如果你正在开发一个AI应用,不知道各个模型的表现如何,那么可以直接使用模型判官帮你筛选模型。如果你不方便使用其他AI问答应用(他们通常需要登录后使用)或者想全面的获取问题的答案,模型判官也可以帮你生成多条回答。

如何使用模型判官

无需注册和登录,现在就可以直接体验模型判官。和使用其他AI工具一样,输入任意问题或者描述,选择模型后点击开始,模型判官就可以立即工作。

开发思路

在实际的开发中,我在脑中思考了很久。确定需求和大概产品形态后,从用户交互角度出发,到完成评分返回最终结果为止。全部逻辑在几天内完成开发和调试。其实有了之前的很多项目积累,基础框架搭建起来非常快。例如:技术栈选择,回答的流式传输,多语言,页面UI框架选择,API设计,数据库存储设计等都很快解决。重点在于如何通过产品呈现你的想法。好的产品可以向用户传递开发者的想法,让人一下就知道:哦它是干这个的,它是怎么用的。多从用户的角度出发,把复杂问题留给开发者,把简单交互留给用户。

反馈

目前的版本群里一些用户反馈效果还不错,这次硅基流动向我约稿也算是对我工作的一种认可。做产品能得到用户和大佬们的认可对建立信心和坚持下去是非常重要的。当然迭代永无止境,有任何想法或者建议都可以向我反馈,也希望大家借助AI的力量多尝试多展示自己的项目。

开源

我相信社区的力量,开源可以让项目与开发者产生更多连接。目前项目已开源,欢迎大家提交pr和star。 开源地址:github.com/flashclub/M…

立即使用:modeljudge.awesomeprompt.net/zh

新产品预告

又经过大量的开发和准备,模型辩论也即将登场,或者叫他AI杠精?这又是你没有用过的全新版本,准备好啤酒饮料矿泉水,花生瓜子火腿肠,看两个AI抬杠。目前主要逻辑开发完毕,敬请关注网站和仓库更新。

image.png