我发现了一个开源的大模型对比神器

13 阅读8分钟

ScreenShot_2026-03-24_135710_790.png

我发现了一个开源的 AI 对比神器:再也不用在 GPT、Claude、DeepSeek 之间来回切了

如果你平时会同时用多个 AI,大概率经历过这种场景:

  • 想比较 GPT 和 Claude 谁更适合写代码,只能开两个网页来回切
  • 想测试同一段提示词在不同模型里的效果,只能反复复制粘贴
  • 面对越来越多模型和 API 提供商,感觉“都能用”,但很难快速判断“哪个更适合自己”

我最近发现了一个开源项目,叫 LMRing

它做的事情很直接:

把多个大模型放到同一个界面里,让你可以真正横向对比它们。

不是简单的 AI 聚合壳子,而是更偏向一个:

  • 模型竞技场
  • 对比工作台
  • 排行和投票系统
  • 还能自己部署的开源平台

如果你也经常在 GPT、Claude、DeepSeek、Gemini 之间切换,这个项目真的很值得看。

先说结论:LMRing 到底解决了什么问题?

现在的问题不是“没有 AI 可以用”,而是:

模型太多,选型成本越来越高。

你可能已经有:

  • OpenAI
  • Anthropic
  • Google
  • DeepSeek
  • OpenRouter
  • Groq
  • Together AI

但真正麻烦的是,你很难快速回答下面这些问题:

  • 写代码到底谁更稳?
  • 写文案谁更自然?
  • 做分析谁更清晰?
  • 同一个提示词在不同模型里的差异到底有多大?

以前做这种比较,最原始的方法就是:

  1. 打开多个标签页
  2. 复制同一段提示词
  3. 分别发给不同模型
  4. 再回过头一点点比较

说实话,这个流程又慢又乱,而且对比结果也很难沉淀下来。

LMRing 的价值就在于,它把“模型对比”这件事,做成了一个完整的工作流。

LMRing 是什么?

LMRing 是一个开源、可自托管的 AI 模型对比平台

你可以在一个界面里同时调用多个模型,让它们回答同一个问题,然后直接比较结果。
不管你是想看:

  • 哪个模型代码能力更强
  • 哪个模型更会写文案
  • 哪个模型更适合分析任务
  • 哪个模型的视频生成更好

都不需要再来回切平台。

它最吸引我的地方,不是“支持很多模型”这件事本身,而是它把模型比较做成了一个可视化、可记录、可投票、可自托管的产品。

这就意味着:

你不再只是“凭感觉选模型”,而是能系统化地比较模型。

这个项目最打动我的 4 个点

1. Arena 对战模式,真的很适合拿来比模型

LMRing 最核心的功能就是 Arena。

你可以一次选择 2 到 5 个模型,同时给它们发同一个问题,然后直接看结果谁更好。

这个体验和传统 AI 聊天工具最大的区别是:

它不是让你“用一个模型”,而是让你“比较多个模型”。

而且支持流式输出,模型会边生成边显示。
也就是说,你不需要等所有模型都回答完,再去切屏看结果,而是可以直接同屏观察它们的输出过程。

这个场景特别适合几类任务:

  • 算法题和代码实现
  • 技术解释和方案对比
  • 文案改写和表达风格比较
  • 复杂分析任务的推理能力观察

比如你同时让 GPT、Claude、DeepSeek 去写一道算法题,谁的代码更完整,谁的注释更清楚,谁的思路更稳,其实一下就能看出来。

对于经常做模型选择的人来说,这种能力太实用了。

2. 排行榜 + 投票,让模型比较不只是“一次性体验”

很多工具的问题在于,你用完一次就结束了。

但 LMRing 不是。

它把模型对比的结果继续往下做成了排行榜和投票系统,这一点我觉得很聪明。

因为模型对比这件事,本来就不应该只是“我自己看一眼”。
更好的方式是把结果积累下来,慢慢形成一种:

  • 社区共识
  • 场景偏好
  • 真实使用体验下的排名参考

LMRing 支持多种排行榜视图,比如:

  • 表格视图
  • 柱状图
  • 散点图

你可以把它理解成:
它不仅是一个比较工具,还是一个不断沉淀模型表现的评测平台。

这类能力对个人用户是参考,对团队用户就更有价值了。

3. 模型和提供商支持很广,这点决定了它有没有长期价值

如果一个对比平台只能接两三个模型,其实用不了多久就会被淘汰。

LMRing 这点做得比较完整,支持的提供商范围很广,包括:

  • OpenAI
  • Anthropic
  • Google
  • DeepSeek
  • Mistral
  • Groq
  • OpenRouter
  • Together AI
  • Azure
  • Amazon Bedrock
  • Fireworks
  • Perplexity
  • X.ai

从使用价值上看,这意味着它不是一个“单厂商客户端”,而是更接近一个 统一比较入口

这一点很重要。

因为很多人真正想解决的问题不是“怎么调用某个模型”,而是:

当我手里有很多模型时,我怎么更高效地判断该用哪个。

LMRing 恰好就在解决这个问题。

4. 支持自托管,这点对开发者和团队非常友好

这可能是我最看重的一点。

很多 AI 工具看起来都很好,但一到真实使用场景就会遇到一个问题:

数据放哪里?

尤其是当你开始拿真实业务提示词、内部资料、代码片段去跑模型时,是否能自己掌控部署环境就非常重要。

LMRing 支持自托管,意味着:

  • 对话数据可以留在自己的服务器
  • API Key 不需要完全交给第三方平台
  • 更适合团队内部评估模型
  • 对隐私和可控性要求高的用户会更安心

如果只是个人试用,这一点可能只是加分项。
但如果你准备长期使用,或者想在团队内部落地,这几乎就是决定性优势。

不只是文本,它连视频生成都能拿来一起比

这个点挺有意思。

LMRing 不只是比文本模型,还支持视频生成模型对比,像:

  • OpenAI Sora
  • Google Veo
  • MiniMax
  • Kling
  • Seedance
  • Vidu

这就让它不只是“大语言模型对比工具”,而更像一个更广义的 AI 能力竞技场

如果后面继续扩展图片、音频、多模态能力,那这个项目的上限其实挺高的。

适合哪些人?

我觉得这个项目最适合下面几类人:

  • 经常在多个 AI 模型之间切换的重度用户
  • 想系统比较不同模型能力的开发者
  • 需要做内部模型评估或选型的团队
  • 对隐私和自托管有要求的人
  • 想低成本搭一个“模型对比平台”的独立开发者

如果你平时只固定用一个模型,那它未必是刚需。
但如果你已经进入“多模型工作流”,这个工具的价值会非常明显。

快速开始:本地部署并不复杂

如果你想自己跑起来,官方给的方式比较直接。

本地启动

# 克隆项目
git clone https://github.com/llm-ring/lmring.git
cd lmring

# 安装依赖
pnpm install

# 复制环境配置
cp .env.example .env

# 运行数据库迁移
pnpm db:migrate

# 启动开发服务器
pnpm dev

然后打开:

http://localhost:3000

Docker 启动

如果你更想省事,直接:

docker compose up -d

对于这种工具来说,能不能快速跑起来很关键。
因为只有真正用几个模型对比几轮,你才会立刻知道它到底值不值得留下来。

技术栈也挺现代

从栈上看,这个项目整体比较新,也比较符合现在独立开发和 AI Web 产品的主流选型:

  • Next.js 16
  • React 19
  • TypeScript
  • Tailwind CSS 4
  • shadcn/ui
  • Zustand
  • PostgreSQL
  • Drizzle ORM
  • Better-Auth
  • Resend
  • Vercel AI SDK

这套组合本身就挺适合做一个:

  • 多模型交互
  • 结果沉淀
  • 排行展示
  • 自托管部署

的产品。

最后

我觉得 LMRing 最值得看的地方,不是“功能很多”,而是它切中了一个非常实际的问题:

现在 AI 模型越来越多,但模型之间的比较成本仍然很高。

LMRing 做的,就是把这件事变简单:

  • 不用来回切模型
  • 不用重复复制提示词
  • 不只是看一次结果
  • 还能把比较过程沉淀下来

如果你最近也经常在 GPT、Claude、DeepSeek 之间切来切去,这个项目值得试试。

项目地址

如果你也用过类似工具,欢迎聊聊你最在意的是哪一点:

  • Arena 对比体验
  • 模型覆盖范围
  • 自托管能力
  • 排行和投票机制