我发现了一个开源的大模型对比神器我发现了一个开源的大模型对比神器，再也不用来回切换了！作为一个 AI 爱好者，你是否也

我发现了一个开源的 AI 对比神器：再也不用在 GPT、Claude、DeepSeek 之间来回切了

如果你平时会同时用多个 AI，大概率经历过这种场景：

想比较 GPT 和 Claude 谁更适合写代码，只能开两个网页来回切
想测试同一段提示词在不同模型里的效果，只能反复复制粘贴
面对越来越多模型和 API 提供商，感觉“都能用”，但很难快速判断“哪个更适合自己”

我最近发现了一个开源项目，叫 LMRing。

它做的事情很直接：

把多个大模型放到同一个界面里，让你可以真正横向对比它们。

不是简单的 AI 聚合壳子，而是更偏向一个：

模型竞技场
对比工作台
排行和投票系统
还能自己部署的开源平台

如果你也经常在 GPT、Claude、DeepSeek、Gemini 之间切换，这个项目真的很值得看。

先说结论：LMRing 到底解决了什么问题？

现在的问题不是“没有 AI 可以用”，而是：

模型太多，选型成本越来越高。

你可能已经有：

OpenAI
Anthropic
Google
DeepSeek
OpenRouter
Groq
Together AI

但真正麻烦的是，你很难快速回答下面这些问题：

写代码到底谁更稳？
写文案谁更自然？
做分析谁更清晰？
同一个提示词在不同模型里的差异到底有多大？

以前做这种比较，最原始的方法就是：

打开多个标签页
复制同一段提示词
分别发给不同模型
再回过头一点点比较

说实话，这个流程又慢又乱，而且对比结果也很难沉淀下来。

LMRing 的价值就在于，它把“模型对比”这件事，做成了一个完整的工作流。

LMRing 是什么？

LMRing 是一个开源、可自托管的 AI 模型对比平台。

你可以在一个界面里同时调用多个模型，让它们回答同一个问题，然后直接比较结果。
不管你是想看：

哪个模型代码能力更强
哪个模型更会写文案
哪个模型更适合分析任务
哪个模型的视频生成更好

都不需要再来回切平台。

它最吸引我的地方，不是“支持很多模型”这件事本身，而是它把模型比较做成了一个可视化、可记录、可投票、可自托管的产品。

这就意味着：

你不再只是“凭感觉选模型”，而是能系统化地比较模型。

这个项目最打动我的 4 个点

1. Arena 对战模式，真的很适合拿来比模型

LMRing 最核心的功能就是 Arena。

你可以一次选择 2 到 5 个模型，同时给它们发同一个问题，然后直接看结果谁更好。

这个体验和传统 AI 聊天工具最大的区别是：

它不是让你“用一个模型”，而是让你“比较多个模型”。

而且支持流式输出，模型会边生成边显示。
也就是说，你不需要等所有模型都回答完，再去切屏看结果，而是可以直接同屏观察它们的输出过程。

这个场景特别适合几类任务：

算法题和代码实现
技术解释和方案对比
文案改写和表达风格比较
复杂分析任务的推理能力观察

比如你同时让 GPT、Claude、DeepSeek 去写一道算法题，谁的代码更完整，谁的注释更清楚，谁的思路更稳，其实一下就能看出来。

对于经常做模型选择的人来说，这种能力太实用了。

2. 排行榜 + 投票，让模型比较不只是“一次性体验”

很多工具的问题在于，你用完一次就结束了。

但 LMRing 不是。

它把模型对比的结果继续往下做成了排行榜和投票系统，这一点我觉得很聪明。

因为模型对比这件事，本来就不应该只是“我自己看一眼”。
更好的方式是把结果积累下来，慢慢形成一种：

社区共识
场景偏好
真实使用体验下的排名参考

LMRing 支持多种排行榜视图，比如：

表格视图
柱状图
散点图

你可以把它理解成：
它不仅是一个比较工具，还是一个不断沉淀模型表现的评测平台。

这类能力对个人用户是参考，对团队用户就更有价值了。

3. 模型和提供商支持很广，这点决定了它有没有长期价值

如果一个对比平台只能接两三个模型，其实用不了多久就会被淘汰。

LMRing 这点做得比较完整，支持的提供商范围很广，包括：

OpenAI
Anthropic
Google
DeepSeek
Mistral
Groq
OpenRouter
Together AI
Azure
Amazon Bedrock
Fireworks
Perplexity
X.ai

从使用价值上看，这意味着它不是一个“单厂商客户端”，而是更接近一个 统一比较入口。

这一点很重要。

因为很多人真正想解决的问题不是“怎么调用某个模型”，而是：

当我手里有很多模型时，我怎么更高效地判断该用哪个。

LMRing 恰好就在解决这个问题。

4. 支持自托管，这点对开发者和团队非常友好

这可能是我最看重的一点。

很多 AI 工具看起来都很好，但一到真实使用场景就会遇到一个问题：

数据放哪里？

尤其是当你开始拿真实业务提示词、内部资料、代码片段去跑模型时，是否能自己掌控部署环境就非常重要。

LMRing 支持自托管，意味着：

对话数据可以留在自己的服务器
API Key 不需要完全交给第三方平台
更适合团队内部评估模型
对隐私和可控性要求高的用户会更安心

如果只是个人试用，这一点可能只是加分项。
但如果你准备长期使用，或者想在团队内部落地，这几乎就是决定性优势。

不只是文本，它连视频生成都能拿来一起比

这个点挺有意思。

LMRing 不只是比文本模型，还支持视频生成模型对比，像：

OpenAI Sora
Google Veo
MiniMax
Kling
Seedance
Vidu

这就让它不只是“大语言模型对比工具”，而更像一个更广义的 AI 能力竞技场。

如果后面继续扩展图片、音频、多模态能力，那这个项目的上限其实挺高的。

适合哪些人？

我觉得这个项目最适合下面几类人：

经常在多个 AI 模型之间切换的重度用户
想系统比较不同模型能力的开发者
需要做内部模型评估或选型的团队
对隐私和自托管有要求的人
想低成本搭一个“模型对比平台”的独立开发者

如果你平时只固定用一个模型，那它未必是刚需。
但如果你已经进入“多模型工作流”，这个工具的价值会非常明显。

快速开始：本地部署并不复杂

如果你想自己跑起来，官方给的方式比较直接。

本地启动

# 克隆项目
git clone https://github.com/llm-ring/lmring.git
cd lmring

# 安装依赖
pnpm install

# 复制环境配置
cp .env.example .env

# 运行数据库迁移
pnpm db:migrate

# 启动开发服务器
pnpm dev

然后打开：

http://localhost:3000

Docker 启动

如果你更想省事，直接：

docker compose up -d

对于这种工具来说，能不能快速跑起来很关键。
因为只有真正用几个模型对比几轮，你才会立刻知道它到底值不值得留下来。

技术栈也挺现代

从栈上看，这个项目整体比较新，也比较符合现在独立开发和 AI Web 产品的主流选型：

Next.js 16
React 19
TypeScript
Tailwind CSS 4
shadcn/ui
Zustand
PostgreSQL
Drizzle ORM
Better-Auth
Resend
Vercel AI SDK

这套组合本身就挺适合做一个：

多模型交互
结果沉淀
排行展示
自托管部署

的产品。

最后

我觉得 LMRing 最值得看的地方，不是“功能很多”，而是它切中了一个非常实际的问题：

现在 AI 模型越来越多，但模型之间的比较成本仍然很高。

LMRing 做的，就是把这件事变简单：

不用来回切模型
不用重复复制提示词
不只是看一次结果
还能把比较过程沉淀下来

如果你最近也经常在 GPT、Claude、DeepSeek 之间切来切去，这个项目值得试试。

项目地址

GitHub: github.com/llm-ring/lm…
官网: www.lmring.com

如果你也用过类似工具，欢迎聊聊你最在意的是哪一点：

Arena 对比体验
模型覆盖范围
自托管能力
排行和投票机制