给AI打个分,结果搞出17亿估值独角兽???

45 阅读7分钟

哈喽,我是研一。最近在复盘 AI 行业的底层逻辑,发现无论是大模型测评还是物理 AI,大家都在拼命给“智能”建立度量衡。

我把最近两件标志性的大事整理了一下。你会发现,从虚拟的对话竞技场到真实的物理世界,AI 的“期末考试”越来越硬核了。


给AI打个分,结果搞出17亿估值独角兽???

「匿名对战」出圈了

大模型竞技场LMArena官宣拿下1.5亿美元A轮融资。估值升至17亿美元,妥妥的新年开门红!

给AI打个_1.png

这波融资由Felicis和加州大学投资公司UC Investments领投,Andreessen Horowitz、The House Fund等机构跟投。资本用真金白银投票,足以见得AI时代大模型评估这个赛道有多香~

动态竞技场:核心评估规则

lmarena.ai的主要项目就是如今全球大模型的动态竞技场LMArena。核心评估规则围绕匿名对战、Elo式评分和人机协同框架展开,方式也比较有意思。用户只要输入问题,系统就会随机匹配两个模型来做匿名回答。这时候大家不用管模型是谁,只需要根据回答的好坏投票选出更优的那个,系统在投完票之后才会揭晓模型的真实身份。值得注意的是,如果你想省去对比筛选的时间,直接体验这类顶级模型的优势,国内也可以通过 NunuAI[1] 直连使用多种海外大模型,自带大量免费额度,非常适合开发者快速调用。

在评分上,平台基于Bradley–Terry模型设计了Elo评分机制,每个模型都有初始分数,赢了就加分,输了就扣分,随着对战次数越来越多,分数会慢慢稳定下来,最终形成实时更新的排行榜。除此之外,平台还采用了人机协同的评估模式,用人类的真实投票来反映大家对模型的偏好,再通过算法去平衡各个模型的出场次数、任务类型和样本分布,避免有的模型因为曝光多就被高估,或者因为曝光少就被低估,确保整个评估过程公平客观。

就这样,LMArena成了各家新模型“出道”时的必测榜单。当前Gemini 3 Pro以1490分位居榜首。

给AI打个_6.png

从学术探索到商业崛起

而这支90后华人含量99%团队的走红之路,还得从2023年ChatGPT横空出世后说起。LMArena的前身是曾经火爆AI圈的Chatbot Arena,最早由LMSYS这个自发的开源组织创建。组织的核心成员全是来自UC伯克利、斯坦福、UCSD、CMU等顶尖高校的学霸。

LMSYS的创办人之一、SGLang主导者郑怜悯曾对笔者透露,当时之所以创建Chatbot Arena,是因为他们自己训练了小羊驼Vicuna的开源模型。

给AI打个_2.jpeg

当时他们觉得自己模型还不错,但市面上已有的各种基准测试很难真正区分出模型是“真好”还是“假好”。团队认为,评估模型最好的方式就是将其放到网上,让用户试用并投票。

早期的Chatbot Arena搞的是双盲测试,让用户在不知道模型身份的情况下盲选最优回答,这种模式吸引了大量AI爱好者来打卡。后来,全球各地一有新模型更新都会在里面偷偷测一把,Chatbot Arena逐渐成为模型测评首选的排行榜。这样的影响力让Chatbot Arena在AI领域崭露头角,获得资本市场的认可。它独立出来成为一家商业公司lmarena.ai,专注于AI模型评估。

去年拿到1亿美元种子轮融资后,LMArena的发展迅速超出预期。在短时间内不仅累计了涵盖文本、视觉、网络开发等跨模态的5000万张投票,完成了400余种开放及专有模型的评估。现在,LMArena计划将新筹集的资金用于平台运营,确保平台稳定且高效运行,提升用户体验。同时扩大技术团队,为平台发展注入更多专业技术力量。


NVIDIA 发布全新物理 AI 模型,全球合作伙伴展示新一代机器人

机器人开发的 ChatGPT 时刻已然到来

拉斯维加斯 —— CES —— 太平洋时间 2026 年 1 月 5 日 —— NVIDIA 今日宣布推出用于物理 AI 的全新开源模型、框架和 AI 基础设施。NVIDIA 创始人兼首席执行官黄仁勋表示:“机器人开发的 ChatGPT 时刻已然到来。物理 AI 领域取得了突破性进展,这类模型具备理解现实世界、推理和行动规划的能力,持续催生全新的应用场景。”

全新开源模型推动机器人学习和推理的发展

要将成本高昂、功能单一且难以编程的机器转变为具备推理能力的“专家级通用”机器人,需要投入巨额资金和大量专业知识来构建基础模型。NVIDIA 正在构建开源模型,助力开发者绕过资源密集的预训练阶段,专注于打造新一代 AI 机器人和自主机器。这些新模型均可通过 Hugging Face 获取,包括:

  • NVIDIA Cosmos™ Transfer 2.5 和 NVIDIA Cosmos Predict 2.5:开源、完全可定制的世界模型,为物理 AI 实现基于物理原理的合成数据生成与机器人策略评估的仿真支持。
  • NVIDIA Cosmos Reason 2:开源推理视觉语言模型(VLM),使智能机器能够像人类一样看见、理解物理世界并采取行动。
  • NVIDIA Isaac™ GR00T N1.6:专为人形机器人打造的开放式推理视觉语言行动(VLA)模型,可解锁全身控制能力。

面向机器人开发的全新开源仿真和计算框架

此外,可扩展的仿真对于机器人训练和评估至关重要,但当前的工作流依然分散且难以管理。NVIDIA 今天在 GitHub 上发布了全新开源框架,可简化这些复杂工作流:

NVIDIA Isaac Lab-Arena 是一个开源框架,旨在为在仿真中进行大规模机器人策略评估与基准测试提供协作系统。其评估层和任务层的设计与光轮智能紧密合作完成。Isaac Lab-Arena 支持对接 Libero 和 Robocasa 等业界领先基准测试体系,实现测试流程的标准化。

NVIDIA OSMO 是一个云原生编排框架,可将机器人开发整合至单一易用的命令中心。OSMO 支持开发者定义和运行跨计算环境的工作流,包括合成数据生成、模型训练与软件在环测试,从而加速开发周期。

推动物理 AI 赋能工业边缘与全球生态

NVIDI_1.png

全新 NVIDIA Jetson™ T4000 模组现已发售,将 NVIDIA Blackwell 架构引入自主机器领域,性能较上一代产品提升至 4 倍。同时,NVIDIA 正与 HuggingFace 合作,将开源的 Isaac 与 GR00T 技术集成到 LeRobot 开源机器人框架中。

全球领先的机器人企业,包括 Boston Dynamics、Caterpillar、Franka Robotics、Humanoid、LG Electronics 和 NEURA Robotics 等正在借助 NVIDIA 机器人开发栈推出 AI 驱动的全新机器人。从移动机械臂到人形机器人,NVIDIA 的全栈技术正在通过 AI 驱动机器人推动各行各业实现转型。

引用链接

[1] NunuAI: nunu.chat