构建大语言模型的应用时,除了质量外,速度和成本也是不可或缺的考量因素。
对于消费者应用和聊天体验而言,快速响应是吸引用户参与的关键。用户期望能得到几乎即时的回应,任何延迟都可能直接减少用户的活跃度。而在开发涉及工具使用或代理性系统的复杂应用时,速度和成本的重要性更是不言而喻,它们甚至可能成为制约整体系统性能的瓶颈。大语言模型处理每个用户请求的连续请求所累积的时间,将直接增加成本。
因此,Artificial Analysis (@ArtificialAnlys) 推出了一个新的排行榜,该排行榜综合考虑了价格、速度和质量,现已上线 Hugging Face。
点击此处查看排行榜!
大语言模型性能排行榜旨在提供全面的评估指标,助力 AI 工程师选择最适合其 AI 应用的大语言模型和 API 提供商。
在选择适合的 AI 技术时,工程师需要综合考虑质量、价格和响应速度(延迟和吞吐量)。该排行榜整合了这三方面的信息,使得决策过程更加集中和高效,涵盖了专有及开放模型。
来源:LLM Performance Leaderboard
指标覆盖
该排行榜包括以下几个关键指标:
- 质量: 一个简化的指数,用于比较不同模型的质量和准确性,此指数基于各模型作者提供的 MMLU、MT-Bench、HumanEval 分数以及 Chatbot Arena 的排名。
- 上下文窗口: 大语言模型在一次处理中可以处理的最大 Token 数量(包括输入和输出 Token)。
- 定价: 不同提供商对模型推理查询的收费。报告中提到了每 Token 的输入/输出价格,以及综合比较各托管提供商的“混合”定价。混合定价是按照输入长度是输出的三倍来计算的 3:1 比例。
- 吞吐量: 推理过程中端点输出 Token 的速度,单位为每秒 Token 数(Token/s,通称“TPS”)。报告了过去 14 天的中值、第5百分位、第25百分位、第75百分位及第95百分位数值。
- 延迟: 端点在接收到请求后开始响应所需的时间,称为“首个 Token 到达时间”(TTFT),单位为秒。同样报告了过去 14 天的中值、第5百分位、第25百分位、第75百分位及第95百分位数值。
更多详细定义,请访问我们的方法论完整页面。
测试工作负载
该排行榜支持在几种不同的工作负载条件下测试性能,包括六种不同的组合:
- 变化的提示长度:大约100个Token,大约1千个Token,大约1万个Token。
- 并行查询:单个查询和10个并行查询。
方法论
我们每天对排行榜上的每个API端点进行8次测试,展示的数据为过去14天的中位数。同时,我们也提供了详细的百分位数数据。
目前,质量指标是针对每个模型单独收集并报告的,这些数据是由模型的创建者提供的。请继续关注,因为我们将开始公布每个端点的独立质量评估结果。
更多详细定义,请访问我们的方法论完整页面。
亮点(2024年5月,详情请查阅最新排行榜)
-
语言模型市场在过去一年中变得愈加复杂。近两个月内引起市场动荡的重大发布包括Anthropic的Claude 3系列和开放模型,如Databricks的DBRX、Cohere的Command R Plus、Google的Gemma、Microsoft的Phi-3、Mistral的Mixtral 8x22B和Meta的Llama 3。
-
各个模型和提供商之间的价格及速度差异极大。从Claude 3 Opus到Llama 3 8B,价格差距达到了300倍,超过了两个数量级!
-
API提供商加快了模型的推出速度。在不到48小时内,就有7家提供商开始提供Llama 3模型,这反映出市场对新开源模型的需求及API提供商之间的竞争态势。
-
在不同质量层次上需要关注的关键模型包括:
- 高质量,但通常价格更高、速度更慢的模型,如GPT-4 Turbo和Claude 3 Opus。
- 质量、价格及速度均处于中等水平的模型,如Llama 3 70B、Mixtral 8x22B、Command R+、Gemini 1.5 Pro、DBRX。
- 质量较低,但速度更快、价格更低的模型,如Llama 3 8B、Claude 3 Haiku、Mixtral 8x7B。
我们的“质量与吞吐量”图表展示了具备不同质量和性能特征的模型选择。
来源:artificialanalysis.ai/models
应用案例:速度和成本与质量同样重要
在某些情况下,设计涉及多个请求的应用模式使用更快更便宜的模型,不仅能够降低成本,还能提高整体系统的质量,相比之下,使用单一较大模型的效果还要好。
例如,假设一个聊天机器人需要浏览网页,从最新的新闻文章中提取相关信息。一种策略是使用一个大型、高质量的模型,比如 GPT-4 Turbo,来执行搜索,然后阅读并处理几篇主要文章。另一种策略则是使用一个较小、响应更快的模型,比如 Llama 3 8B,来并行阅读并从数十个网页中提取重点信息,然后再使用 GPT-4 Turbo 来评估并总结最相关的结果。第二种策略在成本效益上更为突出,尽管阅读的内容是前者的十倍多,但可能得到的结果质量更高。
联系方式
欢迎在 Twitter 和 LinkedIn 上关注我们获取最新动态。您还可以通过这两个平台、我们的网站和电子邮件与我们取得联系。