Claude3没能拿掉GPT-4的王冠

242 阅读4分钟

在短短三天内,Claude 3的竞技场排名迅速升温,吸引了高达20,000张选票,将榜单热度推至前所未有的高度。其中,Claude 3最强大的“大杯”模型——Opus以1233分的成绩脱颖而出,成为首个能够在得分上与GPT-4-Turbo匹敌的竞争者。而其“中杯”型号Sonnet同样表现出色,其表现与GPT-4的部分旧版本不相上下。

image-20240308192812152.png

尽管如此,总体来看,GPT-4系列依然占据领先地位。 Claude 3发布时,官方宣传声称已全面超越GPT-4,但并未明确指出是针对哪个版本的GPT-4。

如何开通GPT-4

简要总结开通ChatGPT4.0的步骤:

  1. 通过虚拟信用卡平台WildCard注册并开通虚拟信用卡,可能可以通过特定链接享受优惠。

  2. 完成支付宝实名认证以确保支付安全及规避非法风险。

  3. 在WildCard平台上完成虚拟信用卡开卡流程,费用包含一次性开卡费(例如9.9美元)和ChatGPT个人版订阅费用(每月20美元)。

  4. 使用已开通并绑定支付宝的虚拟信用卡,在ChatGPT官网或指定升级页面选择“一键升级ChatGPT4.0”服务进行支付订阅费用。

  5. 支付成功后即完成ChatGPT4.0的开通,总费用根据汇率转换约为人民币220.11元。

    至于隐私问题是完全不用担心的,毕竟只是支付宝认证一下而已,全程不会要求输入任何隐私信息的。这个平台也是靠谱的大平台(老板大有来头,投资数千万),我本人已经稳定使用半年多了,大家也可以放心哈。

最新的大模型竞技场榜单(LMSYS Chatbot Arena Leaderboard)揭晓了这一悬念。目前,排在榜首位置的是OpenAI于去年11月推出的GPT-4 Turbo,即GPT-4-1106-preview版,该版本功能更强大且价格更为亲民,拥有128k的上下文,并更新了训练数据至2023年4月。与之并驾齐驱、同列第一的是今年一月份发布的最新版本GPT-4-0125-preview,其训练数据进一步扩展到了2023年12月,两者均获得了1251的高分。

微信图片_20240308190824.gif

紧随其后的才是Claude 3(训练数据截至2023年8月),其顶级版本Opus得分为1233,相较于GPT-4 Turbo低了18分,但这个差距相对较小。值得注意的是,Opus比GPT-4两个旧版本(0314、0613)分别高出48分和72分。

至于性能中等的Claude 3 Sonnet,则位列第6名,恰好位于上述两个GPT-4版本之间,仅比0314版低5分,显示出巨大的潜力,有望实现赶超。

image-20240308193030624.png

——总结来说,虽然Claude 3在官方宣传中被描述为全面超越旧版GPT-4,但在与GPT-4 Turbo的较量中仍存在一定的差距,尽管这差距并不显著。此竞技场榜单的评比机制得到了业内广泛认可,由“小羊驼”(Vicuna)作者团队发起,裁判并非基于人工智能,而是直接根据人类对匿名模型回答问题的质量偏好进行投票选择,确保了评价结果的公正性和客观性。

在最新的AI性能评估或竞赛中,表现突出的除了Claude 3之外,还有以下几个值得关注的模型:

  1. 基于Gemini Pro的Bard:该模型表现出色,成功占据了排行榜第四的位置,紧跟在GPT-4 Turbo和Claude 3之后。这表明Bard在处理复杂任务、生成内容或者其它评测指标上具有相当高的竞争力。
  2. 阿里通义千问1.5版本:这款来自中国的AI模型,在最近的测评中取得了显著进步,跻身前十,并与另一选手并列第九,成为了国内同类产品中的佼佼者。相较于前代或其他国内参赛者,以及国际上的知名模型如Claude 2、Gemini Pro和GPT-3.5等,阿里通义千问1.5版本展现出了更强的实力和提升。2152