Anthropic发布Claude35Sonnet代码视觉能力大幅增强性能超越GPT4o

115 阅读9分钟

cover_image

Anthropic发布Claude 3.5 Sonnet || 代码、视觉能力大幅增强 | | 性能超越GPT-4o?

原创 Bob新视界 Bob的AI视界


大家好,我是Bob。

一个想和大家一起慢慢变富的AI程序员

热爱分享AI前瞻思考、项目经验、面试技巧。

欢迎关注我,一起探索,一起破圈!

前言

大模型领域又迎来了新的竞争者。GPT 4 o 在最强大模型的宝座上刚刚待上两个月,他的挑战者就已经出现了。

就在不久前,Anthropic公司推出了一款名为Claude 3.5 Sonnet的全新大型AI模型,宣称其智能程度达到了前所未有的高度,并且将向全球用户提供免费试用的机会。

**
**

根据Anthropic官方网站的介绍,Claude 3.5 Sonnet是即将推出的Claude 3.5系列的首发版本。这款模型在AI领域的智能水平上取得了显著提升,在多数基准测试中都超越了市场上的其他大型模型,包括Anthropic自家之前最强的Claude 3 opps。此外,Claude 3.5 Sonnet在运行速度和成本方面与前一代Claude 3 持平。

让我们一起探究Claude 3.5 Sonnet在各项测试指标上的表现,看看它究竟有哪些过人之处。

数据测试

根据 Anthropic 自己发布的 Benchmark Claude 3.5 Sonnet,虽然在零样本 MATH 和 MLLU 评测中小幅落后于 GPT 4 o, 但是在研究升级推理 GPQA 本科级知识 MMLU 和编码能力 human Eveil 上毋庸置疑地刷新了。

Sota,不仅大幅领先自家的前代老大哥 Claude 3 Opus,而且还完成了对谷歌沾的 1.5 Pro 和 LLAMA 400B 早期预览版的全面超越。 它在理解细微差别幽默和复杂指令方面有着显着的提升,并且能够用自然贴近生活的语调来撰写高质量的内容。

在运行速度方面, Claude 3.5 Sonnet 也是 claude 3 oppos 的两倍。 这种性能提升使得 Claude 3.5 Sonnet 非常适合处理复杂的任务,比如说上下文敏感的客户支持和多步骤工作流程的协调。

代码方面

编码能力也是这次 Claude 3.5 Sonnet 进化的重要亮点之一。

在内部的智能体编码评估中, Claude 3.5 Sonnet 解决了 64% 的问题,优于 claude 3 opps 38%。结果显示,在指令和相关工具的支持下, Claude 3.5 Sonnet 可以 独立编写、编辑和执行代码,具备复杂的推理和故障排除能力 ,尤其是它能够轻松地处理代码翻译,因此在更新遗留应用程序和迁移代码库方面效果极佳。 ****

Anthropic 开发者关系工程师亚历克斯艾伯特表示, Claude 3.5 Sonnet 在编写代码和自主修复 pull request 方面变得非常出色。

他认为一年之后,大部分的代码将由大语言模型编写。他在日常工作中还发现,代码的测试和修复通常比编写代码本身更花时间, 这个时候 Claude 3.5 Sonnet 就可以充当一个成熟的编程代理。

根据 Anthropic 的介绍,编码方面主要是测试了模型根据对所需要改进的自然语言描述修复错误或者为开源代码库添加新功能的能力。

在接到指令并配备相关工具之后,Claude 3.5 Sonnet 就能够自己开始捣鼓代码、编写、调试、执行,并且具备高级的推理和问题解决能力,一套动作下来行云流水。尤其在软件开发和维护方面, Claude 3.5 Sonnet不仅效率更高,而且 比人类专家更加精准。

视觉方面

在视觉方面, Claude 3.5 Sonnet 也是 Anthropic 迄今为止推出的最强大的模型 ,不仅明显优于 cloud 3 Opus 和 Gemina 1.5 Pro,而且在大部分测试中也都超过了 GPT 4 o。

这些改进在需要视觉推理的任务中尤为明显,比方说解释图表和图形特别注意的是它在处理不完美图像中的文本识别能力,这在实际应用中非常重要,因为现实世界的图像往往不如理想状态下那么清晰。

这种能力使得 cloud scenario Sonnet 在各种实际场景中都能够发挥作用,特别是在将视觉信息与更广泛的上下文和含义联系起来的能力上。这也为 AI 在各行各业的应用开辟了新的可能性, 使得 AI 不仅能够看,还能够理解它所看到的内容。

不仅如此, claude 3.5 sonnet 还可以准确的从不完美的图像中转录文本 ,这是零售、物流和金融等服务领域的核心能力。

在这些领域里, AI 从图像、图形或者插图中获得的信息往往要比单纯的文本来的更多。那么基准测试中体现的这种强大的视觉能力究竟如何落实到现实应用中呢?

像是 GPT 4 o这些模型,虽然理解图像和视频的能力也很强,但是一般只能生成文字的描述内容。

在这方面其实我们人类显得更为擅长,能够比模型做得更快、更好。

而这次的 cloud 3.5 就不一样了,它不仅能够准确地识别转录图像中的文字内容,还结合了强大的代码生成能力,将多个模态的能力真正的集合到了一起。

Artifacts助手

在自身能力获得提升的同时, Anthropic 还给 Claude 3.5 sonnet 安排了一个助手Artifacts,这是一项扩展用户与 cloud 交互方式的新的功能。

当用户要求 Claude 3.5 Sonnet 生成代码片段、文本、文档或者是网站设计等等内容的时候,这时候 ARTIFACTS 会出现在对话旁边的专用窗口中,创建出一个动态的工作空间。


用户可以在其中实时的查看、编辑和构建的创作,将人工智能生成的内容无缝集成到项目和工作流程中,以及基于 cloud 的创作进行进一步的开发。

简单来说就是一个将输出的代码显示成网页的功能, 所以可以将生成的HTML, CSS , SVG 代码都显示出来 ,这意味着你可以让它做一些有意思的事情, 比如说绘制并且显示一个SVG,把截图变成HTML加CSS的网页,做个 HTML小游戏 ,PPT,或者是网页小动画等等 ,大幅拓宽了 Claude 3.5 作为 AI 工具的使用范围。

** **

ARTIFACTS 预览功能标志着 Claude 从对话式 AI 向协作工作环境的转变,并将很快扩展到支持团队协作。

在不久的将来,团队能够安全地将他们的知识文档和正在进行的工作集中在一个共享空间中,而 cloud 则是按照用户的需求充当队友。换句话说,以后大家用上的就不仅仅是一个 AI 小秘书了,而是一整个秘书团队各司其职,专门为用户来服务,无论是 Claude 3.5 Sonnet 本身各项优秀的数据,还是作为意外之喜的ARTIFACTS,这次新模型的发布都称得上是顶尖。

做到了青出于蓝而胜于蓝,以近乎碾压的姿态,轻轻松松就把前代的超大杯 claude 3 Opus 拍在了沙滩上。

总结

最后, Claude 3.5 Sonnet 虽然没有解决大模型的幻觉问题,但是它可能足够的有吸引力让开发者和企业转向 Anthropic 的平台,而这才是 Anthropic 真正想要的。

为此 Anthropic 加大了对于工具的投入,比如说实验性的引导 AI 允许开发者引导模型的内部特性,将模型能够集成在应用程序中执行操作,以及提供基于模型构建的工具,比如说最新的artifacts。此外,他还聘请了一名 Instagram 的联合创始人来担任产品负责人。

总体来说, Anthropic 似乎已经意识到,围绕模型来构建一个生态系统,而不仅仅是孤立的模型,这才是保持客户的关键,因为模型之间的能力差距正在缩小。

Anthropic 表示,他们的目标是每隔几个月就大幅的改进智能、速度和成本之间的权衡曲线。为了补全 Claude 3.5 模型系列,它将在今年的晚些时候发布低配版的 Claude 3.5库和高配版的 Claude 3.5 Opus。

好了,以上就是本次 Claude 3.5 sonnet 的一些关键信息,不知道各位是否已经跃跃欲试了,赶紧去体验一下吧。另外,大家觉得 Anthropic 能够凭借多模态达到弯道超车赶上 OpenAI 和 GPT 吗?欢迎在评论区留言