王炸,Claude 半夜悄悄发布了一条推文。
简单来说,这次主要做了三点更新。
1、升级了新版本的 Claude 3.5 Sonnet。
2、即将发布平价的 Claude3.5 Haiku 模型。
3、一个测试版的 Computer use 功能,翻译过来就是计算机使用。
前两个都是正常的模型升级,最后一个功能才是今年的王炸功能,我们一个个来看下。
一、Claude3.5 Sonnet
Claude 3.5 Sonnet 自打发布以来就是大模型榜单的 Top1,一个能打的都没有,而这次推送的是升级之后的 Claude3.5 Sonnet。
这次,主要在编码能力、工具使用上取得了更多的进步,并且增加了这个「电脑使用」功能的训练。
实力更近一层楼,简直就是遥遥领先。
可以看到,从编码能力、本科生考试、数学、可视化回答等各个领域都是 No.1,而且 Claude 的跑分都不像某一些模型会刷榜,都是真实可信的。斗宗强者,恐怖如斯。
特别一提的就是第七行的这个SWE-bench Verified, 它是通过解决来自流行开源 Python 存储库的 GitHub 问题来评估模型完成真实世界软件工程任务的能力的一个数据集。为了避免翻译的问题,我特意把论文原文给大家截了下。
可以看到更新后的 Claude3.5 一举拿下了 SOTA 的结果,处于世界领先地位。
至于 OpenAI,小辣鸡,不值一提。
更重要的是,目前在 Claude 的官网就可以体验新的模型了。
二、Claude3.5 Haiku。
简单来说就是最快、性价比最高的 Claude 模型。 在和 Claude3 Haiku 相同的成本下,甚至超过了上一代的 Claude3 Opus,而且在编码能力上甚至超过了没有升级前的 Claude3.5 Sonnet。
这小子出息了。
不过,现在还没法使用。我们还需要等待 Claude后续正式发布这个模型。
三、Computer Use
最后,重中之重,Claude 的 computer use,也就是新功能,计算机使用。
简单来说,Claude 可以感知计算机界面并与之交互,用户输入的内容可以转化为计算机命令(比如,移动光标,打开浏览器等),可以模拟人类去使用计算机。
这,就类似于我们之前提到的 RPA 技术,只不过 Claude 帮我们完成了整个复杂的过程,变成了一个更智能的 Agent。
我截取了官方提供的一个实例,大家可以简单看一下,更多的视频可以去官方的 X 上观看。
上面是完成重复性的数据录入工作,之前用 RPA 搞的话,还需要自己编写程序,而且非程序员学习 RPA 还有一些难度。而在未来,只需要简单的和 Claude 进行对话就能完成了。
Claude在文章中提到,他们现在只用了非常简单的软件并结合其他的技能,就训练出了这个新的功能。并且该模型在遇到问题时还可以自我纠正并重试,真正做到了强化学习。
具有了操作电脑的AI,就好比长出了手臂,势必会进入到普通人的生活之中。设想下,我们只需要告诉AI,我想点一杯咖啡,它就自然的帮你打开外卖软件,根据你以前的喜好输入你想喝的咖啡名称,然后帮你加到购物车里。
最酷、最好用的AI也不过与此。
当然,Claude 也提到了目前这个功能还是在测试中,很多方面还不成熟。
因此,官方建议在使用时候,需要注意采取相关的预防措施。
不过,我们有理由相信,在未来的某一天,这个愿景可以达成。
AI能够真正像人一样使用计算机,帮助我们完成任务。
站在今天的这个节点,我相信下一次AI加速发展的日子也不远了,AI应用也会逐渐爆发出来,并渗透到各行各业,为生产带来进一步的提效和革命。
AI并不会代替人类,也会诞生属于这个时代的机会,希望我们都可以抓住这个机会。
相关链接
www.anthropic.com/research/de…