DeepSeek R1的影响力在近期持续发酵,在经过几天的发展后,今天似乎达到了一个新的高峰。
通过对各方反应的观察,这波影响主要体现在两个方面:
一是R1在多个权威基准测试中的出色表现,二是由此引发的业界广泛讨论。
在大模型竞技场Chatbot Arena的评测中,DeepSeek R1成功跻身前三,与顶尖推理模型o1并列。
具体而言,R1在"Hard Prompts"、"Coding"和"Math"等技术领域位列第一。
同时在"Style Control"方面,也与o1并列第一,展现了在理解和执行用户指令方面的卓越能力。特别是在"Hard Prompt with Style Control"的复合测试中,R1同样保持领先地位。
更具说服力的是Scale AI和CAIS最新发布的测试跨越百余个学科、包含3000道挑战性试题的综合测试,被视为人类知识前沿的多模式基准,R1在此项测试中同样表现优异,位居榜首。
在Artificial-Analysis的独立评测中,R1以显著的性价比优势(较竞品便宜25倍)获得第二名的成绩。在webdev测试中,R1也位列第二。值得一提的是,R1配合Sonnet的组合,在多语言编码领域的表现超出竞品2%,成为当前SOTA方案。
这些成绩引发了业界广泛关注。
杨立坤对此做出积极评价,他强调这一成就应被理解为开源模型对专有模型的超越,而非简单的地域竞争。
他指出,DeepSeek得益于开源研究和技术(如Meta的PyTorch和Llama),这体现了开源合作的重要价值。
Meta生成AI团队坐不住了,特别是在DeepSeek仅投入550万美元训练预算的情况下取得如此成绩。Scale AI的CEO Alexandr Wang也对DeepSeek的硬件配置做出了相关评论👇
最新消息显示,DeepSeek团队已宣布推出具有查询次数限制的免费版本,进一步扩大了其影响力。
AI交流社群——务必注明来意:
防失联zuojialongxi❤️
欢迎关注阿星,定期干货奉上📚
往期文章:
p.s.封面来自网络,仅供学习分享,版权归原作者所有,如有侵权,可联系我们删除。