不敢对比阿里 Qwen2.5,Mistral“最强小模型” 陷争议,欧洲的 OpenAI 也不 Open 了

346 阅读3分钟

欧洲的 OpenAI,也不 Open 了。

Mistral AI 发布自称 “世界上最好的边缘模型”,却陷入质疑和争议。

不仅因为这一次没有磁力链接开放模型权重,也因为声称 “始终优于同行”,但竞品对比并不全面。

官方账号和 CEO 的评论区中,有网友不留情面的指出问题:怎么不和 Qwen2.5 对比呢?

Mistral AI 这次最新发布两款模型,Ministral 3B/8B,用于端侧和边缘计算。

公告中声称,两款模型在 10B 以下规模的知识、常识、推理、函数调用和效率方面推进了新的前沿。

展示的基准测试则使用内部框架重新评估所有模型,并声称在多项任务中 “始终优于同行”。

但在具体评测结果中,只对比了自家初代 Mistral 模型、谷歌的 Gemma 和 Meta 的 Llama 系列。

缺失的 Qwen2.5 系列在 9 月 19 日发布,官方评测结果中对比对象同样包含 Mistral 7B、Llama 3 和 Gemma 2。

尽管不是严格同样条件下的对比,在很多开发者看来相对数据也有参考价值。

StabilityAI 前 CEO Emad Mostaque 初步体验后也表示,认为 Qwen2.5 感觉上更好,开源许可也更宽松,推荐更多人尝试 Qwen2.5。

端侧小模型竞争激烈

Ministral 3B/8B 两款模型都支持 128k 上下文长度,Ministral 8B 具有特殊的交错滑动窗口注意力,可实现更快且节省内存的推理。

除此之外,目前没有透露更多技术细节。

两款模型从今天开始在官方平台提供 API 调用,需要联系官方获得商业许可

另外 8B 模型权重仅供研究使用,3B 模型权重目前并未开放。

对此,Django 框架创始人 Simon Willison 发文表示,在拥有更宽松开源许可且质量很高的 Llama 系列情况下,很难对 Mistral 新模型感到兴奋。

值得注意的是,Qwen2.5-7B 虽然是宽松的 Apache 2.0 开源许可,但 3B 模型与 Mistral 一样选择了研究用许可。

从中也可以看出,能在手机等设备跑的端侧小模型中,目前真正实用的 3B 规模商业化落地正在加速,AI 公司之间的竞争也越来越激烈。

欧洲的 OpenAI 变味了

Mistral AI 发布端侧小模型的这一天,也是他们首款模型 Mistral 7B 的一周年附近。

官方还制作了忍者神龟梗图,展示其品线已经在一年之内迅速完善起来。

一年前,Mistral AI 以先丢出神秘磁力链接、开放模型权重,几天后再发技术报告的独特作风,成为开源社区新宠。

但如今,这家 “欧洲的 OpenAI” 也渐渐不 Open 了。

在 2024 年初,Mistral AI 宣布与微软合作,同期推出的 Mistral Large 大模型不再开放权重,并悄悄撤回了官方网站上有关开源社区义务的内容

这一举动被视为公司战略的重大转变,引起一波议论。

一些开源社区成员对此表示失望,认为这种先通过免费或低成本的产品吸引用户,然后通过高级功能收费的方式,是一种 “背叛”。

最近一次 Mistral AI 甩磁力链接开放权重的模型,是他们首款多模态大模型 Pixtral。

有观点认为这是由于他们刚进入多模态这一赛道,之后商业模式成熟了也会渐渐转向非开源。

有网友表示,随着大模型商业竞争加剧,未来 Mistral AI 走向开源的对立面是不可避免的,令人难过。

尽管如此,他们仍然赢得了许多善意,所以我还在为他们加油。

参考链接:
[1]mistral.ai/news/minist…
[2]x.com/arthurmensc…
[3]simonwillison.net/2024/Oct/16…