EasyLLM

AI独角兽算法研发，爆肝输出大模型评测内容-ing，公众号：大模型评测EasyLLM； 1.最全：全球最全大模型产品评测平台，已囊括187个大模型 2.最新：月更各个大模型各项能力指标评测，输出排行榜 ……欢迎交流

赞

0

|

搜索文章

OpenAI GPT-5.3-chat实测

OpenAI发布gpt-5.3-chat，聚焦对话实用性。准确率从56.9%跃升至70.6%，排名第20。推理与指令能力大增，但耗时与成本上升。在40-60元价位表现稳健，但面临开源模型更高的成本效益

15天前
36
点赞
评论

谷歌Gemini 3.1 Flash-Lite实测

谷歌推出最轻量模型Gemini 3.1 Flash-Lite，主打极致速度与性价比。评测显示其准确率54.9%，较前代提升8%，响应时间仅12秒，成本降至3.9元/千次调用，但中文指令遵从度有所下降。

15天前
76
点赞
评论

阿里Qwen3.5-Flash实测

qwen3.5-flash评测：准确率70.8%排名第19，较前代提升6.8个百分点，成本10.4元/千次。推理与医疗能力增强。在10元档位性价比领先，作为轻量级开源模型超越多款闭源旗舰。

22天前
509
点赞
评论

阿里Qwen3.5-27B实测

Qwen3.5-27B密集模型评测：准确率72.4%跻身中文榜单第八，成本较前代降59%。法律、推理能力提升明显，金融领域回落。作为开源模型可单卡部署，为本地化提供高性价比选择。

22天前
931
点赞
评论

阿里Qwen3.5-122B-A10B实测

Qwen3.5-122B-A10B中文评测总分74.0%，超越前代旗舰，成本仅为竞品1/8。推理、法律领域优势明显，响应速度待优化。开源模型中排名第二，性价比突出，多模态能力值得期待。

23天前
446
点赞
评论

字节豆包Seed 2.0 Mini实测

字节跳动发布Doubao-Seed-2.0-mini，成本较上代降55%，但响应速度延长8倍。评测显示整体性能持平，Agent能力提升8.4%，语言理解下降9.3%，适合轻量级场景。

24天前
123
点赞
评论

字节豆包Seed 2.0 Lite实测

豆包Seed 2.0 Lite评测：总分73.9%，理科逻辑提升11.4%。引入深度推理致耗时增加，但输出价降55%，成本仅5.4元/千次，领跑10元以下档位。

25天前
145
点赞
评论

阿里Qwen3.5-Plus实测

阿里发布Qwen3.5系列首款模型，采用线性注意力与MoE结合的混合架构。评测显示其准确率74.6%，较上代提升1.8%，响应速度提升73%，成本下降47%，在开源模型中位列第一。

25天前
1.1k
点赞
评论

字节豆包Seed 2.0 Pro实测：新版本硬实力登顶

字节跳动最新旗舰终于交卷！实测显示，它力压国内外众神，强势登顶。但荣耀背后是巨大的争议：它不再“秒回”，而是开启了“慢思考”模式。用漫长的等待换取极致的聪明，这笔交易划算吗？为您揭秘这个“重型推土机”

1月前
312
点赞
评论

小米 MiMo-V2-Flash-think-0204实测

小米MiMo思考模型迎来重磅迭代！排名一跃攀升近五十位，工具调用能力实现质的飞跃，抗幻觉表现脱胎换骨。然而响应速度的剧烈变化和商业化转型，让这次升级充满话题。性能与体验如何权衡？点击一探究竟。

1月前
102
点赞
评论

个人成就

文章被阅读 6,563

加入于

2025-03-20