首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
EasyLLM
掘友等级
AI独角兽算法研发,爆肝输出大模型评测内容-ing,公众号:大模型评测EasyLLM; 1.最全:全球最全大模型产品评测平台,已囊括187个大模型 2.最新:月更各个大模型各项能力指标评测,输出排行榜 ……欢迎交流
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
OpenAI GPT-5.3-chat实测
OpenAI发布gpt-5.3-chat,聚焦对话实用性。准确率从56.9%跃升至70.6%,排名第20。推理与指令能力大增,但耗时与成本上升。在40-60元价位表现稳健,但面临开源模型更高的成本效益
谷歌Gemini 3.1 Flash-Lite实测
谷歌推出最轻量模型Gemini 3.1 Flash-Lite,主打极致速度与性价比。评测显示其准确率54.9%,较前代提升8%,响应时间仅12秒,成本降至3.9元/千次调用,但中文指令遵从度有所下降。
阿里Qwen3.5-Flash实测
qwen3.5-flash评测:准确率70.8%排名第19,较前代提升6.8个百分点,成本10.4元/千次。推理与医疗能力增强。在10元档位性价比领先,作为轻量级开源模型超越多款闭源旗舰。
阿里Qwen3.5-27B实测
Qwen3.5-27B密集模型评测:准确率72.4%跻身中文榜单第八,成本较前代降59%。法律、推理能力提升明显,金融领域回落。作为开源模型可单卡部署,为本地化提供高性价比选择。
阿里Qwen3.5-122B-A10B实测
Qwen3.5-122B-A10B中文评测总分74.0%,超越前代旗舰,成本仅为竞品1/8。推理、法律领域优势明显,响应速度待优化。开源模型中排名第二,性价比突出,多模态能力值得期待。
字节豆包Seed 2.0 Mini实测
字节跳动发布Doubao-Seed-2.0-mini,成本较上代降55%,但响应速度延长8倍。评测显示整体性能持平,Agent能力提升8.4%,语言理解下降9.3%,适合轻量级场景。
字节豆包Seed 2.0 Lite实测
豆包Seed 2.0 Lite评测:总分73.9%,理科逻辑提升11.4%。引入深度推理致耗时增加,但输出价降55%,成本仅5.4元/千次,领跑10元以下档位。
阿里Qwen3.5-Plus实测
阿里发布Qwen3.5系列首款模型,采用线性注意力与MoE结合的混合架构。评测显示其准确率74.6%,较上代提升1.8%,响应速度提升73%,成本下降47%,在开源模型中位列第一。
字节豆包Seed 2.0 Pro实测:新版本硬实力登顶
字节跳动最新旗舰终于交卷!实测显示,它力压国内外众神,强势登顶。但荣耀背后是巨大的争议:它不再“秒回”,而是开启了“慢思考”模式。用漫长的等待换取极致的聪明,这笔交易划算吗?为您揭秘这个“重型推土机”
小米 MiMo-V2-Flash-think-0204实测
小米MiMo思考模型迎来重磅迭代!排名一跃攀升近五十位,工具调用能力实现质的飞跃,抗幻觉表现脱胎换骨。然而响应速度的剧烈变化和商业化转型,让这次升级充满话题。性能与体验如何权衡?点击一探究竟。
下一页
个人成就
文章被阅读
6,563
掘力值
313
关注了
0
关注者
1
收藏集
0
关注标签
15
加入于
2025-03-20