首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
EasyLLM
掘友等级
AI独角兽算法研发,爆肝输出大模型评测内容-ing,公众号:大模型评测EasyLLM; 1.最全:全球最全大模型产品评测平台,已囊括187个大模型 2.最新:月更各个大模型各项能力指标评测,输出排行榜 ……欢迎交流
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
智谱GLM-5.1实测
智谱推出GLM-5.1,定位长程任务开源第一模型。评测显示准确率74.2%,推理与Agent能力提升显著,但响应时间和成本上涨。代码基准达开源第一,中文综合能力超越部分闭源模型。
谷歌Gemma 4 MoE实测
Gemma 4 26B MoE评测:中文场景准确率50.3%,相比上代提升11.3个百分点;速度比31B Dense快43%,成本仅1.7元/千次调用;法律、Agent能力提升显著,适合低延迟边缘部署
谷歌Gemma 4实测
谷歌发布Gemma 4开源模型,31B版中文评测准确率52.5%,较上代提升13.5%。法律、推理领域进步显著,成本极低(千次1.4元),定位同参数规模最强,但中文指令理解仍待优化。
阿里Qwen3.6-Plus实测
阿里发布Qwen3.6-Plus,主打智能体编程。评测显示:准确率71.6%,较前代降3个百分点;成本涨82%。语言指令提升,但Agent调用下降9%,与官方宣称形成反差。
大模型表格识别能力实测:GPT-5.4小模型与小米MiMo正面交锋,表格识别谁翻车了?
三款新模型表格识别分化:小米58%居中,GPT-5.4-Mini仅53%,Nano仅11%垫底。表格识别对小模型仍是硬门槛,官方基准难预测垂直场景表现。
OpenAI GPT-5.4 Nano实测
GPT-5.4 Nano实现速度与成本双优化:准确率提升5.1%,耗时降85%,成本降32%。在多模型协作中定位清晰,虽中文指令遵从有所回调,但为轻量场景提供高性价比选择。
小米 MiMo-V2-Omni 实测
小米发布全模态旗舰MiMo-V2-Omni,实现音视图文统一感知与行动。评测显示中文文本准确率68.6%,与前代持平,响应速度提升58%,为智能体应用提供独特方案。
小米 MiMo-V2-Pro 实测
小米发布万亿参数旗舰MiMo-V2-Pro,激活42B参数,专注Agent与编程。中文评测总分67.6%,与轻量版持平;金融领域提升,响应速度提升59%,成本上涨超5倍。
OpenAI GPT-5.4 Mini实测
OpenAI发布轻量级GPT-5.4 Mini,专为编码与智能体设计。中文评测显示,其准确率较前代提升6.2%,响应速度飙升87%。虽成本微增,但凭借低延迟与强大编码能力,在特定场景中优势明显。
MiniMax-M2.7 实测
MiniMax发布M2.7,主打Agent能力,宣称可“自我进化”并完成软件工程。评测显示工具调用提升显著(+9.3%),在法律等领域略有回调。在SWE-Pro等测试中接近顶尖水平,走出差异化路线。
下一页
个人成就
文章被阅读
14,224
掘力值
379
关注了
0
关注者
1
收藏集
0
关注标签
15
加入于
2025-03-20