首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
EasyLLM
掘友等级
AI独角兽算法研发,爆肝输出大模型评测内容-ing,公众号:大模型评测EasyLLM; 1.最全:全球最全大模型产品评测平台,已囊括187个大模型 2.最新:月更各个大模型各项能力指标评测,输出排行榜 ……欢迎交流
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
OpenAI GPT-5.4 Nano实测
GPT-5.4 Nano实现速度与成本双优化:准确率提升5.1%,耗时降85%,成本降32%。在多模型协作中定位清晰,虽中文指令遵从有所回调,但为轻量场景提供高性价比选择。
小米 MiMo-V2-Omni 实测
小米发布全模态旗舰MiMo-V2-Omni,实现音视图文统一感知与行动。评测显示中文文本准确率68.6%,与前代持平,响应速度提升58%,为智能体应用提供独特方案。
小米 MiMo-V2-Pro 实测
小米发布万亿参数旗舰MiMo-V2-Pro,激活42B参数,专注Agent与编程。中文评测总分67.6%,与轻量版持平;金融领域提升,响应速度提升59%,成本上涨超5倍。
OpenAI GPT-5.4 Mini实测
OpenAI发布轻量级GPT-5.4 Mini,专为编码与智能体设计。中文评测显示,其准确率较前代提升6.2%,响应速度飙升87%。虽成本微增,但凭借低延迟与强大编码能力,在特定场景中优势明显。
MiniMax-M2.7 实测
MiniMax发布M2.7,主打Agent能力,宣称可“自我进化”并完成软件工程。评测显示工具调用提升显著(+9.3%),在法律等领域略有回调。在SWE-Pro等测试中接近顶尖水平,走出差异化路线。
智谱 GLM-5-Turbo 实测
智谱GLM-5-Turbo评测:中文准确率71.5%,速度提升60%至52秒,成本持平。通用能力逊于头部模型,但专攻OpenClaw场景,官方ZClawBench显示其专项任务领先,走差异化路线。
大模型表格识别能力实测
多模态表格识别评测:最高准确率仅66%,qwen3.5-plus领跑。多层表头、水印干扰、数值错误成主要痛点,真实业务场景下大模型表现仍不稳定。
谷歌 Gemini 3.1 Pro 实测
谷歌发布Gemini 3.1 Pro,评测显示其准确率达74.8%,排名第二。模型在推理、指令遵从等维度显著增强,响应时间缩短。官方测试证实其在逻辑推理、科学知识、长上下文处理等核心领域表现优异。
OpenAI GPT-5.4 非思考模式实测
本文评测GPT-5.4非推理模式中文表现:准确率61.5%排名第82,较上代提升4.6%;响应仅7秒但成本上涨47%。虽准确率不敌竞品,但作为GPT-5.4生态的轻量入口,兼具速度与成本优势。
OpenAI GPT-5.4实测
OpenAI发布GPT-5.4,整合推理、编程与原生Computer Use,支持百万token上下文。评测显示中文能力显著提升,响应更快,在专业场景具生态优势,但成本效率不敌部分开源模型。
下一页
个人成就
文章被阅读
6,536
掘力值
313
关注了
0
关注者
1
收藏集
0
关注标签
15
加入于
2025-03-20