首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
EasyLLM
掘友等级
AI独角兽算法研发,爆肝输出大模型评测内容-ing,公众号:大模型评测EasyLLM; 1.最全:全球最全大模型产品评测平台,已囊括187个大模型 2.最新:月更各个大模型各项能力指标评测,输出排行榜 ……欢迎交流
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
EasyLLM
7小时前
关注
大模型表格识别能力实测:GPT-5.4小模型与小米MiMo正面交锋,表格识别谁翻车了?
三款新模型表格识别分化:小米58%居中,GPT-5.4-Mini仅53%,Nano仅11%垫底。表格识别对小模型仍是硬门槛,官方基准难预测垂直场景表现。...
0
评论
分享
EasyLLM
5天前
关注
OpenAI GPT-5.4 Nano实测
GPT-5.4 Nano实现速度与成本双优化:准确率提升5.1%,耗时降85%,成本降32%。在多模型协作中定位清晰,虽中文指令遵从有所回调,但为轻量场景提供高性价比选择。...
0
评论
分享
EasyLLM
6天前
关注
小米 MiMo-V2-Omni 实测
小米发布全模态旗舰MiMo-V2-Omni,实现音视图文统一感知与行动。评测显示中文文本准确率68.6%,与前代持平,响应速度提升58%,为智能体应用提供独特方案。...
0
评论
分享
EasyLLM
6天前
关注
小米 MiMo-V2-Pro 实测
小米发布万亿参数旗舰MiMo-V2-Pro,激活42B参数,专注Agent与编程。中文评测总分67.6%,与轻量版持平;金融领域提升,响应速度提升59%,成本上涨超5倍。...
0
评论
分享
EasyLLM
7天前
关注
OpenAI GPT-5.4 Mini实测
OpenAI发布轻量级GPT-5.4 Mini,专为编码与智能体设计。中文评测显示,其准确率较前代提升6.2%,响应速度飙升87%。虽成本微增,但凭借低延迟与强大编码能力,...
0
评论
分享
EasyLLM
7天前
关注
MiniMax-M2.7 实测
MiniMax发布M2.7,主打Agent能力,宣称可“自我进化”并完成软件工程。评测显示工具调用提升显著(+9.3%),在法律等领域略有回调。在SWE-Pro等测试中接近...
0
评论
分享
EasyLLM
8天前
关注
智谱 GLM-5-Turbo 实测
智谱GLM-5-Turbo评测:中文准确率71.5%,速度提升60%至52秒,成本持平。通用能力逊于头部模型,但专攻OpenClaw场景,官方ZClawBench显示其专项...
0
评论
分享
EasyLLM
8天前
关注
大模型表格识别能力实测
多模态表格识别评测:最高准确率仅66%,qwen3.5-plus领跑。多层表头、水印干扰、数值错误成主要痛点,真实业务场景下大模型表现仍不稳定。...
0
评论
分享
EasyLLM
16天前
关注
谷歌 Gemini 3.1 Pro 实测
谷歌发布Gemini 3.1 Pro,评测显示其准确率达74.8%,排名第二。模型在推理、指令遵从等维度显著增强,响应时间缩短。官方测试证实其在逻辑推理、科学知识、长上下文...
0
评论
分享
EasyLLM
17天前
关注
OpenAI GPT-5.4 非思考模式实测
本文评测GPT-5.4非推理模式中文表现:准确率61.5%排名第82,较上代提升4.6%;响应仅7秒但成本上涨47%。虽准确率不敌竞品,但作为GPT-5.4生态的轻量入口,...
0
评论
分享
EasyLLM
19天前
关注
OpenAI GPT-5.4实测
OpenAI发布GPT-5.4,整合推理、编程与原生Computer Use,支持百万token上下文。评测显示中文能力显著提升,响应更快,在专业场景具生态优势,但成本效率...
0
评论
分享
EasyLLM
20天前
关注
OpenAI GPT-5.3-chat实测
OpenAI发布gpt-5.3-chat,聚焦对话实用性。准确率从56.9%跃升至70.6%,排名第20。推理与指令能力大增,但耗时与成本上升。在40-60元价位表现稳健,...
0
评论
分享
EasyLLM
20天前
关注
谷歌Gemini 3.1 Flash-Lite实测
谷歌推出最轻量模型Gemini 3.1 Flash-Lite,主打极致速度与性价比。评测显示其准确率54.9%,较前代提升8%,响应时间仅12秒,成本降至3.9元/千次调用...
0
评论
分享
EasyLLM
27天前
关注
阿里Qwen3.5-Flash实测
qwen3.5-flash评测:准确率70.8%排名第19,较前代提升6.8个百分点,成本10.4元/千次。推理与医疗能力增强。在10元档位性价比领先,作为轻量级开源模型超...
0
评论
分享
EasyLLM
27天前
关注
阿里Qwen3.5-27B实测
Qwen3.5-27B密集模型评测:准确率72.4%跻身中文榜单第八,成本较前代降59%。法律、推理能力提升明显,金融领域回落。作为开源模型可单卡部署,为本地化提供高性价比...
0
评论
分享
EasyLLM
28天前
关注
阿里Qwen3.5-122B-A10B实测
Qwen3.5-122B-A10B中文评测总分74.0%,超越前代旗舰,成本仅为竞品1/8。推理、法律领域优势明显,响应速度待优化。开源模型中排名第二,性价比突出,多模态能...
0
评论
分享
EasyLLM
29天前
关注
字节豆包Seed 2.0 Mini实测
字节跳动发布Doubao-Seed-2.0-mini,成本较上代降55%,但响应速度延长8倍。评测显示整体性能持平,Agent能力提升8.4%,语言理解下降9.3%,适合...
0
评论
分享
EasyLLM
1月前
关注
字节豆包Seed 2.0 Lite实测
豆包Seed 2.0 Lite评测:总分73.9%,理科逻辑提升11.4%。引入深度推理致耗时增加,但输出价降55%,成本仅5.4元/千次,领跑10元以下档位。...
0
评论
分享
EasyLLM
1月前
关注
阿里Qwen3.5-Plus实测
阿里发布Qwen3.5系列首款模型,采用线性注意力与MoE结合的混合架构。评测显示其准确率74.6%,较上代提升1.8%,响应速度提升73%,成本下降47%,在开源模型中位...
0
评论
分享
下一页
个人成就
文章被阅读
9,109
掘力值
329
关注了
0
关注者
1
收藏集
0
关注标签
15
加入于
2025-03-20