首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
EasyLLM
掘友等级
AI独角兽算法研发,爆肝输出大模型评测内容-ing,公众号:大模型评测EasyLLM; 1.最全:全球最全大模型产品评测平台,已囊括187个大模型 2.最新:月更各个大模型各项能力指标评测,输出排行榜 ……欢迎交流
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
大模型OCR识别能力实测:结果出乎意料,第一名你绝对想不到……
国产模型包揽中文OCR Top5,Kimi K2.6夺冠(69.8%);GPT系列全面垫底且昂贵。票据、竖排文本仍是共性短板。选国产更准更省。
大模型表格识别能力实测:GPT-5.5、Kimi、通义千问,Mimo,谁在“睁眼说瞎话”?
多模态大模型新测表格识别:面对“复杂结构+水印干扰”,GPT-5.5、Qwen、Kimi等明星模型集体翻车。水印成“视力杀手”,标题与结构识别成短板,旗舰模型鲁棒性仍需提升。
OpenAI GPT-5.5实测
GPT-5.5震撼登场:准确率飙升、耗时狂砍38%、Token暴降30%!推理大涨5.5%,智能体编程再进化。速度碾压同级,但国产开源1/7成本紧咬不放——谁才是你的真命模型?
GPT-5.5 全系上架 NoneLinear
OpenAI推出GPT-5.5及Pro版:前者智能领先、延迟持平且更省token,适合编程与终端自动化;后者更可靠、重大错误率更低,面向高难度与高风险场景。
深度求索DeepSeek-V4-Pro实测
DeepSeek这次不卷跑分,主攻百万长上下文和Agent。中文榜单排名见仁见智,但细分维度显示路线已切换。代价与提升并存,交由你判断。
DeepSeek-V4 上架 NoneLinear
DeepSeek-V4系列发布:Pro版代码能力超越Sonnet 4.5,数学/竞赛开源最强;Flash版更经济。均配备1M上下文,已上线NoneLinear平台。
小米 MiMo-V2.5 实测
小米36天再发MiMo-V2.5系列,轻量版主打多模态快速响应,速度提升86%至46秒,但中文准确率微降,编程能力大涨,教育与推理回落,定位与旗舰形成快慢双线策略。
小米 MiMo-V2.5-Pro 实测
小米全新旗舰大模型重磅发布!官方号称迄今最强,直接对标全球顶尖水准。底层推理与代码能力迎来蜕变?详尽深度实测报告为你揭开真实性能底牌!赶紧点击查看,揭秘其实力究竟如何!
MiMo-V2.5 & Pro上架 NoneLinear
小米推出两款MiMo模型:V2.5-Pro定位顶级Agent,擅长长程任务与复杂工程;V2.5为原生全模态,支持1M上下文,成本更低,适用多模态场景。
月之暗面Kimi K2.6实测
月之暗面发布开源Kimi K2.6,主攻代码与长程Agent。评测准确率72.9%,耗时减半,但成本涨30%,中文综合场景性价比不突出。
下一页
个人成就
文章被阅读
18,452
掘力值
527
关注了
0
关注者
2
收藏集
0
关注标签
15
加入于
2025-03-20