302.AI | 基准实验室

302.AI | 基准实验室

302.AI | 基准实验室

最新模型实测专区

等 3 人订阅共58篇文章创建于2025-06-05

最强公开模型 Claude Fable 5 实测：神坛之上，也有短板

6 月 10 日，Anthropic 直接在凌晨双连发，把憋了两个月的 Claude Fable 5 和 Claude Mythos 5 这对孪生体端了出来。同一故事，两个版本 Claude Fab

5天前
33
点赞
评论

最强公开模型 Claude Fable 5 实测：神坛之上，也有短板

302.AI CLI Skill 实测：一行命令调用图片视频音乐全模型，彻底解放生产力

对于开发者来说，最影响效率的往往不是写代码，而是在各种 AI 工具之间来回切换，生成所需素材并手动集成到项目中...

9天前
22
点赞
评论

302.AI CLI Skill 实测：一行命令调用图片视频音乐全模型，彻底解放生产力

30 天限免开启，Step 3.7 Flash 实测：不惊艳但顺手，Agent 不用省着用了

5 月 29 日，阶跃星辰正式发布了新一代开源推理模型 Step-3.7-Flash，直接堆到了 1980 亿参数的稀疏混合专家（MoE）架构。

12天前
46
点赞
评论

30 天限免开启，Step 3.7 Flash 实测：不惊艳但顺手，Agent 不用省着用了

凭什么干翻 3.1 Pro？Gemini 3.5 Flash 实测：终结“轻量模型必定逊色”的铁律

Google I/O 2026开发者大会上，DeepMind 发布 Gemini 3.5 家族首款模型——主打速度、成本与长任务能力的 Gemini 3.5 Flash。

29天前
67
点赞
评论

凭什么干翻 3.1 Pro？Gemini 3.5 Flash 实测：终结“轻量模型必定逊色”的铁律

Grok 4.3 实测：放弃“最强模型”叙事，从聊天机器人到数字员工的务实转身

当 AI 大模型的竞争从单纯的参数比拼转向实战落地，xAI 的动作终于迈出了重要一步 —— Grok 4.3 正式发布

1月前
74
点赞
评论

Grok 4.3 实测：放弃“最强模型”叙事，从聊天机器人到数字员工的务实转身

AI 时代如何高效制作 PPT？实测HTML-PPT 专项 Skill vs Manus

以前做 PPT 汇报，是一场脑力体力兼备的任务。一大痛点便是满世界找模板，结果找到的不是土得掉渣的红头文件风，就是付费才能解锁使用的套路

1月前
85
点赞
评论

AI 时代如何高效制作 PPT？实测HTML-PPT 专项 Skill vs Manus

GPT-5.5 实测：牺牲了惊艳，换来了不出错，这笔翻倍溢价值不值得掏？

在 GPT-5.4 推出一个多月后，OpenAI 再次推出更新：GPT-5.5 和 GPT-5.5 Pro 于 4 月 24 日同时发布。

1月前
73
点赞
评论

GPT-5.5 实测：牺牲了惊艳，换来了不出错，这笔翻倍溢价值不值得掏？

开源最强还是工程最强？Kimi K2.6 实测：长程执行与 Agent 能力的分水岭

4月21日，在时隔近3个月后， Moonshot AI 带来了 Kimi K2.6。作为 K2 系列的最新迭代，

1月前
98
点赞
评论

开源最强还是工程最强？Kimi K2.6 实测：长程执行与 Agent 能力的分水岭

能力跻身第一梯队？DeepSeek-V4-Pro 实测：从参数竞赛回归场景适配

千呼万唤始出来，DeepSeek-V4 于 4 月 24 日正式发布，以 1M 超长上下文全系标配宣布迈入百万上下文普惠时代。

1月前
162
点赞
评论

能力跻身第一梯队？DeepSeek-V4-Pro 实测：从参数竞赛回归场景适配

实测 GPT Image 2：AI 绘图界真皇问世，从文字渲染到电商排版，它把竞品甩开两条街

OpenAI 发布最新图像模型 GPT Image 2.0，在 Arena.AI 榜单上以 1512 分断层霸榜第一，与竞品拉开显著代际差距。

1月前
201
点赞
评论

实测 GPT Image 2：AI 绘图界真皇问世，从文字渲染到电商排版，它把竞品甩开两条街

开源界的“Claude Opus”？实测 GLM-5.1：能否在工程交付上实现反超？

4 月 8 日，智谱正式开源了 GLM 最新的 5.1 版本。GLM-5.1 是一次方向极其明确的版本更新——将模型的能力重心推向了一个具体问题：能否在长时间任务中持续工作，并且持续产生有效结果。

2月前
166
点赞
评论

开源界的“Claude Opus”？实测 GLM-5.1：能否在工程交付上实现反超？

告别代码片段拼接！GLM-5V-Turbo 评测：如何把“看图写代码”变成“自动化闭环”？

4 月 2 日，智谱发布多模态 Coding 基座模型 GLM-5V-Turbo。相比此前以文本为核心的编程模型。

2月前
241
点赞
评论

告别代码片段拼接！GLM-5V-Turbo 评测：如何把“看图写代码”变成“自动化闭环”？

性能平替还是效率降级？GPT-5.4 mini/nano实测：5.4家族模型选型指南

如果说 GPT-5.4 是前沿能力的集大成者，那么3月18日发布的 GPT-5.4 mini 和 GPT-5.4 nano，则是 OpenAI 为Agent 时代量身打造的极致效能工具。

2月前
182
点赞
评论

性能平替还是效率降级？GPT-5.4 mini/nano实测：5.4家族模型选型指南

Qwen3.5-397B-A17B 实测：397B 参数只激活 5%，开源旗舰到底有多强？

阿里千问于今年除夕开始推出的 Qwen3.5 系列，包含大中小三个参数系列，而最让人难以忽视的恐怕就是这款旗舰级的 Qwen3.5-397B-A17B

3月前
833
点赞
评论

Qwen3.5-397B-A17B 实测：397B 参数只激活 5%，开源旗舰到底有多强？

性能价格同时起飞，GPT-5.4 实测：目前数字员工的最佳形态？

OpenAI 这次属实是不按套路出牌，3月4日刚发布 GPT-5.3 系列两款模型，才过两天便直接发布了 GPT-5.4

3月前
429
点赞
评论

性能价格同时起飞，GPT-5.4 实测：目前数字员工的最佳形态？

实测GPT-5.3 Codex & Instant ：找准定位，别让你的 AI 跨界干活

时隔3个月，OpenAI 于3月4日更新模型，推出GPT-5.3 系列模型——包括深耕工程领域的 GPT-5.3-Codex 和主打日常高频交互的 GPT-5.3-Instant

3月前
232
点赞
评论

实测GPT-5.3 Codex & Instant ：找准定位，别让你的 AI 跨界干活

Claude Sonnet 4.6 实测：旗舰级体验，中端级成本，能否掀翻旗舰 Opus？

2 月 18 日深夜，Claude Sonnet 4.6 便悄然登场。这款官方宣称“史上最强 Sonnet”的模型，以接近 Opus 旗舰的性能、60%的定价，深夜炸场。

3月前
967
点赞
评论

Claude Sonnet 4.6 实测：旗舰级体验，中端级成本，能否掀翻旗舰 Opus？

Claude Opus 4.6 实测：百万上下文注入，依旧是顶级的编程脑

2026年开年，国产大模型圈热闹非凡。GLM、Kimi、Qwen等模型接连进行版本迭代，眼看着国内模型卷得飞起，大洋彼岸也终于开启更新节奏。 2月6日凌晨，Claude甩出了自己的新年王牌

4月前
665
点赞
评论

Claude Opus 4.6 实测：百万上下文注入，依旧是顶级的编程脑