首个「牛马模型」?实测Minimax M2.5搭了个特斯拉股票交易系统

0 阅读7分钟

绝大多数人对 AI 的耐心,正在消失。

过去两年,我们似乎陷入了一个巨大的误区。

每一次新模型发布,大家都在盯着榜单看。MMLU 多少分?数学推理是不是第一?参数量是不是又大了?

但作为一个每天都要处理大量业务的创业者,我发现这些分数和我的真实工作流是割裂的。

我在乎的不是它能不能做奥数题,而是它能不能像一个真正的「员工」一样,接过我手里繁琐、枯燥甚至复杂的任务,并且按时交付。

昨天,Minimax 发布了 M2.5,官方给它的定位很有意思:Workhorse Model(主力生产力模型)+ 100 TPS(每秒处理100个Token的疯狂速度)

horse?这不妥妥的牛马模型吗?

于是我抓了一些真实的办公室场景,看下它到底是不是「白领生产力」

结果非常意外。

不是因为完美,而是因为它展现出了一种极其可怕的「执行惯性」。

01

深度结合Office 三件套

第一个任务,我扔给了它一份 80 多页的PDF《2025年跨境电商行业年度报告》。

这通常是公司里初级分析师最头疼的工作:阅读几十页的原始资料,提取数据,然后重构成一份新的、符合公司品牌调性的 Word、Excel 和 PPT。

令我惊讶的不是内容的准确性,而是它对「文档工程」 的理解。

先看下 Word 的实力,提示词:

附件《2025年跨境电商行业年度报告-AMZ123-202601.pdf》我们是 NGS 全称是 NextGrowthSail Ltd,是帮助国内品牌做出海营销的机构,目前主营 Reddit 代运营、GEO (AI SEO)的服务。我们也想出一个类似的品牌出海营销报告。现在需要你帮我完成这个任务。首先需要你把这个 pdf读一遍,把其中关于「品牌营销」「市场营销」「社交媒体」「Reddit」「SEO」「GEO」「AI」相关的内容都抓出来,尤其是数据。写到一个Word 文档里,重新写成《2025 NGS品牌出海营销洞察报告》,要求图文并茂。所有内容都不能你自己捏造,要求注明来自原 pdf 的第几页哪个位置,如果是外部的引用也要给出详细具体的网址,确保真实可靠性。

我是直接在MiniMax 的页面 Agent 测的:

Image

在子代理这里把 office 相关能力火力全开:

Image

结果还真挺好,既有「插入目录」

Image

又有封面、页头页尾、表格,都排好版的,真的很省事

Image

Image

Image

这种对文档结构的还原能力,意味着它已经脱离了“文本生成”的范畴,进入了“文档处理”的领域。

接着继续,看Excel 能力怎么样。

提示词:

接下来,把 word 里的所有表格数据都整理到 Excel 里的多个 sheet,并且做透视表、图表等「进阶操作」使得 Excel 看起来很复杂、老板很喜欢看。

排版还是不错的,Excel 的表格也美化了

Image

图表也能做好

Image

这就是 Minimax 强调的 Workhorse Model(主力模型)能力。

在处理 docx、xlsx 这种核心生产力格式上,它确实跨过了一个门槛:从生成内容,变成了生成交付物。

当然,槽点也是有的。

当我让它基于这些数据生成 PPT 时,虽然内容逻辑是对的,但那个审美和排版。。

这是我们 NGS 出海营销的 logo,接下来需要你设计配色,基于前面的 word、Excel 做一份 pptx 报告,要有欧美品牌的高逼格审美,内容详实、数据可信。

Emm...

整体来说是 ok 的,但如果要论 AI 生成 PPT 来讲的话,仿佛是上一代的产品。

Image

Image

Image

完整 PPT 报告:xqmenq48tn6h.space.minimaxi.com/

这说明了一个问题:在结构化和逻辑严谨的工作( Word 和 Excel )上,M2.5 已经是行业 SOTA(领先)水平;

但在需要审美和创意的PPT环节,它依然需要人类去把关。

02

AI 数据分析:速度提高 73%

如果说 Office 三件套是基础题,那接下来的任务就是附加题。

我给它扔了两份脏乱差的亚马逊竞品评论数据(xlsx),要求它扮演一位“商业洞察分析师”,写 Python 脚本进行清洗、情感分析,并输出一份 HTML 格式的深度交互报告。

注意,这不是简单的总结,而是需要 Coding 能力介入的深度数据挖掘。

同类的任务,我半年前用其他顶级模型跑过,耗时半小时以上。

看我原文设计的提示词就知道需求有多复杂了。

但这一次,Minimax M2.5 只用了 8 分钟。

Image

整体的报告是到位的

Image

可视化效果很好:

Image

排版真不错,图下面给了解读

Image

Prompt 的要求也遵循很好

Image

这验证了 M2.5 的一个核心逻辑:Coding 能力的下放。

它不再只是程序员的工具,而是变成了业务人员的数据铲子。你不需要懂 Python,你只需要懂业务,它就能帮你把数据变成结论。

03

全栈开发一个美股模拟交易系统

前两个 Case 还是在处理静态文件,最后这个 Case,我要测它的 Agentic(智能体) 能力。

我要求它开发一个「特斯拉股票与舆情监控 AI 系统」。

这极其复杂:

  1. 1. 前端:要用 React 写一个特斯拉风格的仪表盘。
  2. 2. 后端:要连接真实的新闻数据源和股票接口。
  3. 3. 数据库:要连接 Supabase,记录交易数据。
  4. 4. Agent:AI 要自己根据舆情判断买卖,并自动执行操作。

参考提示词:

独立开发一个企业级的「特斯拉股票与舆情监控AI系统」就只看特斯拉这只美股股票,左边是 K 线趋势可能占 60%,右边40% 是「马斯克」这个人和「特斯拉」的相关最新的新闻滚动分析并且右边给出买卖的决策建议,需要有美股价值投资、短期投机的理论支撑。并且自带一个「模拟交易」系统的后端,让 AI 自动根据收集到的舆情信息、对特斯拉股票的技术分析等,自行去交易,记录下关键的操作的时间、金额等核心数据,用于后续复盘策略。所以你要判断这个前后端项目需要什么、需要真正能长期跑起来、并且审美高级好看、符合特斯拉风格的。我已经连好 supabase 数据库了,接下来就交给你了。

Minimax 现在的 Agent 平台直接内置了 Supabase 支持,大大降低了门槛。

Image

老实说第一次还是有点问题的,页面需要下拉,导致 K 线图被拉变形了

Image

好在一次就改好了:

Image

(图注:左侧是实时的 K 线,右侧是 AI 分析出的舆情与决策建议)

右边的模块包含三个部分:理论、舆情监控、模拟交易。

Image

Image

Image

感兴趣可以玩下:7y35p3ao81zr.space.minimaxi.com/

整体前后端是通的。

例如我操作一下,买 10 股特斯拉

Image

数据库马上有记录了,余额也是对得上的。

Image

这意味着什么?

意味着 AI 不再是只能在对话框里口嗨的“大脑”,它有了“手”。它可以通过数据库、通过 API,去真实地触碰这个数字世界。

Designed for Agent-verse(为智能体生态设计),在 M2.5 身上不是一句空话。

它极强的任务规划能力和长链路执行力,让它能够像一个资深全栈工程师一样,自己去 Debug,自己去调优。

04

结论:效率即正义

三个 Case 跑完,我最大的感受其实不是“智能”,而是“快”。

官方数据说 M2.5 支持 100 TPS 的超高吞吐量,推理速度是 Claude Opus 的 3 倍。

在实际体验中,这种“快”带来了质变。

当 AI 写代码像流式输出一样快,当它生成一份万字报告只需要几十秒时,试错成本被无限降低了。

PPT 丑了?两句话让它重做。

代码报错了?一秒钟让它修复。

这才是 AI 融入工作的真实路径:它不需要一次就做到 100 分,它只需要以人类 10 倍的速度拿出 80 分的初稿,然后陪你快速迭代到 95 分。