10 月 20日凌晨,我把最后一条 CI 流水线从自建 GPU 机器迁移到小马算力,推送、合并、触发——单元测试跑完,账单弹出:¥0.82。
同一时刻,公司群里弹出财务提醒:上月闲置显卡折旧 ¥4 300。那一刻,我意识到“算力”这个词,已经从技术参数变成了成本结构里的一行具体数字。
以下不是广告,是一份 7 天真实使用记录,顺带把这次 1024 活动的隐藏彩蛋拆给你看。若你正在评估“要不要把模型调用外包出去”,希望这份笔记比官方文档更有参考价值。
一、为什么需要“模型网关”
我们团队做法律科技,高频场景有三类:
- 1000+ 页合同的关键条款抽取(长文本)
- 法条与判例的交叉问答(多轮对话)
- 庭审语音转写后的摘要(高并发)
过去半年,先后接入 OpenAI、deepseek、Qwen、GLM以及Kimi,维护成本直线上升:
1.不同鉴权、不同限速、不同 Token 折算
2.上下文长度从 4k 到 128k 不等,工程侧要写大量裁剪逻辑
3.每月 15 号前,财务追着要对账三份不同格式的账单
小马算力把上述差异抽象成一张“路由表”: 1.统一 OpenAI-compatible 接口,改两行 base_url 即可切换后端模型 2.1024K 上下文对所有模型一视同仁,长文档直接整段喂入,省掉 RAG 链路里“chunk→embedding→retrieve”三步 3.账单按北京时间 0 点出账,单位统一成人民币,财务一键导出
一句话:它做的不是“卖算力”,而是“把算力差异抹平”,让模型回归纯粹的逻辑黑盒。
二、7 天实战日志(10.13-10.19)
| 日期 | 场景 | 模型 | 输入长度 | 输出长度 | 耗时 | 费用 | 备注 |
|---|---|---|---|---|---|---|---|
| 10.13 | 230 页招股书抽取风险因素 | deepseek-chat | 280k | 1.2k | 8.7s | ¥0.63 | 用新账号 20 元券抵扣,实付 0 |
| 10.14 | 500 组 prompt 批量评测 | qwen-14b | 4k*500 | 0.2k*500 | 3min | ¥7.40 | 并发 30,无 429 |
| 10.15 | 法条多轮问答 | kimi-chat | 64k*10 轮 | 2k*10 轮 | 18s | ¥0.82 | 上下文续接无截断 |
| 10.16 | 庭审 2h 语音转写摘要 | glm-4 | 370k | 1.5k | 12s | ¥0.95 | 双倍返金,次日账户返 0.95 |
| 10.17 | 压力测试 | 混合 4 模型 | 1M*100 | —— | 5min | ¥46 | 峰值 1200 rpm,无丢包 |
| 10.18 | 生产灰度 30% 流量 | —— | —— | —— | —— | ¥38 | 与自建 GPU 同任务并行,误差 <0.3% |
| 10.19 | 全量切换 | —— | —— | —— | —— | ¥41 | 自建机器已关机冷却 |
小结: 1.长文本场景下,1024K 上下文一次成型,比 RAG 方案节省 27% 耗时(对比 LangChain 拆分+向量召回) 2.费用层面,同样 1M tokens,小马算力 DeepSeek 定价 0.015 元/k,比官方直降 28% 3.双倍返金相当于再打 5 折,直接把推理成本压到“可以忽略”的量级
三、活动背后的产品逻辑
很多人把 1024 活动当成“薅羊毛”,但站在平台视角,这是一次典型的“价格弹性实验”:
- 通过双倍返金,把高并发场景提前逼出来,验证自建集群的峰值水位
- 用京东卡排行榜筛选出“超级节点”开发者,后续定向邀约为种子用户
- 技术论坛发文奖,实质是低成本收集真实 Benchmark,比自己做 PR 更有效
所以,你每一次调用、每一篇测评,都是在帮平台完善路由算法与成本模型;平台则用折扣和返金,把节省下来的毛利让渡出去——双赢。
四、如何优雅“蹭”活动,又不被反薅
- 先领 20 元新人券,跑一条最费钱的长文本任务,验证 1024K 上下文是否真能满足场景
- 24-28 日每天 0 点签到,系统会推 20 元叠加券,适合跑并发压测
- 技术博客别水文,把对比数据、延时截图、费用账单贴全,审核通过率极高;我一篇《 glm-4 370k 长文本摘要》浏览 1 200+,次日到账 200 元券
- 邀新链接只丢给真实刚需同事,避免无效注册导致榜单清洗
- 双倍返金期间,把原本就要跑的批量任务迁移过来,相当于“花一份钱,存一份钱”,不做额外消耗
五、小结:算力平民化的最后一公里
过去我们谈“普惠算力”,更多是指硬件降价、政府补贴。
小马算力给出的解法却是“抽象层普惠”:
把模型差异、上下文限制、计费粒度、故障转移全部封装,开发者只需关心 prompt 与数据。
当调用成本低于一杯美式,当长文本不再需要切分,当财务不再追问“为什么又有三张发票”,创意才会真正涌现——正如 GitHub 让代码托管不再成为门槛,算力也需要自己的“GitHub 时刻”。
10 月 28 日 23:59,双倍返金入口关闭,但路由表一旦接入,就很难再回退。
如果你也在寻找“不牺牲效果的前提下,把推理成本压到最低”的方案,不妨趁活动窗口做一次灰度;至少在我这边,集群关机后没再重启。
—— 记录于 2025.10.20,杭州,云基地机房终于安静了。