DeepSeek 推理接近 4 倍提速，这家 AI 推理云是怎么做到的？在今天举办的 Deploy 大会上，Digita

在今天举办的 Deploy 大会上，DigitalOcean 正式宣布 DeepSeek V3.2、MiniMax-M2.5 和 Qwen 3.5 397B 在 DigitalOcean Serverless Inference （AI 推理云平台）上全面可用。DigitalOcean 推理云上的 DeepSeek V3.2 和 Qwen 3.5 397B ，在参与 Artificial Analysis 测试的所有云中实现了 第一名的输出速度。具体到 DeepSeek V3.2，这意味着在 10,000 个输入 token 的情况下，输出速度达到 230 token/秒，首 token 时间（TTFT）低于 1 秒。

这篇文章将讲述 DigitalOcean 是如何做到这一点的：GPU 层面的工作、服务栈的调优，以及在此过程中做出的具体技术取舍。

除了开源大模型，DigitalOcean Serverless Inference 还提供 Claude Opus 4.7、GPT 5.4、GPT Image 2 等多种商用大模型，新注册用户可直接联系卓普云（aidroplet.com）申请使用权限。

为什么快速推理很重要

AI 开发的重心已经从模型训练根本性地转向了推理效率。这一转变是由智能体工作负载、Copilot 以及实时系统（这些构成了下一代 AI 应用的核心）的普及所驱动的。对于这些应用而言，速度不再仅仅是一个性能指标，它是决定一个产品是引人入胜还是被用户弃用的关键区别因素。具体来说，低延迟推理对于无缝的终端用户体验至关重要。对于对话式智能体、语音界面等高度交互的应用，任何超过 1 秒 TTFT 的延迟都会让用户感到卡顿。

快速推理的重要性因现代 AI 工作流的复杂性而进一步放大。例如，一个智能体任务往往涉及数十次顺序模型调用，即使每次调用微小的每输出 token 时间（TPOT）延迟，累积起来也会变成用户可见的几秒钟延迟。快速推理还能为企业提供可靠的性能和更低的成本。在此领域的优化（例如 DigitalOcean 推理引擎所提供的）使企业能够获得卓越的 token 经济性、持续的高吞吐量和可预测的低延迟，这对于以可靠且经济的方式扩展其 AI 原生应用至关重要。

在 Artificial Analysis 速度基准测试中领先

DigitalOcean 今天发布的基准测试结果反映了这一点。在 10K 输入 token 的 DeepSeek V3.2 上，DigitalOcean 实现了：

输出速度：230 token/秒（AWS Bedrock 为 59 token/秒，DigitalOcean 是其 3.9 倍）
TTFT：0.96 秒（在测试的 12 家提供商中，仅 Google Vertex 比 DigitalOcean 更快）
延迟与输出速度之间的均衡性能：在 Artificial Analysis 的延迟 vs. 输出速度象限图中，DigitalOcean 是仅有的三家位列最优象限的提供商之一。

deepseek latency 图 1：DeepSeek V3.2 非推理版，各提供商输出速度对比。来源：Artificial Analysis，2026 年 4 月。

deepseek latency 图 2：DeepSeek V3.2 推理版，各提供商输出速度对比。来源：Artificial Analysis，2026 年 4 月。

deepseek latency 图 3：DeepSeek V3.2 推理版，延迟 vs. 输出速度象限图。来源：Artificial Analysis，2026 年 4 月。

MiniMax-M2.5 和 Qwen3.5 397B 的性能数据类似：

minimax-m25 图 4：MiniMax-M2.5，各提供商输出速度对比。来源：Artificial Analysis，2026 年 4 月。

minimax-m25 图 5：MiniMax-M2.5，各提供商延迟 vs. 输出速度对比。来源：Artificial Analysis，2026 年 4 月。

minimax-m25 图 6：Qwen 3.5 397B，各提供商输出速度对比。来源：Artificial Analysis，2026 年 4 月。

minimax-m25 图 7：Qwen 3.5 397B，各提供商延迟 vs. 输出速度对比。来源：Artificial Analysis，2026 年 4 月。

数字背后的工程

要达到这一性能水平，仅靠最前沿的 GPU 是不够的。在最新一代硬件上使用标准配置，往往无法在 Artificial Analysis 排行榜上登顶。为了取得这些成果，DigitalOcean 对技术栈的每一层进行了协同设计和优化：精选高端 GPU、在虚拟化 NVIDIA Blackwell Ultra GPU 上最大化 CUDA 效率、实现推测解码，以及在速度与准确性之间取得最佳平衡的位置应用量化技术。

硬件：NVIDIA Blackwell Ultra 的强大性能

DigitalOcean 性能突破的基础是 NVIDIA HGX™ B300 GPU。Blackwell Ultra 架构实现了巨大的飞跃，拥有 288GB HBM3e 容量（比 B200 增加 50%），以及 1.5 倍的 NVFP4 计算能力。这一硬件基础对于处理 DeepSeek 和 Qwen 的大规模吞吐需求至关重要。尽管在虚拟化环境中的早期部署导致性能下降了 25%，但 DigitalOcean 与 NVIDIA 的直接合作解决了这些问题，完全释放了 Blackwell 芯片的潜力。

模型量化：NVFP4 的高效性

DigitalOcean 使用了模型的 NVFP4 量化版本，这是一种专门的 4 位浮点格式，可显著减少内存占用（相比 FP8 约减少 1.8 倍）并提高推理吞吐量。这些优势由 NVIDIA Blackwell Ultra 架构独家提供，该架构具有 1.5 倍的专用 NVFP4 计算能力，从而在几乎不影响模型精度的前提下实现巨大的性能提升。有关 NVFP4 精度与原始 FP8 模型权重的对比，请参阅 DeepSeek V3.2 的模型评估。

然而，纯粹的芯片和量化只是故事的一半。要将这种硬件能力转化为世界级的推理速度，DigitalOcean 必须实现高度定制化的软件栈。

推理引擎：vLLM 的性能优化

DigitalOcean 通过一系列技术对开源 vLLM 服务框架进行了优化：

张量并行：DigitalOcean 使用了张量并行技术，将大型模型层分布到多个 GPU 上，这是运行超出单个 GPU 内存容量的模型所必需的技术，需要高速 GPU 互连。根据模型大小，DigitalOcean 使用 TP4 或 TP8 配置，在 4 个或 8 个 GPU 上运行推理。
内核融合：这项关键优化将多个运算融合到单个 GPU 内核中，从而最大限度地减少单个内核启动的开销，并减少 CPU 间隙。通过在芯片上执行这些合并后的运算，内核融合显著减少了较慢的片外内存访问，从而实现更快的处理速度。
**可编程依赖启动（Programmatic Dependent Launch）**：DigitalOcean 使用可编程依赖启动技术，尽可能重叠内核，从而隐藏内核启动开销并减轻短运行内核的尾部效应。这使得低批量、低并发、高交互性工作负载的性能提升了约 10%。
**推测解码与多 token 预测（MTP）**：DigitalOcean 利用最新的模型特性，如 DeepSeek 的多 token 预测，来加速 token 生成，从而改善每输出 token 时间。MTP 被用作推测解码优化的一部分，以提高生成速度。该技术使用一个较小的草稿模型（MTP 头或 EAGLE 头）来预测 token 序列，然后由较大的目标模型在单次前向传播中进行验证，从而在保持主模型输出高质量的同时显著提高吞吐量。对于 MiniMax-M2.5，DigitalOcean 使用 TorchSpec 训练了一个 EAGLE3 草稿模型——这是一个 torch 原生的在线推测解码训练框架，它同时运行 FSDP 训练和基于 vLLM 的目标推理，通过从 MiniMax-M2.5 重新生成的响应和实时的 vLLM 生成的隐藏状态中学习，来匹配基础模型的确切 token 分布。在部署时，DigitalOcean 的实验表明，减少草稿模型的张量并行度可以最小化 GPU 间通信开销，从而提升性能。对于 MiniMax-M2.5，通过在配置中设置 "draft_tensor_parallel_size": 1，每输出 token 时间（TPOT）改善了 23%。

内核融合和草稿模型训练是与 Inferact 密切合作完成的。Inferact 是领先推理服务引擎 vLLM 的原创团队，他们的专业知识对于针对特定 GPU 和模型版本优化这些复杂工作负载起到了关键作用。

真实世界的性能

这些技术已经在为客户提供大规模推理服务的生产环境中运行。Workato 使用智能体 AI 扩展其生产自动化，处理超过 1 万亿次自动化工作负载，它运行在 DigitalOcean 的推理平台上，实现了 77% 更快的首 token 时间、79% 更低的端到端延迟以及 67% 更低的推理成本。

“在 DigitalOcean 之前，DigitalOcean 没有针对多节点服务的专用解决方案，这拖慢了 DigitalOcean 的 AI 进展。DigitalOcean 让 DigitalOcean 快速启动并运行起来，通过在性能优化方面的紧密合作，帮助 DigitalOcean 加速推理性能，整体进展提高了两到三倍。”——Oscar Wu，Workato 人工智能研究科学家与技术负责人

前进之路：扩展智能

DigitalOcean 对性能的承诺不止于此。DigitalOcean 正在扩展优化模型的目录，以满足不断变化的客户需求。当 DigitalOcean 迈向推理的下一个前沿时，DigitalOcean 正在构建支持多节点服务的基础设施，具备解耦配置和 Wide Expert Parallelism 能力，以处理全球最苛刻的智能体工作负载。通过硬件与软件的协同设计，DigitalOcean 将持续为 AI 原生构建者提供规模化所需的性能。

立即在 DigitalOcean Serverless Inference 上试用 DeepSeek V3.2、MiniMax-M2.5 或 Qwen 3.5 397B 吧！

除了开源大模型，DigitalOcean Serverless Inference 还提供 Claude Opus 4.7、GPT 5.4、GPT Image 2 等多种商用大模型，新注册用户可直接联系卓普云（aidroplet.com）申请使用权限。