因熟知而忽视：底层系统里，藏着 20% 未被挖掘的算力成本在企业的技术运营中，一条被广泛验证的降本增效路径早已形成共识：

1. 常规优化路径之外，仍有 10%-20% 隐藏空间

在企业的技术运营中，一条被广泛验证的降本增效路径早已形成共识：采购时通过规模优势压低硬件单价，使用时借助调度、混部和潮汐算力提升资源利用率，业务侧则持续优化应用代码和架构。这条路径清晰、务实，也确实帮助众多企业有效控制了 IT 成本。

然而，一个经常被忽略的事实是：即使那些拥有成熟技术团队、系统经过多年优化的业务，其计算成本中仍然普遍存在 10%-20% 的隐藏优化空间。对于一个年投入千万算力的客户来说，这意味着近百万的成本可以在不增加任何硬件投入的情况下被释放。

问题是：当我们已经在前端、架构、资源调度上做了大量工作，这 20% 的空间究竟藏在哪里？

2. 真正的性能瓶颈，藏在应用层之下

答案在于一个被长期忽视的视角：真正的应用运行，远不止于业务代码。

一次请求的完整执行，贯穿了五个关键层级：应用层（你的代码）→ Runtime 层（框架、库）→ 操作系统/内核层（资源管理、调度）→ 微架构层（计算流水线、Cache）→ 硬件系统层（CPU、内存、网卡、GPU 等）。

传统优化大多在前两层深耕，而将底层视为稳定不变的黑箱。但这恰恰是最大的认知陷阱：这个以 CPU 为核心的黑箱，其效率直接定义了上层业务的性能极限与成本底线。

因此，如果希望继续挖掘性能与成本空间，视角就必须下移至——从以 CPU 为中心的底层系统出发，重新理解应用是如何被真实执行的。

3. 为什么我们总误解 CPU？

3.1. CPU 时代：误把成熟当不再变化

在纯 CPU 时代，我们对它的关注往往停留在主频、核数、功耗这些表层指标。只要配置够用，CPU 便从讨论中消失。它甚至成熟到我们习以为常——多少人能立刻说出它的全称 Central Processing Unit？

这种稳定背景板的认知，让我们误以为一次适配，长期受益。然而现实是：CPU 是当前变化最快、差异最大的核心硬件之一。Intel 与 AMD 在微架构设计、缓存层级和 NUMA 拓扑上的不同取舍，ARM 与 x86 在指令集、内存一致性模型和能效路径上的根本差异，以及不同代际 CPU 在指令支持、内存与 IO 子系统上的快速演进……这些变化并不会影响应用能不能跑，却会深刻影响应用是如何被 CPU 执行的。

3.2. GPU 时代：CPU 从未退场

AI 时代，所有目光都聚焦于 GPU 的算力。然而，一个被严重低估的真相是：CPU 不仅是计算任务的重要参与者，更是整个 AI 计算流程中决定性的节奏掌控者。GPU 提供的是潜在算力，而 CPU 决定了其中有多少能转化为有效输出。

CPU 在 AI 计算中扮演着两个不可替代的核心角色：

关键环节的直接计算单元：从请求解析、Tokenization 到 Sampling，这些直接影响推理效率的关键环节，其计算本身就发生在 CPU 上。同时，一个常被忽略的事实是：SGLang、vLLM 等 AI 框架，本身就是运行在 CPU 上的一个大型应用程序
GPU 工作流的控制中枢与效率闸门：CPU 掌控着驱动 GPU 工作的两大关键：
- 内核调度策略：CPU 负责向 GPU 发射计算任务（Kernel）。频繁发射细碎的小 Kernel，会带来巨大的启动开销与同步等待，让 GPU 算力在频繁的启停间空转；而高效的 Kernel 合并与调度，则是 GPU 算力得以持续饱和的前提。
- 数据供给节奏：CPU 的计算效率，直接决定了预处理数据供给 GPU 的稳定性和速度。一旦 CPU 在计算或调度上出现延迟，GPU 的算力就会陷入无米下炊的等待状态。

这两者共同作用，决定了 GPU 的有效算力输出。

随着多智能体（Agent）架构逐步成为主流，CPU 的控制中枢角色正被显著强化。 在多 Agent 场景中，一次请求不再是单次推理，而是由规划、并行执行、工具调用与状态汇总构成的持续循环。CPU 负责其中的逻辑编排、状态管理与决策路由，充当系统的流程引擎。其性能不只影响单次响应延迟，更直接决定智能体系统的并发能力与复杂度上限。

优化 CPU，已从提升单点计算效率，演进为释放整体智能体效能的基础。

因此，优化 CPU 绝非次要任务，而是释放 GPU 性能、驾驭 AI 应用的核心前提。

4. 典型案例：从成熟业务到 AI 场景，CPU 底层系统瓶颈拖累业务效能

CPU 在底层的执行表现绝非理论推演。我们从成熟业务优化、平台迁移、AI 推理、AI 训练及硬件配置 5 个核心方向，选取 8 个真实案例进行展示。

4.1. 成熟业务 | 微架构与系统策略未调优 → 延迟再降 14%，月省成本超百万

案例背景：

百度大商业作为核心营收引擎，其业务支持体系涵盖架构、研发、质量、运维等多个维度业务逻辑复杂，通过持续优化系统性能已达世界顶级水准，各业务延时控制在 10ms 以内。现有优化主要集中在应用层和 Runtime 层，对系统底层领域（包括操作系统内核、微架构等）涉足较少，联合专项组对资源消耗最高的核心模块展开全栈优化，目标直指技术降本。

案例分析：

摒弃地毯式轰炸，聚焦资源消耗最高的模块，通过全链路性能剖析层层深入。线上流量压测与性能剖析工具显示，应用层热点分布合理，但下沉至操作系统内核和硬件性能计数器时，问题浮现：微架构层存在 TLB 缺失导致核心计算效率下降，系统层则面临内存分配路径的争用与 NUMA 策略不优，引发跨节点访问延迟。分析结论明确：操作系统内核调度、内存管理及 CPU 微架构利用效率存在显著优化空间，这让我们确信本次优化能触及深水区。

优化方案：

实施自底向上的分层优化 ——1）微架构层：通过数据结构重塑和透明大页应用缓解 TLB 压力；2）系统层：通过 NUMA 策略优化和内核参数调优提升资源分配效率；3）应用层：消除伪共享点。所有优化均经严格验证，确保稳定性。

优化效果：

各模块延时综合优化 8%-14%，QPS 提升 10%-20%，实现综合降本 100W+/ 月。

4.2. 平台迁移 | Intel 迁 AMD 后 CPU 内核态利用率偶发 100% → 稳定在 10% 以下，成功实现平台迁移

案例背景：

金融客户业务平台从 Intel 平台迁移到 AMD 平台后，偶发性出现 CPU 内核态利用率 100% 现象，导致业务延迟增加、吞吐量严重下降。问题影响范围广且无法预知发生时机，数百台已部署机器处于不可用状态，客户迁移项目停滞。

案例分析：

通过资源监控发现，上层业务进程持续占用内存和 CPU 资源不释放，内核态热点集中在内存管理和 TLB 刷新操作。初步怀疑与虚拟化配置相关。深入分析发现，业务应用的内存管理会频繁触发 TLB 刷新操作。Intel 平台的 APICv 硬件加速器可自动处理 TLB 的 IPI 中断刷新，而当时 AMD 平台的 VAIC（Virtual APIC Interrupt Controller）因配置问题未开启，这种硬件加速差异导致 AMD 的 CPU 每次 TLB 刷新，都会触发虚拟机 vmexit，造成严重性能损耗。

优化方案：

实施资源配置策略，将原本分配的 64 个逻辑核调整为 32 个物理核。

优化效果：

CPU 内核态利用率从偶发 100% 降至 < 10%，业务响应时间恢复正常，吞吐量恢复至预期水平。经过 72 小时压力测试和批量验证，问题解决率达到 100%，客户迁移项目重新启动，业务指标恢复正常。该案例凸显了异构平台迁移中 CPU 虚拟化指令支持差异对性能的深层影响，以及专业团队在复杂问题定位中的关键作用。

4.3. 平台迁移 | ARM 架构内核锁瓶颈，CPU 利用率达 95% → 性能指标与 x86 持平，利用率回归正常

案例背景：

大商业 ranker 业务部署在 ARM 架构机器后出现明显性能退化，平均响应时间和平响长尾延迟均增加 20%。更严峻的是，ARM 平台 CPU 利用率高达 95%，远超 x86 平台的 70%，系统负载压力巨大，亟需深入分析找出性能瓶颈根源。

案例分析：

通过火焰图和系统监控发现，问题主要集中在两个层面：内核态 CPU 占用达 40%（x86 仅 20%），热点函数 futex_wait 和 spin_lock 耗时占比异常且存在 idle load balance 跨路竞争问题。这表明业务存在严重的内核锁瓶颈：由于 ARM 跨 NUMA 内存延时高，导致内锁操作慢，出现 futex_wait 和 spin_lock 瓶颈。

优化方案：

在应用层通过调整 bthread 线程库的切换策略，将 bthread 协程切换方式从系统默认方式改成周期性唤醒方式，优化内核的 futex_wait 和 spin_lock 瓶颈。

优化效果：

ARM 平台性能显著提升，平均响应时间从 200ms 降至 160ms，CPU 利用率回归至 70%，各项指标均达到预期水平，验证了跨平台性能优化的有效性。

4.4. AI 推理 | Tokenizer 线程单点瓶颈，QPS 卡在 600 → 突破 1200，GPU 利用率同步提升

案例背景：

Decode 集群需稳定支持 1200 QPS 实时推理服务，但实际负载超过 600 QPS 时，系统频繁出现请求异常中止（abort），日志显示 decode 阶段 token 生成间隔超过 30 秒，导致客户端超时断开。监控显示单个 CPU 核心持续满载，其余核心利用率不足，提示任务分配不均。

案例分析：

通过硬件检查和操作系统分析，CPU 频率、内存带宽、网络吞吐量均符合规格，未见硬件瓶颈。性能剖析工具生成火焰图锁定核心问题：v1_chat_generate_request 解码循环占用近 90% 的 CPU 执行时间，说明 tokenizer 线程成为了推理系统的瓶颈，导致请求无法及时处理而堆积。

优化方案：

在应用层引入线程池，将 tokenizer 任务拆分为并行流水线，基于 QPS 波动动态调整线程数。

优化效果：

系统性能指标显著改善，QPS 提升至 1200+，abort 率降至 0%，Decode 阶段 token 间隙正常，符合预期目标。该案例验证了 CPU 性能在推理过程的重要作用，随着 GPU 算力提升 CPU 算力也要跟得上，如果 CPU 在关键路径成为瓶颈，往往会导致 GPU 卡算力无法发挥，从而影响整个系统推理性能。

4.5. AI 训练 | 国产 CPU+XPU 训练性能下降 9% → 反超 Intel 平台 5.18%

案例背景：

百度数字人训练服务需从 Intel + P800 平台迁移至海光 + P800 平台实现国产化替代。迁移后发现性能下降 9%，严重影响模型训练效率，导致业务交付周期延长。这一性能瓶颈成为项目不可接受的障碍，亟需深入分析找出根本原因。

案例分析：

通过算力差异分析发现，海光 CPU 单核算力较 Intel 平台存在明显差距，火焰图深入分析验证了问题：小算子执行时间占比显著上升，关键路径函数调用次数超出预期，数据预处理与模型计算无法有效并行，形成 CPU-XPU 协同瓶颈。

优化方案：

实施三个层面的优化来减少 CPU 执行间隙 ——1）Runtime 层：通过编译优化和内存接口调用优化，提升 PaddlePaddle 基础依赖包在海光平台的 kernel launch 效率；2）应用层：使用流水线并行机制，合并高频调用的小型算子，从逻辑上减少 CPU 间隙。

优化效果：

海光平台性能从落后 Intel 9% 转变至领先 5.18%，不仅解决迁移问题，更为异构计算平台性能调优提供了可复用技术路径。通过这个案例我们可以看到，GPU 的理论性能高度依赖 CPU 是否能够高效完成任务编排、数据路径组织与多设备协同，一旦 CPU 侧的能力跟不上，CPU 就会在不知不觉中成为 GPU 扩展的隐性瓶颈。

4.6. AI 训练 | T5 模型在国产平台训练异常卡顿 → 指令优化后性能与 Intel 打平

案例背景：

内部商业训练任务部署 T5 模型在海光 7490 机器上进行模型训练时，出现异常缓慢和长时间卡顿现象，严重影响业务交付效率。这一性能问题成为项目推进的重大障碍，需要深入分析找出根本原因。

案例分析：

通过精度配置检查发现，T5 模型采用 BF16 精度训练，但海光 7490 平台不支持 AVX512_BF16 向量指令集，与 Intel 平台存在指令级差异。在不支持 AVX512_BF16 指令的情况下，PyTorch 框架采用单 CPU 软件模拟实现，导致计算效率急剧下降。

优化方案：

尝试两种优化路径 ——1）将 BF16 精度转换为 FP32，再通过 torch.nn.functional.cast 函数动态转回 BF16，避免单 CPU 模拟实现；2）修改关键 XPU 算子（如 torch.matmul 和 torch.relu）的实现逻辑，规避 BF16 在海光 CPU 上的模拟计算开销。最终采用第二种方案。

优化效果：

海光平台训练速度从极慢卡顿状态恢复正常，BF16 计算效率显著提升，与 Intel 平台性能打平，成功解决了训练任务的性能瓶颈问题。

4.7. 硬件配置 | 200Gb/s 网卡实测仅 65Gb/s，内存带宽成瓶颈 → 带宽提升 177%，存储吞吐提升 2.8 倍

案例背景：

海光 4 号新机型部署 RapidFS 分布式缓存加速服务时遭遇性能瓶颈，机器配置 200Gb/s 网卡但实际网络带宽仅达到 65Gb/s，无法满足业务 I/O 吞吐要求。这一巨大性能差距严重影响存储服务效能，亟需深入分析找出制约因素。

案例分析：

通过 iperf 基准测试确认网卡实际吞吐量仅为 65Gb/s，而同型号 Intel 平台可达到 180Gb/s 以上，排除硬件故障可能。资源监控发现内存带宽使用率持续接近 100%，成为系统瓶颈，进一步分析证实，网络处理需要频繁内存拷贝操作，内存的硬件指标偏低成为性能瓶颈。同时，系统配置检查发现默认 1500 字节 MTU 未优化、大帧接收聚合功能未启用、网卡队列深度不足等内核网络策略配置问题。

优化方案：

实施硬件配置优化和内核参数调优 ——1）硬件层：升级至更高带宽的内存硬件配置，确保所有内存通道均匀填充；2）内核层面：将 MTU 调整至 9000 字节，开启大帧接收聚合，增加网卡队列数量并优化内核网络参数。

优化效果：

网络带宽从 65Gb/s 提升至 180Gb/s，提升幅度达 177%，内存带宽使用率降至 75%，CPU 网络中断占比降低 20%。rapidFS 存储服务 I/O 吞吐量提升 2.8 倍，完全满足业务 SLA 要求。

4.8. 硬件配置 | 双路服务器内存插错，CPU 利用率波动大 → 单机转码性能提升 30%

案例背景：

百度直播业务在双路米兰机器上部署多进程服务时，进行性能压测发现 CPU 核心负载严重不均，部分核心频繁出现空闲状态，利用率偶尔趋近于 0%，1 分钟内多次出现几秒不均现象。核心资源浪费导致单机转码路数受限，影响业务容量规划。

案例分析：

通过 USE 方法分析，整机 CPU、内存、存储、网络使用率均无异常，但深入分析发现 CPU 利用率波动明显。性能剖析显示应用最高热点为内存相关操作，在排除应用问题后，将焦点转向内存带宽监控。发现 NUMA0 节点内存带宽远低于 NUMA1 节点，CPU 利用率为 0 的情况与内存带宽瓶颈存在强相关性，属于内存硬件瓶颈。

优化方案：

实施内存重新配置优化，按照硬件推荐配置（channel C/D/G/H）重新插拔内存条，替换原错误插放（channel A/C/F/H）的方式，确保两个 CPU 节点内存带宽对称。

优化效果：

NUMA0 内存带宽与 NUMA1 节点持平，CPU 核心利用率波动基本稳定，单机转码路数提升 30%。该案例验证了底层硬件优化对业务性能的重要价值。

5. 人工优化底层系统，难以落地执行

上述案例答案简单，但解题过程极其复杂。随着系统复杂度的提高，人工性能优化面临三重难以逾越的高墙：

指标检测之困：需综合十余种工具、上百项指标，从应用、Runtime、内核、硬件多层面抓取数据。专业工具如 VTune 门槛高，且难以在线化、平台化。
根因定位之迷：一个「memory copy 耗时高」的现象，背后可能是数据结构、线程争抢、内存分配或 NUMA 问题。区分「合理消耗」与「可优化瓶颈」，极度依赖专家经验。
优化实施之难：找到根因后，如何设计并验证有效的优化方案？这往往需要大量的试错与专业知识。

结果就是：大多数团队能看到现象，却无法系统分析；少数团队能分析到根因，却不知如何解决。系统级优化能力，因此成为只存在于少数专家头脑中的黑魔法。这也意味着，一旦专家流动，能力就随之流失，组织层面无法形成可持续的系统优化能力。

6. Btune 让底层系统级优化成为一项「可复制的基建」

当人工路径被证明是条绝路，自动化与智能化成为唯一选择。百度智能云 Btune 的使命，正是将系统级性能优化，从一门艺术转变为一项可工程化、可规模化的基础设施能力。

最新发布的 Btune 2.0 接入了 AI 智能体，升级了性能诊断树，更好的支持 CPU + GPU 协同计算场景的性能调优。

它通过三层架构实现这一点：

负载画像（指标知识化）：自动进行全维度指标检测，从资源消耗与耗时分布两个维度，构建精准的负载性能模型。
性能诊断树（分析逻辑知识化）：基于百度海量优化案例库，构建覆盖计算、内存、磁盘、网络、GPU、互联、并行度、耗时等八大维度的诊断树，实现自动化根因定位，并提供工具化的优化套件（Btune AK）。
AI 智能体（调优决策智能化）：融合硬件数据、知识库与实时画像，通过大模型技术生成包含瓶颈分析、优化建议、成本收益评估的综合报告，让决策清晰可执行。

拥有 Btune，就如同为您的团队配备了一位不知疲倦、经验丰富的「首席性能架构师」。

7. 现在启动 Btune，零风险回收那 20% 的隐藏价值

百度智能云 Btune 已全面支持 BBC/BCC/CCE 全系列计算实例，为企业提供平台化、零代码侵入、智能化的线上业务性能深度分析与调优能力。

Btune 的一键分析功能让业务性能优化零门槛：性能异常时，它是精准定位问题的诊断利器；常规运行时，它是挖掘潜在优化空间的效率工具。

四步快速上手，轻松解锁算力优化价值，让复杂的问题几分钟搞定。

Step 1 发起诊断：登录百度智能云控制台，进入 BBC/BCC/CCE 模块，找到自助诊断工具，创建诊断任务并选择「应用程序性能检测 Btune」。

Step 2 选择目标：登录对应虚拟机完成 Btune-Agent 轻量安装，返回 Btune 操作页面，选定待分析的云实例与具体业务进程 PID。

Step 3 一键分析：点击开始分析按钮，等待数分钟，即可生成多维度、可视化的性能分析报告。报告涵盖 CPU、内存、网络、IO、GPU、互联、并行度、耗时分布八大核心维度的分析摘要，AI Agent 将直接输出瓶颈精准定位、针对性优化建议、成本收益评估，同时可查看底层详细指标，让问题根源一目了然。**
**

Step 4 使能加速：Btune-Agent 提供工具化优化套件，基于分析报告的优化建议，可实现一键使能加速策略，完成从性能诊断到优化落地的全闭环，让算力优化效果快速落地。具体案例见：cloud.baidu.com/doc/CHPC/s/…

而这一切，无需你额外投入硬件资源，也无需依赖稀缺的技术专家长期攻坚，只需启动 Btune，就能零风险挖掘出 10%-20% 的隐藏算力空间，让那些被浪费的沉默算力资产，转化为业务吞吐量提升、响应延迟降低的实际效能，最终成为企业实打实的竞争优势和利润增量。

是时候，打开底层系统的黑箱，稳稳收回那本该属于你的 20% 算力价值了！