别再迷信"优化"：大多数性能问题根本不在代码里前言：一个性能优化的常见幻觉 "这段代码太慢了，我得优化一下。" 我几乎每

前言：一个性能优化的常见幻觉

"这段代码太慢了，我得优化一下。"

我几乎每天都能听到这句话。程序员们拿着Profiler的输出，找到一个"热点函数"，然后兴冲冲地开始重构：把ArrayList换成LinkedList，把循环展开，把递归改成尾递归，把SQL语句加上子查询......

三周后，他们发现：性能没有改善。

这不是一个孤立的案例。根据我的观察，大约70%的性能问题，其瓶颈根本不在代码层面。你花了两周时间优化的那个算法，对整体延迟的贡献可能不到1%。

问题的根源，可能在网络、在数据库、在GC、在架构设计，甚至在——说出来你可能不信——没有给服务器接网线。

本文将系统性地颠覆你对"性能优化"的认知，告诉你为什么代码层面的优化往往收效甚微，以及真正的性能瓶颈藏在哪里。

第一部分：你以为的性能优化，和真实的性能优化

1.1 一个让你怀疑人生的实验

在我正式开始讲理论之前，我想请你做一个思想实验。

假设你负责一个API服务，它的P99延迟是2000ms，用户怨声载道。老板说："给我们优化到200ms以内。"

你信心满满地开始分析，发现：

环节	耗时	占比
数据库查询	1800ms	90%
业务逻辑计算	50ms	2.5%
序列化/反序列化	50ms	2.5%
网络传输	50ms	2.5%
其他	50ms	2.5%

数据库占了90%，这很明显。你开始疯狂优化SQL：加索引、重写查询、用Redis缓存......

一周后，数据库查询时间从1800ms降到了500ms。

P99延迟变成了多少？

700ms。

你优化了64%的数据库耗时，但整体延迟只改善了36%。

这说明什么？

木桶效应：系统的性能取决于最短的那块木板，但如果你只优化那一块，其他木板可能成为新的瓶颈。

1.2 性能优化的认知陷阱

让我们来分析一下为什么这么多人迷信"代码优化"：

陷阱一：代码是可见的，其他是不可见的

可见度排序：
代码 > 配置 > 中间件 > 网络 > 硬件

优化意愿排序：
代码 > 配置 > 中间件 > 网络 > 硬件（"这个我改不了"）

我们倾向于优化我们看得见、改得了的地方，而不是真正影响性能的地方。

陷阱二：工具会撒谎

当你打开Profiler，看到：

Hot Functions:
1. com.example.service.UserService.getUserById() - 45%
2. com.example.service.OrderService.getOrderList() - 30%
3. com.example.util.StringHelper.format() - 10%

你会不会想："UserService.getUserById()占了45%，我得优化它！"

但这个45%是什么？是自用时间（Self Time） ，也就是函数本身执行的时间，不包括它调用的其他函数。

如果getUserById()调用了UserDao.queryById()，而queryById()是一个数据库查询，那么：

getUserById() 的自用时间：45ms（只是内存操作）
getUserById() 的总时间：   1500ms（包含1500ms的数据库查询）

实际热点：数据库查询，不是"代码"

陷阱三：局部优化 vs 全局优化

局部优化：在给定的系统状态下，优化某个函数
全局优化：改变系统状态，消除瓶颈

例子：
- 优化算法：局部优化 ✓✓✓
- 增加索引：全局优化 ✓✓✓
- 减少GC：局部优化 ✓✓✓  
- 扩容：全局优化 ✓✓✓

大多数人会选择局部优化，因为它看起来更"技术含量"，但实际上全局优化往往能带来数量级的提升。

第二部分：性能问题的真实分布

2.1 我观察到的性能问题分布

根据过去几年诊断过的上百个性能问题，我总结出一个大概的分布：

性能问题根因分布（基于案例统计）：

数据库问题     ████████████████████  35%
    ├── 慢查询（缺少索引、查询写法）
    ├── 连接池配置不当
    └── 锁竞争、死锁

网络问题       ██████████████        25%
    ├── 跨地域延迟
    ├── 网络抖动、丢包
    └── DNS解析、连接建立

架构问题       ████████████          20%
    ├── 单点瓶颈（同步串行改并行）
    ├── 不必要的调用（重复请求）
    └── 数据模型设计问题

配置问题       ████████              15%
    ├── JVM参数
    ├── 连接池大小
    ├── 超时配置
    └── 日志级别

代码问题       ████                  5%
    ├── 真正低效的算法
    ├── 内存泄漏
    └── 资源未释放

其他           ██                    5%

关键洞察：数据库+网络+架构问题占了80% ，而代码问题只占5% 。

2.2 为什么数据库问题占比这么高？

数据库是大多数应用的性能瓶颈，原因很朴素：

数据库是"有状态"的中心节点

        应用实例 A
        应用实例 B    ──────→  [  数据库  ]
        应用实例 C              (单一数据源)
        应用实例 D
           ...
        应用实例 N

一个数据库，同时被N个应用实例访问
数据库的性能 = 所有访问的共同瓶颈

当你的应用扩展到10个实例时，如果每个实例每秒发1000个查询，数据库每秒要处理10000个查询。数据库的性能决定了系统的上限。

2.3 为什么网络问题占比这么高？

尤其是在微服务架构中：

一次请求的延迟构成：
│
│  ██                                      ██
│  ██  ██████████████████████████████████████
│  ██  ██                    ██             ██
│  ██  ██  ██                ██             ██
│  ██  ██  ██  ████████████████             ██
│  ██  ██  ██  ██                             
│  ██  ██  ██  ██  ████                      
│  ██  ██  ██  ██  ██  ██                   
│  ██  ██  ██  ██  ██  ██  ██                
│  ██  ██  ██  ██  ██  ██  ██  ██            
├──────────────────────────────────────────────┤
▲                                              ▲
网络     序列化   业务    数据库   结果    网络
建立              计算            查询    返回

Legend: 网络建立(30%) | 序列化(10%) | 业务计算(5%) | 数据库(45%) | 其他(10%)

在微服务架构中，一次API调用可能涉及：

网络建立（DNS、TCP握手、TLS握手）
序列化/反序列化
业务逻辑
远程调用（又是网络）
数据库查询
结果返回

业务逻辑只占5% ，你能优化的空间能有多大？

第三部分：数据库性能问题诊断

3.1 慢查询：最常见的数据库瓶颈

慢查询的定义

sql
-- MySQL: 超过long_query_time（默认10秒）的查询
-- PostgreSQL: 超过log_min_duration_statement的查询

-- 查看MySQL慢查询日志配置
SHOW VARIABLES LIKE 'slow_query%';
SHOW VARIABLES LIKE 'long_query_time';

-- 开启慢查询日志
SET GLOBAL slow_query_log = 'ON';
SET GLOBAL long_query_time = 1;  -- 超过1秒记录

慢查询分析四步法

第一步：识别慢查询

sql
-- MySQL: 使用EXPLAIN分析
EXPLAIN SELECT u.*, o.* 
FROM users u 
LEFT JOIN orders o ON u.id = o.user_id
WHERE u.status = 'active' 
  AND u.created_at > '2024-01-01';

-- 输出示例：
-- id: 1
-- select_type: SIMPLE
-- table: u
-- type: ALL          ← 全表扫描！危险信号
-- possible_keys: NULL
-- key: NULL
-- rows: 1000000       ← 检查了100万行！
-- Extra: Using where

-- PostgreSQL: 使用EXPLAIN ANALYZE
EXPLAIN (ANALYZE, BUFFERS, FORMAT TEXT)
SELECT * FROM users WHERE email = 'test@example.com';

第二步：分析执行计划

sql
-- 检查表结构
SHOW CREATE TABLE users;

-- 检查索引
SHOW INDEX FROM users;

-- 分析索引使用情况
-- id=1, type=ref 表示使用索引，type=ALL 表示全表扫描
-- key 列显示实际使用的索引
-- rows 列显示预计扫描的行数

第三步：常见问题与修复

问题	特征	解决方案
全表扫描	type=ALL, key=NULL	添加合适索引
索引失效	Using filesort, Using temporary	避免函数/隐式转换
大量回表	Using index condition	覆盖索引
连接顺序	-	FORCE INDEX / 统计信息更新

sql
-- 问题1：隐式类型转换导致索引失效
EXPLAIN SELECT * FROM users WHERE phone = 13800138000;
-- phone是VARCHAR类型，传入INT导致全表扫描

-- 修复：
EXPLAIN SELECT * FROM users WHERE phone = '13800138000';

-- 问题2：函数导致索引失效
EXPLAIN SELECT * FROM orders WHERE DATE(created_at) = '2024-01-01';
-- DATE()函数导致无法使用索引

-- 修复：范围查询
EXPLAIN SELECT * FROM orders 
WHERE created_at >= '2024-01-01 00:00:00' 
  AND created_at < '2024-01-02 00:00:00';

-- 问题3：模糊匹配导致索引失效
EXPLAIN SELECT * FROM users WHERE email LIKE '%@example.com';
-- 前导通配符无法使用索引

-- 修复：考虑全文索引或ES

第四步：验证修复效果

sql
-- 修复前后对比
SET SESSION profiling = 1;

SELECT * FROM users WHERE email = 'test@example.com';
SELECT * FROM users WHERE phone = '13800138000';

SHOW PROFILES;
-- 查看执行时间

3.2 连接池问题：被忽视的瓶颈

连接池配置诊断

yaml
# Spring Boot配置示例
spring:
  datasource:
    hikari:
      maximum-pool-size: 20        # 最大连接数
      minimum-idle: 5              # 最小空闲
      connection-timeout: 30000    # 获取连接超时(ms)
      idle-timeout: 600000         # 空闲超时(ms)
      max-lifetime: 1800000        # 连接最大生命周期(ms)
      connection-test-query: SELECT 1

连接池问题的典型症状：

症状：应用响应时间偶尔暴增，等待时间长

排查：
1. 查看活跃连接数 vs 最大连接数
   - HikariCP: metrics.hikaricp.connections.active
   - Druid: druid.stat.workingCount

2. 查看等待连接的线程数
   - 如果 > 0，说明连接不够用

3. 查看连接等待时间
   - connection-timeout 应该是主要瓶颈指标

连接池配置公式：

最小连接数 = (核心线程数 / 单请求所需连接数) × 1.2
最大连接数 = CPU核心数 × 2 + 磁盘数

对于Web应用（单请求1个DB连接）：
最小连接数 = 线程池核心大小 × 1.2
最大连接数 = 线程池最大大小 × 1.2

参考值：
- 4核8G机器：maximum-pool-size = 20-50
- 8核16G机器：maximum-pool-size = 50-100

3.3 锁竞争：并发杀手

sql
-- PostgreSQL: 查看当前锁等待
SELECT 
    pg_blocking_pids(pid) AS blocked_by,
    pid,
    usename,
    query,
    state,
    wait_event_type,
    wait_event
FROM pg_stat_activity
WHERE cardinality(pg_blocking_pids(pid)) > 0;

-- MySQL: 查看当前锁等待
SELECT * FROM information_schema.INNODB_LOCK_WAITS;

-- 查看正在锁定的事务
SELECT 
    trx_id,
    trx_state,
    trx_mysql_thread_id,
    trx_query,
    trx_started,
    trx_rows_locked,
    trx_tables_locked
FROM information_schema.INNODB_TRX;

锁问题的常见原因：

问题	原因	解决方案
长事务持有锁	事务内包含大量操作	拆分事务、及时提交
缺少索引	更新扫描全表，锁定多行	添加索引
锁粒度大	全表锁	优化SQL只锁定必要行
死锁	多个事务互相等待	调整操作顺序

第四部分：网络性能问题诊断

4.1 网络延迟：从"能通"到"够快"

网络延迟构成：

总延迟 = DNS解析 + TCP连接建立 + TLS握手 + 数据传输 + 服务器处理 + ACK返回

实际数字（假设物理距离1000km）：
├── DNS解析：     5-50ms（通常可缓存）
├── TCP握手：     1ms × 往返次数（RTT = 5ms时，3次握手 = 10ms）
├── TLS握手：     5-15ms（1-RTT vs 0-RTT）
├── 数据传输：     RTT × 数据包数量（通常1-2个RTT）
└── 服务器处理：   1-100ms（取决于应用）

总延迟 = 5 + 10 + 10 + 10 + 5 = 40ms（理想情况）

延迟诊断工具

bash
# 基础延迟测试
ping -c 10 api.example.com

# 输出示例：
# --- api.example.com ping statistics ---
# 10 packets transmitted, 10 received, 0% packet loss, time 9012ms
# rtt min/avg/max/mdev = 5.234/5.456/5.678/0.123 ms

# 如果avg > 20ms，说明有额外延迟

# 详细路由分析
traceroute api.example.com  # Linux
tracert api.example.com     # Windows

# 监控持续延迟
mtr api.example.com  # Linux/Mac（pingtraceroute组合）

网络问题常见原因与修复

问题1：DNS解析延迟
├── 症状：首次请求很慢，后续请求正常
├── 原因：DNS未缓存，TTL过期
└── 修复：
    ├── 客户端：DNS缓存、HTTP DNS（HttpDNS）
    ├── 服务端：降低TTL预热、Anycast
    └── DNS服务器：DNS预取

问题2：TCP连接复用不足
├── 症状：每个请求都慢，没有明显规律
├── 原因：短连接、连接断开重连
└── 修复：
    ├── 启用HTTP Keep-Alive
    ├── 使用连接池
    ├── HTTP/2多路复用
    └── gRPC长连接

问题3：跨地域延迟
├── 症状：特定地区用户慢
├── 原因：物理距离远
└── 修复：
    ├── 就近接入（CDN/边缘节点）
    ├── 数据同步（读写分离）
    └── 协议优化（QUIC/WireGuard）

问题4：网络抖动
├── 症状：延迟忽高忽低，P99很高但avg正常
├── 原因：丢包、重传、路由不稳定
└── 修复：
    ├── BBR/CUBIC拥塞控制
    ├── 前向纠错（FEC）
    └── 多路冗余传输

4.2 连接超时：被低估的风险

yaml
# Spring Feign超时配置
feign:
  client:
    default:
      connect-timeout: 5000      # 连接建立超时
      read-timeout: 30000        # 读取数据超时

# Spring RestTemplate超时配置
RestTemplate restTemplate = new RestTemplate();
SimpleClientHttpRequestFactory factory = new SimpleClientHttpRequestFactory();
factory.setConnectTimeout(5000);      // 5秒
factory.setReadTimeout(30000);        // 30秒
restTemplate.setRequestFactory(factory);

# OkHttp超时配置
OkHttpClient client = new OkHttpClient.Builder()
    .connectTimeout(5, TimeUnit.SECONDS)
    .readTimeout(30, TimeUnit.SECONDS)
    .writeTimeout(30, TimeUnit.SECONDS)
    .build();

超时配置的原则：

超时不是随便设的，要基于SLA计算：

假设我们的SLA：
- P99响应时间 ≤ 500ms
- 核心服务不可用时间 ≤ 1%

那么超时配置：
├── 核心链路超时 = SLA × 80% = 400ms
│   └── 原因：要给重试留空间
│
├── 非核心服务超时 = 核心超时 × 50% = 200ms
│   └── 原因：非核心超时不应影响核心链路
│
└── 降级阈值 = 超时时间 × 1.5 = 600ms
    └── 原因：超过这个时间就降级

4.3 带宽瓶颈：数据传输的隐形杀手

bash
# 查看网卡带宽使用
ethtool eth0
# 输出：
# Speed: 10000Mb/s  ← 10Gbps网卡
# Duplex: Full

# 查看实际带宽使用
sar -n DEV 1 10
# IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   %ifutil
# eth0    1234.56   2345.67   12345.67  23456.78    12.34

# 带宽计算
实际带宽 = rxkB/s × 8 / 1000  # Mbps
利用率 = 实际带宽 / 网卡带宽 × 100%

# 如果利用率持续 > 70%，说明带宽可能成为瓶颈

带宽优化策略：

策略	效果	适用场景
压缩	节省50-80%带宽	JSON、文本数据
分页	减少单次传输量	大数据返回
字段过滤	按需返回字段	GraphQL
增量更新	只传变化的部分	实时数据同步
CDN	静态资源本地化	图片、视频、JS/CSS
协议升级	HTTP/2, gRPC	通用

第五部分：架构层面的性能问题

5.1 同步调用 vs 异步调用

同步调用的问题：

java
// 同步调用：总时间 = A + B + C + D = 100 + 200 + 300 + 400 = 1000ms
public OrderDetail getOrderDetail(Long orderId) {
    User user = userService.getUser(orderId);       // 100ms
    Address address = addressService.getAddress(user.getAddressId());  // 200ms
    Payment payment = paymentService.getPayment(orderId);             // 300ms
    List<Item> items = itemService.getItems(orderId);                // 400ms
    
    return new OrderDetail(user, address, payment, items);
}

异步调用优化：

java
// 异步调用：总时间 = max(A, B, C, D) = 400ms
public OrderDetail getOrderDetail(Long orderId) {
    CompletableFuture<User> userFuture = userService.getUserAsync(orderId);
    CompletableFuture<Address> addressFuture = userService.getAddressAsync(orderId);
    CompletableFuture<Payment> paymentFuture = paymentService.getPaymentAsync(orderId);
    CompletableFuture<List<Item>> itemsFuture = itemService.getItemsAsync(orderId);
    
    // 等待所有结果
    CompletableFuture.allOf(userFuture, addressFuture, paymentFuture, itemsFuture).join();
    
    return new OrderDetail(
        userFuture.get(),
        addressFuture.get(),
        paymentFuture.get(),
        itemsFuture.get()
    );
}

// 性能提升：1000ms → 400ms（提升60%）

5.2 N+1查询问题

问题演示：

java
// N+1查询：1次查用户 + N次查订单 = N+1次数据库查询
public List<UserOrderCount> getUserOrderCounts() {
    List<User> users = userDao.findAll();  // 1次查询，返回100个用户
    
    return users.stream()
        .map(user -> {
            int orderCount = orderDao.countByUserId(user.getId()); // N次查询
            return new UserOrderCount(user.getName(), orderCount);
        })
        .collect(Collectors.toList());
}

// 执行流程：
// Query 1: SELECT * FROM users
// Query 2: SELECT COUNT(*) FROM orders WHERE user_id = 1
// Query 3: SELECT COUNT(*) FROM orders WHERE user_id = 2
// ...
// Query 101: SELECT COUNT(*) FROM orders WHERE user_id = 100

// 总查询数：101次

解决方案一：JOIN查询：

java
// 1次查询解决
public List<UserOrderCount> getUserOrderCounts() {
    return jdbcTemplate.query(
        "SELECT u.name, COUNT(o.id) as order_count " +
        "FROM users u LEFT JOIN orders o ON u.id = o.user_id " +
        "GROUP BY u.id, u.name",
        (rs, rowNum) -> new UserOrderCount(
            rs.getString("name"),
            rs.getInt("order_count")
        )
    );
}

// 执行流程：
// Query 1: SELECT u.name, COUNT(o.id) ... GROUP BY ...
// 总查询数：1次

解决方案二：批量查询：

java
// 2次查询解决
public List<UserOrderCount> getUserOrderCounts() {
    // 1. 先查所有用户
    List<User> users = userDao.findAll();
    
    // 2. 批量查询订单数量
    List<Long> userIds = users.stream().map(User::getId).collect(Collectors.toList());
    Map<Long, Long> orderCountMap = orderDao.countByUserIds(userIds);
    
    return users.stream()
        .map(user -> new UserOrderCount(
            user.getName(), 
            orderCountMap.getOrDefault(user.getId(), 0L)
        ))
        .collect(Collectors.toList());
}

// 执行流程：
// Query 1: SELECT * FROM users
// Query 2: SELECT user_id, COUNT(*) FROM orders WHERE user_id IN (...) GROUP BY user_id
// 总查询数：2次

5.3 缓存使用：双刃剑

缓存命中率分析

缓存命中流程：
┌─────────┐    Hit    ┌─────────┐
│ Request │ ───────→ │  Cache  │ → 返回数据（<1ms）
└─────────┘           └─────────┘
     │
     │ Miss
     ▼
┌─────────┐    Hit    ┌─────────┐
│ Request │ ───────→ │  Cache  │ → 更新缓存 → 返回数据
└─────────┘           └─────────┘
     │                      ▲
     │ Miss                 │
     ▼                      │
┌─────────┐           ┌─────────┐
│   DB    │ → 读取数据 → │  Cache  │
└─────────┘           └─────────┘

缓存问题诊断：

java
// 诊断代码：打印缓存命中率
public class CacheMetrics {
    private long hitCount = 0;
    private long missCount = 0;
    
    public <T> T get(String key, Supplier<T> loader) {
        T value = cache.get(key);
        if (value != null) {
            hitCount++;
            return value;
        }
        
        missCount++;
        value = loader.get();
        cache.put(key, value);
        return value;
    }
    
    public double getHitRate() {
        long total = hitCount + missCount;
        return total > 0 ? (double) hitCount / total : 0;
    }
    
    // 监控指标
    public Map<String, Object> getMetrics() {
        return Map.of(
            "hit_count", hitCount,
            "miss_count", missCount,
            "hit_rate", getHitRate(),
            "total_requests", hitCount + missCount
        );
    }
}

缓存三大经典问题

问题1：缓存穿透
├── 症状：大量请求查询不存在的数据，直接打到DB
├── 原因：缓存和DB都没有这条数据
└── 解决：
    ├── 布隆过滤器（判断数据是否存在）
    ├── 缓存空值（NULL值也要缓存，设置短TTL）
    └── 参数校验（拦截非法参数）

问题2：缓存击穿
├── 症状：某个热点key过期时，大量请求同时击穿到DB
├── 原因：单一热点key，高并发同时访问
└── 解决：
    ├── 互斥锁（只有一个请求查DB）
    ├── 永不过期（逻辑过期 + 异步更新）
    └── 多级缓存（L1本地 + L2 Redis）

问题3：缓存雪崩
├── 症状：大量缓存同时过期，系统崩溃
├── 原因：缓存同时失效 or 缓存服务宕机
└── 解决：
    ├── 过期时间随机化
    ├── 熔断降级
    ├── 高可用缓存（Redis Cluster）
    └── 预热（系统启动时加载热点数据）

第六部分：配置层面的性能问题

6.1 JVM调参：不是玄学

核心参数解析

bash
# 典型Web应用JVM配置（4核8G机器，堆大小4G）
java -Xms4g -Xmx4g \
     -XX:+UseG1GC \
     -XX:MaxGCPauseMillis=200 \
     -XX:+HeapDumpOnOutOfMemoryError \
     -XX:HeapDumpPath=/var/log/oom.hprof \
     -Xlog:gc*:file=/var/log/gc.log:time,uptime:filecount=5,filesize=10M \
     -XX:+UseStringDeduplication \
     -Djava.security.egd=urandom \
     -jar app.jar

参数说明：

参数	作用	建议值
-Xms/-Xmx	堆大小	相等，避免动态扩展
-XX:+UseG1GC	GC收集器	JDK 11+默认，推荐使用
-XX:MaxGCPauseMillis	GC暂停目标	200ms（不要过低）
-XX:ParallelGCThreads	并行GC线程数	CPU核数
-XX:ConcGCThreads	并发GC线程数	ParallelGCThreads * 0.25

GC问题诊断

bash
# 查看GC日志
cat /var/log/gc.log

# GC日志示例分析
[2024-01-15T10:30:12.123+0800][info][gc] GC(12345) G1Evacuation Pause (young) (盘点)
Before GC:
- Heap: 2048M used (50%), 4096M max
- GC Worker: 8 threads

After GC:
- Heap: 1024M used (25%), 4096M max
- Duration: 45ms

# 如果GC频率太高（<1秒一次）或暂停时间太长（>200ms），需要优化

6.2 中间件配置诊断

Redis配置检查

bash
# 查看Redis配置
CONFIG GET *

# 关键配置检查
CONFIG GET maxmemory
# 输出: maxmemory 2147483648  (2GB)

CONFIG GET maxmemory-policy
# 输出: maxmemory-policy allkeys-lru (LRU淘汰策略)

# 内存使用分析
INFO memory
# 输出示例：
# used_memory: 1234567890
# used_memory_human: 1.15G
# maxmemory: 2147483648
# maxmemory_human: 2.00G
# mem_fragmentation_ratio: 1.45  ← 如果>1.5，可能有内存碎片

# 查看慢查询
SLOWLOG GET 10
# 输出：[命令, 执行时间(微秒), 时间戳, 参数]

Tomcat/Undertow连接配置

yaml
# Spring Boot内嵌服务器配置
server:
  tomcat:
    threads:
      max: 200              # 最大工作线程数
      min-spare: 10        # 最小空闲线程
    accept-count: 100      # 队列长度
    max-connections: 10000 # 最大连接数
  
  undertow:
    io-threads: 4          # IO线程数
    worker-threads: 200    # 工作线程数
    buffer-size: 1024      # 缓冲区大小

# 线程数计算公式
# IO密集型：线程数 = CPU核心数 × 2
# CPU密集型：线程数 = CPU核心数 + 1
# 混合型：线程数 = CPU核心数 × (1 + IO等待时间/计算时间)

第七部分：性能优化的正确姿势

7.1 性能优化的正确流程

性能优化完整流程：

┌─────────────────────────────────────────────────────────┐
│ 第1步：定义问题                                            │
│ - 具体的性能指标（P99延迟、吞吐量、CPU使用率）               │
│ - 当前的基线值                                              │
│ - 目标值                                                   │
│ - 业务影响（用户能感知吗？）                                │
└─────────────────────────────────────────────────────────┘
                          ↓
┌─────────────────────────────────────────────────────────┐
│ 第2步：建立测量体系                                         │
│ - 确认指标可测量                                            │
│ - 建立监控系统                                              │
│ - 设置告警                                                  │
│ - 确定复现路径                                              │
└─────────────────────────────────────────────────────────┘
                          ↓
┌─────────────────────────────────────────────────────────┐
│ 第3步：分析瓶颈位置                                         │
│ - 自顶向下：请求 → 网关 → 服务 → 数据库                     │
│ - 瓶颈定位：CPU/内存/IO/网络/数据库                         │
│ - 不要猜测，基于数据                                         │
└─────────────────────────────────────────────────────────┘
                          ↓
┌─────────────────────────────────────────────────────────┐
│ 第4步：制定优化方案                                         │
│ - 列出所有可能的方案                                         │
│ - 评估每个方案的成本和收益                                    │
│ - 优先级：影响大、成本低的先做                                │
│ - 预计提升幅度                                              │
└─────────────────────────────────────────────────────────┘
                          ↓
┌─────────────────────────────────────────────────────────┐
│ 第5步：实施和验证                                           │
│ - 灰度发布/AB测试                                           │
│ - 对比优化前后的指标                                         │
│ - 确认无副作用                                              │
└─────────────────────────────────────────────────────────┘
                          ↓
┌─────────────────────────────────────────────────────────┐
│ 第6步：持续监控                                             │
│ - 确认性能稳定                                              │
│ - 记录优化效果                                              │
│ - 预防回退                                                  │
└─────────────────────────────────────────────────────────┘

7.2 优化优先级矩阵

                成本（开发+风险）
              低              高
         ┌──────────┬──────────┐
收益 高   │ ① 快速   │ ② 计划   │
         │  （做）  │  （规划） │
         ├──────────┼──────────┤
收益 低   │ ③ 跳过   │ ④ 搁置   │
         │  （不做） │  （放弃） │
         └──────────┴──────────┘

优先级：
① 先做：配置优化、简单缓存、索引添加
② 计划：架构调整、重构、协议升级
③ 跳过：微优化、不确定的改
④ 放弃：高风险低收益的方案

7.3 常见优化手段的效果对比

优化手段	实施难度	预期收益	风险	优先级
添加数据库索引	低	高	低	⭐⭐⭐⭐⭐
扩大连接池	低	中	低	⭐⭐⭐⭐
启用缓存	中	高	中	⭐⭐⭐⭐
异步化调用	中	高	中	⭐⭐⭐⭐
压缩传输数据	低	中	低	⭐⭐⭐
JVM参数调优	中	中	中	⭐⭐⭐
SQL重写	中	高	中	⭐⭐⭐
算法优化	高	不一定	高	⭐⭐
架构重构	高	高	高	⭐
语言/框架切换	极高	不一定	极高	❌

结语：优化之前，先定位

这篇文章的核心观点只有一个：在你花两周时间优化算法之前，先确认你的瓶颈真的在算法上。

大多数性能问题，都藏在数据库里、网络里、架构里、配置里。它们不像代码那样"可见"，但它们的影响往往比代码优化大得多。

一个好的性能优化流程应该是：

1.测量：先确认问题存在，量化问题严重程度
2.定位：用数据找到瓶颈在哪里
3.验证：确认瓶颈位置后再动手
4.优化：从高收益、低成本的地方开始
5.验证：确认优化有效，无副作用

记住：优化不是万能药，诊断才是。

下次当你想要"优化代码"的时候，问自己三个问题：

1.我测量过吗？ → 知道问题在哪里
2.我定位过吗？ → 知道瓶颈是什么
3.我验证过吗？ → 知道优化有效

如果任何一个答案是否定的——放下代码，拿起监控，开始分析。

这才是真正的性能优化。