反模式与排查宝典：PostgreSQL 常见陷阱与排错指南通过前面 14 篇文章的深度剖析，从 PostgreSQL 架

文章概述

衔接前文段落

通过前面 14 篇文章的深度剖析，从 PostgreSQL 架构内核、数据类型、索引深度、MVCC 与 VACUUM、查询优化与执行计划、高级查询、JSON/全文搜索、分区表与逻辑复制、高可用集群、性能调优、安全机制到扩展与 FDW，我们已建立起完整的 PostgreSQL 知识图谱。本文将正向的设计知识转化为逆向的排错能力，集中曝光 21 个 在生产环境中高频发生的反模式，并提供一套以 pg_stat_activity、pg_locks、auto_explain、pg_stat_statements、pg_buffercache、pgstattuple 等为核心的标准诊断工具箱。

总结性引言

PostgreSQL 的强大与灵活背后，隐藏着无数容易踩入的陷阱。一个错误的复合索引列顺序可能导致查询性能断崖式下降，由 Index Scan 退化为 Seq Scan；一个长期未开启或调优不当的 autovacuum，可能在短短几天内让表膨胀到不可控，死元组占比超过 50%；一个被遗忘的长事务可能阻止整个数据库的死元组回收，进而引发事务 ID 回卷风险；一次无意识的 VACUUM FULL 会直接导致业务中断。本文将 PG 运维中反复出现的这些反模式按索引、连接与资源、VACUUM 与存储、事务与锁、SQL 与查询、扩展与 FDW、架构与配置 七大领域进行分类，每个反模式都严格按照 错误示例 → 现象描述 → 排查思路 → 根因分析（结合 PG 视图/内核机制） → 修正方案 → 最佳实践 的六步结构展开，同时提炼出以 pg_stat_activity、pg_locks、pgstattuple、auto_explain、pg_stat_statements 为核心的通用排查方法，帮助 DBA 和开发者在面对复杂的 PG 问题时快速定位根因。

核心要点

反模式七大领域：索引、连接与资源、VACUUM 与存储、事务与锁、SQL 与查询、扩展与 FDW、架构与配置，覆盖 21 个典型案例。
统一剖析结构：错例 → 现象 → 排查（工具、日志、视图）→ 根因（结合前文 PG 视图、内核机制）→ 修正 → 实践。
诊断工具箱：汇总 pg_stat_activity、pg_locks、auto_explain、pg_stat_statements、pgstattuple、pg_buffercache、pg_stat_replication、pg_stat_bgwriter 等核心视图与扩展，提供工具 → 反模式映射表和标准化排查决策树。
根因溯源：所有反模式的根因都直接回溯到前文讲解过的核心机制，如 MVCC 元组版本链、VACUUM 可见性判断、优化器代价模型、WAL 机制、锁兼容矩阵等，形成“正向学习 → 逆向排错”的完整闭环。

文章组织架构图

flowchart LR
    A[1. 反模式总览与分类] --> B[2. 索引反模式 案例1-3]
    A --> C[3. 连接与资源反模式 案例4-6]
    A --> D[4. VACUUM与存储反模式 案例7-9]
    A --> E[5. 事务与锁反模式 案例10-12]
    A --> F[6. SQL与查询反模式 案例13-15]
    A --> G[7. 扩展与FDW反模式 案例16-18]
    A --> H[8. 架构与配置反模式 案例19-21]
    A --> I[9. 诊断工具集与标准化排查流程]
    I --> J[10. 面试高频专题]

四层说明：

图标题：文章整体组织架构与模块依赖。
顶层模块：1‑10 为文章主要章节，右侧对应反模式领域的具体现象。
排查路径：从反模式总览到七大领域具体案例，最终汇聚于诊断工具集与决策树，形成系统排查能力。
关键点：架构图与后文完全一致，读者可按图索骥直接跳到所需反模式领域。

1. 反模式总览与分类

下表汇总了本文覆盖的 21 个典型反模式，贯穿索引、连接与资源、VACUUM 与存储、事务与锁、SQL 与查询、扩展与 FDW、架构与配置七大领域。

序号	反模式名称	所属领域	风险等级	典型现象	可能涉及的系统视图/机制
1	复合索引列顺序错误	索引	高	查询退化全表扫描，CPU 飙升，Seq Scan 计数增长	B-Tree 最左前缀原则，`pg_stat_user_tables.seq_scan`
2	LIKE 前导模糊无法用 B-Tree	索引	中	模糊查询极慢，全表扫描	B-Tree 依赖前缀匹配，pg_trgm GIN
3	冗余索引过多导致写入性能下降	索引	中	写入 TPS 下降，磁盘占用高，索引使用率为0	INSERT/UPDATE 维护所有索引，`pg_stat_user_indexes.idx_scan`
4	max_connections 设置过高	连接与资源	高	OOM，上下文切换开销大	进程模型，`work_mem` × 连接数，`pg_stat_activity`
5	work_mem 设置过大导致高并发 OOM	连接与资源	高	并发排序/哈希操作时内存溢出，PostgreSQL 进程被 Kill	`work_mem` 每操作独立分配，`EXPLAIN ANALYZE` Sort Method
6	未使用连接池 / 连接泄漏	连接与资源	高	连接耗尽，`idle in transaction` 堆积，too many clients	连接管理，`pg_stat_activity.state`，`idle_in_transaction_session_timeout`
7	autovacuum 关闭或跟不上导致表膨胀	VACUUM与存储	高	表膨胀，查询变慢，死元组占比超 50%	MVCC 死元组，`n_dead_tup`，`pgstattuple`，autovacuum 调度
8	VACUUM FULL 锁表导致业务中断	VACUUM与存储	高	业务中断，AccessExclusive 锁，大量会话等待	锁兼容矩阵，`pg_locks`，`pg_stat_activity.wait_event`
9	事务 ID 回卷风险	VACUUM与存储	高	数据库警告、拒绝写入	32 位 XID 回卷，`age(datfrozenxid)`，冻结机制
10	长事务阻止 VACUUM 回收死元组	事务与锁	高	表膨胀加剧，死元组无法回收	MVCC 快照可见性，`xact_start`，`pg_stat_activity` 长事务
11	SERIALIZABLE 隔离级别误用	事务与锁	高	大量序列化冲突，`could not serialize access` 错误	SSI 冲突检测，`predicate lock`，`pg_stat_database.xact_rollback`
12	死锁：交叉更新同一行	事务与锁	中	事务被回滚，`deadlock detected` 错误	死锁检测算法，`pg_locks` 等待图，`deadlock_timeout`
13	SELECT * 全字段查询	SQL与查询	中	回表过多，无法 Index Only Scan，随机 I/O 高	覆盖索引，`Heap Fetches`，visibility map
14	Join 顺序不当导致 Nested Loop 效率低	SQL与查询	高	Nested Loop 循环百万次，大表驱动无索引小表	优化器代价估算，统计信息，`pg_stats`，`join_collapse_limit`
15	子查询重复执行	SQL与查询	高	SubPlan loops 极高，每外层行触发子查询	子查询提升，`Semi Join` 转换，`EXPLAIN ANALYZE` SubPlan
16	postgres_fdw 未开启 use_remote_estimate	扩展与FDW	中	本地优化器选错 Join 计划，估算行数偏差大	FDW 代价估算，远程统计信息获取
17	FDW 外表缺少索引导致远端全表扫描	扩展与FDW	中	远程全表扫描，条件虽下推但远端仍慢	条件下推，远程执行计划，远端索引
18	pg_stat_statements 统计碎片化	扩展与FDW	中	相似 SQL 无法归一化，记录数爆炸	参数化查询，queryid 生成，`pg_stat_statements` 归一化
19	缺少 auto_explain / log_duration	架构与配置	高	故障时无 SQL 级别日志，难以诊断历史性能问题	`auto_explain` 模块，`log_min_duration`，执行计划记录
20	流复制延迟过大	架构与配置	高	主备切换丢失数据，replay_lag 过大	WAL 复制机制，`pg_stat_replication`，同步复制
21	shared_buffers 设置过大挤压 OS 缓存	架构与配置	中	IO 不降反升，double buffering，buffers_alloc 频繁	双缓存机制，OS 文件缓存，`effective_cache_size`

补充说明：每个反模式都将严格按照 错误示例 → 现象描述 → 排查思路 → 根因分析（引用系统视图、内核机制） → 修正方案 → 最佳实践 的六步结构展开，并提供可复现的 SQL 演示。

2. 索引反模式（案例 1‑3）

案例 1：复合索引列顺序错误导致 Index Scan 失效

错误示例：

-- 表定义简化
CREATE TABLE orders (
    id SERIAL PRIMARY KEY,
    status INT,
    create_time TIMESTAMP,
    amount NUMERIC
);

-- 创建复合索引 (status, create_time)
CREATE INDEX idx_orders_status_time ON orders (status, create_time);

-- 典型的业务查询：查询某个时间点之后的订单，不限制状态
SELECT * FROM orders WHERE create_time > '2024-01-01';

现象描述：

执行计划显示 Seq Scan on orders（全表顺序扫描），即使 orders 表有数千万行，过滤条件仅有 create_time。
查询响应时间从毫秒级退化到秒级甚至分钟级，CPU 使用率飙升。
系统视图 pg_stat_user_tables 中该表的 seq_scan 计数器持续增长，idx_scan 却几乎不变。

排查思路：

查看执行计划：使用 EXPLAIN (ANALYZE, BUFFERS) SELECT * FROM orders WHERE create_time > '2024-01-01'; 确认优化器选择的是 Seq Scan，并观察 actual rows 和 Buffers: shared hit/read。
检查索引定义：在 psql 中执行 \d orders 列出所有索引，注意到 idx_orders_status_time 的存在，但未能被使用。
系统视图分析：
```
SELECT relname, seq_scan, idx_scan
FROM pg_stat_user_tables
WHERE relname = 'orders';
```
发现 seq_scan 增长迅速，而 idx_scan 极少，说明查询并未利用索引。
确认查询选择性：执行以下查询查看 create_time > '2024-01-01' 的实际返回行数占比，若返回行数很多（比如大于 20%），优化器可能因成本选择顺序扫描，但更常见的根因是索引列顺序不当。

根因分析： PostgreSQL 的 B-Tree 索引严格遵守 最左前缀匹配原则。索引 (status, create_time) 的内部结构按 status 的顺序存储，相同 status 下再按 create_time 排序。当 WHERE 子句中仅出现 create_time 条件时，由于没有对 status 的等值或范围限定，优化器无法利用索引的有序性来定位符合 create_time 范围的元组——因为索引第一键 status 是无序分布的，要想扫描到所有满足 create_time > '2024-01-01' 的记录，必须扫描整个索引的叶子页面，其随机 I/O 成本远高于全表顺序扫描，所以在代价估算中优化器放弃了该索引。

在代码层面，优化器的 match_clause_to_index 函数解析 WHERE 子句，只有当查询条件匹配到索引的前导列时，才会生成有效的索引扫描路径。复合索引的最左前缀匹配是 B-Tree 的基本特性，无法绕过。如果查询模式固定为 WHERE create_time BETWEEN ? AND ?，那么 (status, create_time) 索引对于此查询是完全无效的。

修正方案：

创建正确顺序的复合索引：如果同时存在按 status 和 create_time 查询的场景，可以创建一个 (create_time, status) 索引，兼顾单独 create_time 范围查询。
```
CREATE INDEX idx_orders_time_status ON orders (create_time, status);
```
这样，对于 WHERE create_time > '2024-01-01'，优化器能够使用 idx_orders_time_status 索引进行范围扫描（Index Scan），对于同时包含 status 和 create_time 的查询，仍然可以完美匹配。
如果仅需 create_time 查询，可简单创建一个单列索引：
```
CREATE INDEX idx_orders_create_time ON orders (create_time);
```
然后通过 EXPLAIN 验证计划变为 Index Scan using idx_orders_create_time。
删除或废弃原无效索引：如果原有索引已无其他查询使用，应当删除以减轻写入负担：
```
DROP INDEX idx_orders_status_time;
```

最佳实践：

设计原则：复合索引的列顺序应将 等值查询列 放在前，范围查询列 放在后。例如，若查询为 WHERE status = ? AND create_time > ?，则使用 (status, create_time)；若多为 create_time > ?，则 (create_time) 或 (create_time, status)。
监控索引使用：定期审查 pg_stat_user_indexes.idx_scan，识别未被使用的索引并考虑删除。
测试先行：在生产部署前，使用 EXPLAIN ANALYZE 针对典型查询验证索引是否被采纳。
避免过度索引：不要为每种可能的查询组合创建索引，优先利用复合索引的最左匹配覆盖多个查询。

案例 2：`LIKE '%keyword%'` 无法使用 B-Tree 索引

错误示例：

-- 为 content 列创建普通 B-Tree 索引
CREATE INDEX idx_articles_content ON articles (content);

-- 模糊搜索任意位置包含 'postgres' 的文章
SELECT * FROM articles WHERE content LIKE '%postgres%';

现象描述：

EXPLAIN ANALYZE 显示 Seq Scan on articles，即使 articles 表有数百万行。
查询耗时数十秒，CPU 使用率 100%，磁盘 IO 繁忙。
系统视图 pg_stat_user_tables 中 seq_scan 快速上涨。

排查思路：

查看执行计划：EXPLAIN (ANALYZE, BUFFERS) SELECT * FROM articles WHERE content LIKE '%postgres%'; 确认全表扫描。
检查索引是否存在：\d articles 可见 idx_articles_content，但执行计划并未使用。
检查查询条件：确认 LIKE 模式中带有前导 %，这是关键。
尝试强制关闭顺序扫描：SET enable_seqscan = off; 后再次执行 EXPLAIN ANALYZE，若优化器依然无法使用 B-Tree 索引（报错或选择 Index Scan 但极慢），可确认 B-Tree 无法支持此类匹配。

根因分析： B-Tree 索引本质上是一棵平衡搜索树，其有序性基于字符串的 字典序前缀匹配。对于 LIKE 'prefix%' 这样的模式，优化器可以将条件转化为范围扫描（>= 'prefix' 且 < 'prefiy'），从而高效利用索引。但 LIKE '%postgres%' 由于字符串的起始部分是未知的，索引无法提供任何线索来跳过不可能的部分——理论上需要扫描整个索引的所有叶子节点，检查每个索引条目是否包含 'postgres'。这种全索引扫描的随机 I/O 成本远高于顺序全表扫描，因此优化器会选择直接 Seq Scan。

从代码角度，indxpath.c 中的 match_special_index_operator 只会对可转化为范围扫描的模式生成索引路径。前导 % 打破了这种转化。即使强制使用索引（enable_seqscan=off），PostgreSQL 也只能执行 Index Full Scan，即遍历整个索引并通过回表检查可见性，开销通常比顺序扫描更大。

修正方案：

使用 pg_trgm 扩展和 GIN 索引：
```
CREATE EXTENSION IF NOT EXISTS pg_trgm;
CREATE INDEX idx_articles_content_trgm ON articles USING gin (content gin_trgm_ops);
```
然后查询：
```
SELECT * FROM articles WHERE content LIKE '%postgres%';
```
EXPLAIN 显示会使用 Bitmap Index Scan 或 Index Scan 利用 GIN 索引。pg_trgm 将字符串分解为连续三个字符的三元组 (trigram)，GIN 索引存储这些三元组，LIKE 查询被重写为三元组的交集匹配，即使有前导 % 也能高效定位。

对于全文搜索，更推荐使用 tsvector 和 GIN 索引：

ALTER TABLE articles ADD COLUMN content_tsv tsvector;
UPDATE articles SET content_tsv = to_tsvector('english', content);
CREATE INDEX idx_articles_tsv ON articles USING gin (content_tsv);
SELECT * FROM articles WHERE content_tsv @@ to_tsquery('postgres');

如果只需要前缀匹配，可以保留 B-Tree 索引，但必须将 SQL 改为 LIKE 'postgres%'。

最佳实践：

模糊搜索：首选 pg_trgm + GIN 索引，它支持 LIKE '%...%' 和相似度匹配，但会增加写入开销和索引大小。
全文搜索：对于自然语言搜索，使用 GIN 或 GiST 索引的 tsvector 效率更高。
索引选择：不要为所有文本列创建 B-Tree 索引用于模糊搜索，理解 B-Tree 的局限性。

案例 3：冗余索引过多导致写入性能下降

错误示例：

-- 假设 orders 表有多个独立创建的索引
CREATE INDEX idx_orders_user ON orders (user_id);
CREATE INDEX idx_orders_time ON orders (create_time);
CREATE INDEX idx_orders_status ON orders (status);
CREATE INDEX idx_orders_amount ON orders (amount);
-- 同时还有一个复合索引，覆盖了 user_id + create_time
CREATE INDEX idx_orders_user_time ON orders (user_id, create_time);
-- 此外还有一个几乎一样的 (user_id, create_time, status)
CREATE INDEX idx_orders_user_time_status ON orders (user_id, create_time, status);

现象描述：

单纯的数据插入 INSERT、更新 UPDATE 操作明显变慢，写入 TPS 下降 30% 以上。
磁盘空间占用异常庞大，每个索引都相当于表的一份或部分副本，索引总大小甚至超过表数据本身。
通过 pg_stat_user_indexes 查询，发现 idx_orders_amount 和 idx_orders_status 的 idx_scan 为 0，从未被使用。
观察 pg_stat_statements 中写操作的 shared_blks_written 增加，mean_exec_time 上升。

排查思路：

找出所有索引：

SELECT indexrelname, idx_scan, idx_tup_read, idx_tup_fetch
FROM pg_stat_user_indexes
WHERE schemaname = 'public' AND relname = 'orders';

重点关注 idx_scan = 0 的索引。

分析索引重叠性：通过 \d orders 查看索引定义，比较包含的列。例如，单列 user_id 索引可能已被复合索引 (user_id, create_time) 的最左匹配覆盖，如果查询只按 user_id 过滤，复合索引完全能够服务。
监控写入负载：使用 pg_stat_statements 定位典型 INSERT 语句的 mean_exec_time 和 shared_blks_dirtied，对比删除冗余索引前后的性能。

磁盘使用：检查表与索引的大小：

SELECT relname, pg_size_pretty(pg_total_relation_size(relid)) AS total_size
FROM pg_stat_user_tables WHERE relname = 'orders';

根因分析： PostgreSQL 在每次 INSERT 时，除了向表堆中插入新元组，还需要在 每一个索引 对应的 B-Tree 中插入新的索引条目。对于 UPDATE（实际相当于 DELETE + INSERT），需要先标记旧索引条目为死记录并插入新条目。这个过程由 ExecInsert → ExecInsertIndexTuples 驱动，调用各索引访问方法的插入函数。每次写操作都伴随 WAL 日志的记录（维护索引的 redo 信息），频繁的索引维护会增加 Checkpoint 压力和 WAL 流量，从而拖慢整体写入性能。

那些从未被查询命中且没有约束作用（如唯一约束）的索引，纯粹成为写操作的累赘。pg_stat_user_indexes.idx_scan 准确反映了索引被扫描的次数，若长期为 0，即可认定为冗余。冗余索引还导致优化器生成计划时需要评估更多候选路径，略微增加计划时间。

修正方案：

删除无用的单列索引，保留覆盖其功能的复合索引：

DROP INDEX idx_orders_user;   -- 被 (user_id, create_time) 覆盖
DROP INDEX idx_orders_amount;
DROP INDEX idx_orders_status; -- 如果查询极少用到

合并重叠索引：将 idx_orders_user_time 和 idx_orders_user_time_status 合并为一个 (user_id, create_time, status)，如果确实有查询会用到 status 列过滤。
验证：删除后通过 EXPLAIN 确认相关查询仍能使用剩余索引，写入性能应当回升。

最佳实践：

定期审计索引使用情况（如每月），脚本化删除 idx_scan 为零的索引。
索引设计原则：优先建立复合索引覆盖高频查询，而不是为每个列单独建索引。
监控指标：在 CI/CD 或上线前后对比 pg_stat_user_indexes 和 pg_stat_statements 写操作耗时变化。
开发规范：明确禁止随意在生产库添加索引，必须经过性能影响评估和 Code Review。

flowchart TD
    start[查询响应变慢] --> check_plan{检查执行计划}
    check_plan -->|Seq Scan| check_index[检查表上索引]
    check_index --> index_missing{索引是否存在?}
    index_missing -->|否| create_index[创建合适的索引]
    index_missing -->|是| check_order{索引列顺序是否匹配查询?}
    check_order -->|复合索引失配| fix_order[调整索引列顺序或新建索引 -> 案例1]
    check_order -->|LIKE 带前导%| fix_trgm[安装 pg_trgm 创建 GIN 索引 -> 案例2]
    check_plan -->|Index Scan 但依然慢| check_write[检查写入性能是否下降]
    check_write --> check_idx_scan[查询 pg_stat_user_indexes.idx_scan]
    check_idx_scan -->|许多 idx_scan=0| fix_redundant[删除冗余索引 -> 案例3]

四层说明：

图标题：索引相关反模式排查序列图。
路径：以查询变慢为出发点，通过执行计划判断是 Seq Scan 还是 Index Scan 问题，再细查索引是否存在、列顺序、LIKE 模式、写入性能，逐一映射到具体反模式。
工具：EXPLAIN ANALYZE、pg_stat_user_tables、pg_stat_user_indexes。
决策：不同叶子对应不同修正措施，快速定位案例 1、2 或 3。

3. 连接与资源反模式（案例 4‑6）

案例 4：`max_connections` 设置过高导致 OOM 或上下文切换风暴

错误示例：

# postgresql.conf
max_connections = 1000
work_mem = 16MB
shared_buffers = 8GB
# 物理内存 64GB，effective_cache_size 可能设为 40GB

现象描述：

并发高峰期间，操作系统出现严重的内存压力，free -m 显示 available 内存趋近于零，Swap 使用量暴涨。
系统负载异常，vmstat 输出显示上下文切换次数极高，CPU 的 sy（系统态）占用升高。
某个时刻，Linux OOM Killer 被触发，PostgreSQL 的某些进程被杀，导致数据库服务中断，日志中出现 FATAL: terminating connection due to administrator command 或 Out of Memory 错误。
pg_stat_activity 可以观察到同时活跃的连接数接近 max_connections。

排查思路：

查看当前活跃连接数：

SELECT count(*) FROM pg_stat_activity WHERE state = 'active';

系统层排查：
- free -h：观察 Mem: 的 available，若极低，结合 Swap 使用判断内存压力。
- dmesg | grep -i oom：查看 OOM Killer 是否杀死了 postgres 进程。
- top -u postgres：观察单个进程的 RES、SHR 内存占用。
计算潜在内存需求：最坏情况下内存占用 ≈ max_connections × work_mem × 并发操作数 + shared_buffers + maintenance_work_mem（自动清理进程）等。若 1000 × 16MB × 2 = 32GB，加上 shared_buffers 8GB，已占 40GB，剩余 24GB 用于 OS 缓存及其他，在并发排序较高时容易超限。
检查配置：
```
SHOW max_connections;
SHOW work_mem;
```
对比物理内存，评估合理性。

根因分析： PostgreSQL 采用多进程架构，每个客户端连接对应一个独立的操作系统进程（backend）。work_mem 参数指定了每个查询操作（如 Sort、Hash）可使用的内存上限，且 每个连接内的每个计划节点都可独立申请。因此，在 max_connections=1000 的情况下，如果这些连接都执行带排序或 Hash Join 的查询，总内存需求可能高达 max_connections × work_mem × (并发操作数)，这极易突破物理内存限制。

在 Linux 内存管理中，当系统内存不足时，OOM Killer 会选择并杀死占用内存最多的进程，PostgreSQL 的后端进程常常成为目标。即使在达到 OOM 边界之前，大量进程间的上下文切换也会消耗 CPU 资源，降低有效吞吐。此外，shared_buffers 本身就占用大量内存，进一步压缩 OS 可用的文件缓存和工作内存，加剧内存竞争。

从内核机制看，PG 的 src/backend/postmaster/postmaster.c 负责为每个新连接 fork 子进程，进程数量直接受 max_connections 限制，过多进程会导致调度器开销增大。

修正方案：

降低 max_connections，引入连接池（如 PgBouncer）复用连接：
```
max_connections = 200
```
应用端配置连接池（P gBouncer 事务模式）：
```
[databases]
mydb = host=localhost dbname=mydb

[pgbouncer]
pool_mode = transaction
max_client_conn = 1000
default_pool_size = 150
```
这样实际 PG 连接数由 default_pool_size 控制，远小于 1000。
调整 work_mem 到更保守的值：
```
work_mem = 8MB
```
对于需要大内存的复杂查询，在会话级临时调整：
```
SET work_mem = '256MB';
```
合理设置 shared_buffers，建议不超过物理内存的 30%（详见案例 21）。

最佳实践：

生产环境连接数上限：通常建议 max_connections 设置为 200~500，并始终配合连接池使用。
内存规划：(max_connections × work_mem × 安全系数) + shared_buffers + maintenance_work_mem + 系统预留 不应超过物理内存。
监控：设置 max_connections 使用率告警（如超过 80%），结合 pg_stat_activity 监控长事务和空闲连接。

案例 5：`work_mem` 设置过大导致高并发 OOM

错误示例：

# postgresql.conf
work_mem = 256MB
max_connections = 200
shared_buffers = 16GB   # 物理内存 64GB

现象描述：

业务高峰期，同时有 100 个连接执行包含 ORDER BY 或 DISTINCT 的复杂报表查询。
操作系统 free 显示 available 内存急剧下降，随后出现 OOM Killer，杀死多个 postgres 进程。
在 EXPLAIN ANALYZE 输出中可见 Sort Method: quicksort Memory: 245760kB，确认单个排序使用了接近 256MB 内存。
即使没触发 OOM，大量的内存分配导致系统开始使用 Swap，性能急剧恶化。

排查思路：

识别内存消耗大户：使用 top -u postgres 按内存排序，找到 RES 异常的进程，pmap <pid> 可查看进程内存映射。
分析查询计划：在慢查询期间，抓取 pg_stat_activity 中的活跃查询，对其中典型查询执行 EXPLAIN ANALYZE，检查 Sort Method 和 Hash 节点的内存使用量。
评估并发：通过 SELECT count(*) FROM pg_stat_activity WHERE state='active'; 计算当前并发数。
计算理论最大内存：活跃连接数 × work_mem × 平均每查询 Sort/Hash 节点数。例如 100 个连接，每个查询有一个 Sort 或 Hash 节点，256MB×100 = 25GB，远超剩余可用内存。

根因分析： work_mem 参数定义的是 每个计划节点 在 单个后端进程 内能够使用的内存上限。PostgreSQL 优化器在生成计划时，会假设可以使用这么多内存来提高排序或哈希操作的速度。当大量后端同时执行内存密集操作时，总内存消耗即 N × work_mem × 节点数，与 max_connections 无关，而是与 实际并发操作数 相关。

内核的内存分配通过 palloc 和 MemoryContext 机制，每个 Sort 节点会尝试分配 work_mem 指定大小的内存用于快速排序，若无法分配则降级使用磁盘文件（Disk）。高并发下，大量内存申请极易突破系统物理内存，触发 OOM Killer。即使未立刻 OOM，内存回收和交换也会导致严重的性能抖动。

该反模式的核心在于混淆了“单查询所需内存”和“全局内存消耗”。work_mem 是一个会话级参数，无全局内存控制。

修正方案：

降低全局 work_mem，设置为较低安全值：
```
work_mem = 16MB
```

在需要大排序的查询中临时增大：

SET LOCAL work_mem = '256MB';
SELECT ... ORDER BY ...

限制并发：通过连接池限制同时执行的查询数（例如 PgBouncer 的 max_db_connections 或应用层线程池），避免高并发下内存膨胀。
利用并行查询：PG 16 的并行排序可以在多个 worker 间分摊 memory，但仍需控制总并发。

最佳实践：

全局保守，局部放宽：全局 work_mem 设置应基于公式 (RAM - shared_buffers - OS预留) / (预期最大并发连接数 × 2) 来粗略估算。
监控监控：利用 pg_stat_statements 追踪使用磁盘排序的查询比例（shared_blks_hit 和 temp_blks_read），可反映 work_mem 是否不足。
使用资源队列：对于大型分析查询，考虑使用 pg_squeeze 或调度器确保低并发执行。

案例 6：未使用连接池导致连接泄漏

错误示例： Java 应用中通过 JDBC 直接获取连接，代码未正确释放或未使用连接池：

// 错误：每次请求手动获取连接，并可能忘记关闭
Connection conn = DriverManager.getConnection(url, user, password);
Statement stmt = conn.createStatement();
ResultSet rs = stmt.executeQuery("SELECT ...");
// 处理 rs...
// 缺点：未在 finally 中关闭 conn, stmt, rs

或者使用了连接池但未配置 idleTimeout、maxLifetime，导致连接在数据库侧因网络闪断等原因残留。

现象描述：

应用运行一段时间后，客户端开始收到 FATAL: sorry, too many clients already 错误，新的连接请求被拒绝。
查询 pg_stat_activity 发现大量 idle 或 idle in transaction 状态的连接，这些连接的 xact_start 很久远，query 可能为 COMMIT 或空。
应用侧连接池（若存在）耗尽，线程阻塞在等待获取连接上，整体服务不可用。
数据库的 max_connections 满额，部分正常连接无法建立。

排查思路：

查看连接统计：
```
SELECT state, count(*) FROM pg_stat_activity GROUP BY state;
```
如果 idle 或 idle in transaction 的数量接近 max_connections，表明泄露严重。

定位长空闲事务：

SELECT pid, usename, application_name, state, xact_start, query
FROM pg_stat_activity
WHERE state = 'idle in transaction'
  AND xact_start < now() - interval '10 minutes';

这些事务未提交也未回滚，持有连接槽位。

检查应用端：查看应用日志是否有连接获取超时异常，检查数据库连接池配置是否正确。

紧急释放：可人为终止这些空闲连接：

SELECT pg_terminate_backend(pid) FROM pg_stat_activity WHERE state = 'idle' AND now() - state_change > interval '1 hour';

但需谨慎，可能回滚未提交的事务。

根因分析： PostgreSQL 的每个连接占用一个进程槽位，受限于 max_connections。如果应用不使用连接池，每次请求都要经历 TCP 握手、认证、fork 进程等开销，频繁创建和销毁连接不仅浪费资源，而且一旦连接忘了关闭，该进程将持续占用，直到 TCP keepalive 或数据库参数 idle_in_transaction_session_timeout（默认为 0，即永不超时）将其终止。当所有槽位都被空闲或泄漏的连接占满时，新连接将被拒绝。

从代码层面，postmaster 在 BackendStartup 中创建新进程，max_connections 的检查在连接分配时进行，若达到上限则直接发送错误。连接池的作用就是复用少量物理连接，由中间件管理连接生命周期。PG 自身并未内置连接池，必须依赖外部组件。

修正方案：

引入连接池：在应用侧使用 HikariCP、DBCP2 等，或在数据库前部署 PgBouncer。

# HikariCP 示例
spring.datasource.hikari.maximum-pool-size=20
spring.datasource.hikari.minimum-idle=5
spring.datasource.hikari.idle-timeout=600000
spring.datasource.hikari.max-lifetime=1800000
spring.datasource.hikari.leak-detection-threshold=10000

数据库端设置超时，强制回收空闲连接：

ALTER SYSTEM SET idle_in_transaction_session_timeout = 300000;  -- 5分钟
ALTER SYSTEM SET idle_session_timeout = 3600000;               -- 1小时空闲连接断开
SELECT pg_reload_conf();

应用代码规范：确保使用 try-with-resources 或 finally 关闭数据库资源，并使用连接池管理连接获取与释放。

最佳实践：

始终使用连接池：无论应用规模大小，连接池都是必备的基础设施。
池大小估算：数据库连接数 = (核心业务查询数 × 平均执行耗时) + 缓冲，避免池过大导致数据库承受过多连接。
监控：定期检查 pg_stat_activity 的空闲连接数，设置告警规则（如空闲超过 100 个或 idle in transaction 长于 5 分钟）。
应用端诊断：HikariCP 等支持泄漏检测，可自动记录长时间未归还的连接堆栈。

4. VACUUM 与存储反模式（案例 7‑9）

案例 7：`autovacuum` 关闭或跟不上导致表膨胀

错误示例：在 postgresql.conf 中将 autovacuum = off，或者保留默认参数（如 autovacuum_vacuum_scale_factor=0.2），但面对每分钟数千次的 UPDATE 和 DELETE 操作。

现象描述：

查询逐渐变慢，甚至简单的 SELECT count(*) 也需要数秒。
磁盘占用持续增长，pg_total_relation_size() 远大于预期，某些表的数据文件达到数百 GB。
系统视图 pg_stat_user_tables 中 n_dead_tup 数量惊人，n_live_tup 可能只有死元组的几分之一。
执行 VACUUM VERBOSE 会看到大量可回收的死元组，实际清理过程耗时漫长。
如果继续恶化，可能导致事务 ID 回卷风险（案例 9）。

排查思路：

检查死元组情况：

SELECT relname, n_live_tup, n_dead_tup, last_vacuum, last_autovacuum
FROM pg_stat_user_tables
WHERE n_dead_tup > 10000
ORDER BY n_dead_tup DESC;

关注 n_dead_tup / n_live_tup 比例，超过 0.2 即需关注。

精确测量膨胀率：安装 pgstattuple 扩展：
```
CREATE EXTENSION IF NOT EXISTS pgstattuple;
SELECT * FROM pgstattuple('orders');
```
查看 dead_tuple_percent，若 > 50% 说明严重膨胀。

检查 autovacuum 配置：

SHOW autovacuum;
SHOW autovacuum_vacuum_scale_factor;
SHOW autovacuum_vacuum_cost_limit;

监控 autovacuum 运行：通过 pg_stat_progress_vacuum 查看是否正在清理。
检查表级存储参数：
```
SELECT relname, reloptions FROM pg_class WHERE relname = 'orders';
```
autovacuum_enabled 是否被单个表覆盖为 false。

根因分析： PostgreSQL 的 MVCC 机制中，UPDATE 和 DELETE 不会立即物理删除数据行，而是将旧版本元组保留在堆页面中，并在元组头 (HeapTupleHeader) 中将 xmax 字段设置为删除或更新事务的 XID，使该元组变为“死元组”。这些死元组依旧占用存储空间，且必须由 VACUUM 进程回收。

autovacuum 守护进程依据 autovacuum_vacuum_threshold + autovacuum_vacuum_scale_factor * reltuples 来决定是否触发对某个表的清理。例如，默认阈值 20% 的变化量，对于拥有 1 亿行的表来说，需要 2000 万行的变更（UPDATE/DELETE 产生死元组）才会触发 VACUUM。在频繁更新场景下，触发前死元组已经堆积如山，导致表膨胀。

VACUUM 本身通过扫描 visibility map 跳过全是活元组的页面，只处理包含死元组的页面。其清理速度受限于 autovacuum_vacuum_cost_limit（默认 200），这是一个基于资源的节流值，控制每次操作（页命中和缺失）的成本累积，一旦超过 limit 会休眠 autovacuum_vacuum_cost_delay 毫秒。如果 cost_limit 过低，清理速度可能追不上死元组产生速度，形成恶性循环。

若 autovacuum 完全关闭，死元组将永不被清理，最终表膨胀严重，所有顺序扫描都要阅读大量无用的死元组，性能崩溃。

修正方案：

开启并调优 autovacuum：

ALTER SYSTEM SET autovacuum = on;
ALTER SYSTEM SET autovacuum_vacuum_scale_factor = 0.05;   -- 降低到 5% 触发
ALTER SYSTEM SET autovacuum_vacuum_cost_limit = 1000;     -- 提高节流上限
ALTER SYSTEM SET autovacuum_vacuum_cost_delay = 2;        -- 缩短休眠时间
SELECT pg_reload_conf();

对高频表调优：

ALTER TABLE orders SET (autovacuum_vacuum_scale_factor = 0.02, autovacuum_vacuum_cost_limit = 2000);

手动紧急回收：在低峰期执行 VACUUM (VERBOSE) orders; 清理已有死元组。注意，这是普通的 VACUUM，不锁表，可在线执行。
考虑分区表：按时间范围分区，定期 detach 旧分区，减少 VACUUM 压力。

最佳实践：

永不关闭 autovacuum，它不仅仅是清理死元组，还负责更新统计信息、冻结老元组、管理事务 ID 等关键任务。
细粒度调优：根据表的更新频率，给不同表设置不同的 autovacuum 存储参数。
监控死元组：设置告警 n_dead_tup > 阈值，结合表大小变化趋势。
定期使用 pgstattuple 巡检 关键业务表。

案例 8：`VACUUM FULL` 锁表导致业务中断

错误示例：某天由于磁盘空间不足，DBA 在白天业务高峰期执行了：

VACUUM FULL orders;

现象描述：

命令执行后，该表上的所有 SELECT、INSERT、UPDATE、DELETE 操作立即挂起，客户端请求超时，应用大面积报错。
pg_stat_activity 中大量会话的 wait_event_type = 'Lock'，wait_event = 'relation'，等待锁。

查看锁情况：

SELECT pid, relation::regclass, mode, granted, waitstart
FROM pg_locks
WHERE relation = 'orders'::regclass AND NOT granted;

发现一个或多个连接在等待 AccessExclusiveLock，而持有该锁的进程正是执行 VACUUM FULL 的会话。

排查思路：

确认锁阻塞源：通过 pg_stat_activity 结合 pg_locks 找到持有 AccessExclusiveLock 且 granted = true 的进程。
检查命令：SELECT query FROM pg_stat_activity WHERE pid = <waiting_pid>; 确认是 VACUUM FULL 操作。
评估影响：统计等待该锁的其他进程数量，确定受影响的业务范围。
紧急处理：如果无法等待，只能终止 VACUUM FULL：
```
SELECT pg_cancel_backend(<vacuum_full_pid>);  -- 可能需要 pg_terminate_backend
```
但终止操作本身会回滚，表可能处于不安全状态。

根因分析： VACUUM FULL 的工作机制与普通 VACUUM 完全不同。它不是简单标记死元组为可复用，而是将表中所有活元组重新写入一个新的物理文件，然后切换并删除旧文件。这需要对表获取最高级别的ACCESS EXCLUSIVE 锁，该锁与所有其他锁模式（包括 AccessShareLock，即 SELECT 需要的锁）冲突。

按照 PostgreSQL 的锁兼容矩阵，AccessExclusiveLock 排他性极强，会阻塞一切对该表的访问。因此，在业务高峰期执行 VACUUM FULL 相当于锁表，导致整个表不可用，直至操作完成。即使表只有少量死元组，此操作也需要全表扫描并重写整个表，大表可能耗时数小时，造成长时间业务中断。

从代码的角度，VACUUM FULL 实际调用 cluster_rel 或等价的重写函数，最终由 rebuild_relation 完成，期间持有排他锁。普通 VACUUM 则只获取 ShareUpdateExclusiveLock，与 DML 操作兼容。

修正方案：

永远不要在生产高峰使用 VACUUM FULL。
日常使用普通 VACUUM 及 autovacuum 来回收空间，防止膨胀到需要 VACUUM FULL 的程度。
若必须回收磁盘空间，采用 pg_repack 或 pg_squeeze 这类在线重组工具，它们在后台渐进式地重建表，仅在最后切换时短暂持有排他锁。
```
pg_repack -d mydb -t orders -j 4
```
低峰期维护：如果一定要执行 VACUUM FULL，安排在业务完全停服的维护窗口，并提前公告。

最佳实践：

预防膨胀：从根本上做好 autovacuum 调优（案例 7），避免依赖 VACUUM FULL。
监控膨胀：定期使用 pgstattuple 或 pg_stat_user_tables.n_dead_tup 评估膨胀，主动执行普通 VACUUM。
工具替代：将 pg_repack 加入维护工具箱，并熟悉其操作。

案例 9：事务 ID 回卷风险

错误示例：一个数据库运行了多年，从未关注过 datfrozenxid 的年龄，同时 autovacuum 因性能问题被关闭或资源严重受限，导致冻结扫描从未完成。

现象描述：

数据库日志中开始出现警告：

WARNING: database "mydb" must be vacuumed within 1000000 transactions
HINT: To avoid a database shutdown, execute a database-wide VACUUM in that database.

随后可能出现：

ERROR: database is not accepting commands to avoid wraparound data loss in database "mydb"

数据库变为只读模式，最终拒绝所有写入操作，DBA 被迫紧急执行 VACUUM。
查询 age(datfrozenxid) 接近 20 亿（2^31），或者超过 autovacuum_freeze_max_age（默认 2 亿）。

排查思路：

检查每个数据库的冻结事务年龄：

SELECT datname, age(datfrozenxid) AS xid_age
FROM pg_database
ORDER BY xid_age DESC;

如果超过 1.5 亿，就需要高度警惕。

检查参数：

SHOW autovacuum_freeze_max_age;
SHOW vacuum_freeze_min_age;

验证 autovacuum 状态：确保 autovacuum 正在运行并完成冻结。
查看当前事务 ID：SELECT txid_current(); 确认整体推进情况。
紧急处理：如果即将达到 20 亿上限，立即在数据库内执行：
```
VACUUM FREEZE;
```

根因分析： PostgreSQL 使用 32 位的事务 ID (XID)，其空间为 2^32 ≈ 40 亿，采用循环使用方式。每个元组头部 xmin 存储创建该元组的事务 ID，用来进行可见性判断。为了防止新旧 XID 比较发生的回卷问题（即一个很老的事务被误认为来自未来），PG 定义了一个“冻结”机制：将足够老的元组的 xmin 替换为特殊值 FrozenTransactionId（2），表示对所有现有和将来的事务都可见。

autovacuum 承担着冻结老元组的职责，它会在表的年龄（relfrozenxid）达到 autovacuum_freeze_max_age 时触发 VACUUM FREEZE，扫描全表并冻结所有 XID 大于 vacuum_freeze_min_age 的元组。如果 autovacuum 长期未能完成冻结扫描，数据库的 datfrozenxid（该数据库中所有表的最小 relfrozenxid）会不断增长，当它与当前事务 ID 的差距超过 2 亿（autovacuum_freeze_max_age），数据库将强制转为只读；距离回卷点还剩 100 万个事务时，会开始拒绝写入，以防止数据丢失。

从源码看，src/backend/access/transam/varsup.c 中的 SetTransactionIdLimit 函数负责检测并宣告是否触发保护模式，VacuumFreezeLimit 等逻辑防止回卷。因此，忽视事务 ID 年龄就如同给数据库埋下了定时炸弹。

修正方案：

立即执行：
```
VACUUM FREEZE;
```
在每个需要冻结的库中执行，可能耗时，但会重置年龄。

调整参数预防：

ALTER SYSTEM SET autovacuum_freeze_max_age = 150000000;  -- 1.5亿，提前触发
ALTER SYSTEM SET vacuum_freeze_min_age = 50000000;
SELECT pg_reload_conf();

确保 autovacuum 健康运行，并有足够的 cost_limit 来完成冻结。
监控年龄，设置 Nagios / Prometheus 告警规则，年龄 > 1 亿时报警。

最佳实践：

不要禁用 autovacuum，就算表是只读的，也需要 VACUUM FREEZE。
定期巡检：SELECT age(datfrozenxid) FROM pg_database; 列入每日检查项。
对于大量只读表和分区表，可以通过手动调度 VACUUM 脚本，避免自动清理被卡住。

flowchart TD
    start["存储异常 / 查询变慢"] --> check_dead["检查死元组比例"]
    check_dead -->|"高"| check_autovac{"autovacuum 状态"}
    check_autovac -->|"关闭或跟不上"| fix_autovac["调整 autovacuum 参数并手动 VACUUM -> 案例7"]
    check_autovac -->|"正常但有长事务"| check_long_xact["排查长事务 -> 案例10"]
    start --> full_vacuum{"是否为 VACUUM FULL 导致"}
    full_vacuum -->|"是"| lock_check["查看锁等待，持有 AccessExclusiveLock"]
    lock_check --> fix_lock["停止 FULL，使用 pg_repack -> 案例8"]
    full_vacuum -->|"否"| check_age["检查事务年龄"]
    check_age -->|"age > 1.5亿"| risk_wrap["事务 ID 回卷风险 -> 案例9"]

    classDef decision fill:#fff4e6,stroke:#ff9800,stroke-width:2px,color:#333;
    classDef process fill:#f8f9fa,stroke:#333,stroke-width:1px,color:#333;
    class start,check_dead,fix_autovac,check_long_xact,lock_check,fix_lock,check_age,risk_wrap process;
    class check_autovac,full_vacuum decision;

四层说明：

图标题：VACUUM 与存储反模式排查序列图。
入口：从存储异常和查询变慢出发，分三条线：死元组高、锁表操作、年龄过高。
工具：主要使用 pg_stat_user_tables、pgstattuple、pg_database、pg_locks。
映射：清晰指向案例 7（膨胀）、案例 8（VACUUM FULL）、案例 10（长事务）和案例 9（事务回卷）。

5. 事务与锁反模式（案例 10‑12）

案例 10：长事务阻止 VACUUM 回收死元组

错误示例：一个管理工具开启了一个事务，执行了一些查询后未提交，连接保持在 idle in transaction 状态数小时：

BEGIN;
SELECT * FROM orders WHERE create_time > '2024-01-01';
-- 后续没有 COMMIT 或 ROLLBACK，连接被挂起

现象描述：

尽管 autovacuum 正常运行，某些表的 n_dead_tup 却只增不减，表膨胀不断加剧。
执行 VACUUM VERBOSE orders; 输出中 removable 数量极少，但 pg_stat_user_tables 显示 n_dead_tup 很高。
查询速度明显变慢，CPU 和 I/O 压力上升。

排查思路：

查找长事务：

SELECT pid, usename, application_name, state, xact_start,
       NOW() - xact_start AS duration, query
FROM pg_stat_activity
WHERE xact_start < now() - interval '30 minutes'
  AND state != 'idle'
ORDER BY xact_start;

特别关注 state = 'idle in transaction' 的行。

检查死元组与 VACUUM 关系：

SELECT relname, n_dead_tup, last_autovacuum, last_vacuum
FROM pg_stat_user_tables
WHERE n_dead_tup > 10000;

确认阻塞原因：长事务的快照 XID 很容易被 pg_stat_activity 的 backend_xid 或通过查看 pg_current_snapshot() 印证。
锁信息辅助：通过 pg_locks 查找持有表上 RowExclusiveLock 的长事务（但这不能直接证明阻止 VACUUM，更关键的是活跃快照）。

根因分析： PostgreSQL 的 MVCC 可见性基于快照。每个事务在开始时（BEGIN 或隐式）获得一个快照，该快照包含当前所有活跃事务的列表。VACUUM 在回收死元组时，会调用 HeapTupleSatisfiesVacuum 检查每个死元组在被回收的瞬间是否 对所有正在运行的事务都不可见。决定因素主要是元组的 xmax（删除事务 ID）是否小于当前所有数据库活跃快照的 xmin（最早活跃事务 ID）。

如果有一个长事务持有很早的快照（snapshot.xmin 很小），那么所有 xmax 大于该快照 xmin 的死元组，对于这个长事务来说仍然是“可见”的（尽管在它开启之后才被删除，但它尚未提交，快照中这些删除事务被视为 future），因此 VACUUM 不能删除这些元组。随着时间推移，新的 UPDATE/DELETE 不断产生，可回收的死元组不断累积，形成了 “长事务阻断死元组回收链”。

内核代码中，vacuum_set_xid_limits 计算可回收元组的最小 xmax，受限于 OldestXmin，而这个值正是从所有活跃快照中计算出的全局最小 xmin。因此，一个长期不结束的事务会拖住整个数据库的死元组回收，即使这个事务只读取了某些表，未触碰正在膨胀的表，也会造成全局影响（因为 OldestXmin 是全局的）。这是 PG 实践中一个非常经典的陷阱。

修正方案：

立即终止长事务：

SELECT pg_terminate_backend(pid)
FROM pg_stat_activity
WHERE state = 'idle in transaction' AND xact_start < now() - interval '10 minutes';

设置空闲事务超时，预防未来：

ALTER SYSTEM SET idle_in_transaction_session_timeout = 300000; -- 5 分钟
SELECT pg_reload_conf();

应用层面改造：确保事务内不执行长时间的非数据库操作（如调用远程 API），及时 COMMIT 或 ROLLBACK。

最佳实践：

监控长事务：建立仪表盘展示运行超过 N 分钟的事务，及时告警。
idle_in_transaction_session_timeout 必须设置，作为最后防线。
代码审计：检查所有可能保持事务的路径，使用连接池后更要小心事务边界。
理解读事务也可能造成这种阻塞，尤其对于只读库，长查询同样会提升 OldestXmin。

案例 11：`SERIALIZABLE` 隔离级别误用导致大量序列化冲突

错误示例：高并发交易的业务系统，为追求最强的数据一致性，将所有事务都设置为 REPEATABLE READ 不够，干脆使用了 SERIALIZABLE：

ALTER DATABASE mydb SET default_transaction_isolation = 'serializable';

或以连接、事务级设置。

现象描述：

应用频繁报错：ERROR: could not serialize access due to read/write dependencies among transactions，或者 could not serialize access due to concurrent update。
事务回滚率急剧上升，pg_stat_database.xact_rollback 远远超过 xact_commit。
数据库的整体吞吐量大幅下降，许多业务逻辑不断重试，CPU 浪费在冲突检测和回滚上。
查看 pg_locks，发现大量 locktype = 'predicate' 的锁存在（谓词锁）。

排查思路：

检查当前隔离级别：

SHOW default_transaction_isolation;
SELECT datname, datconfig FROM pg_database WHERE datname = 'mydb';

回滚统计：

SELECT datname, xact_commit, xact_rollback,
       round(100.0 * xact_rollback / (xact_commit + xact_rollback), 2) AS rollback_ratio
FROM pg_stat_database
WHERE datname = 'mydb';

如果 rollback_ratio 异常高（例如 10% 以上），需排查。

应用日志分析：查看序列化失败的频率和模式。
锁视图：SELECT * FROM pg_locks WHERE locktype = 'predicate'; 可看到 SIREAD 锁积累。

根因分析： PostgreSQL 实现可序列化隔离级别的技术基于 可序列化快照隔离 (SSI)。它在传统的快照隔离基础上，增加了对 读写依赖 的跟踪。具体地，PostgreSQL 使用 谓词锁 (SIREAD locks) 记录一个事务读取了哪些数据（不是锁住，而是记录依赖）。当另一个并发事务写入数据并提交，可能构成“读写依赖”，如果两个事务均试图提交且存在循环依赖，PostgreSQL 会回滚其中一个事务以维持序列化。

在高并发 OLTP 下，许多事务都会读写重叠的数据集，这种依赖极易发生。一旦检测到可能违反序列化，就会触发序列化失败错误。尽管 PG 的 SSI 实现尽力减少误杀（false positive），但仍无法避免高冲突场景下的大量回滚。

从内核视角，src/backend/storage/lmgr/predicate.c 实现了谓词锁管理，CheckForSerializableConflictIn/Out 被调用以检测冲突。在冲突多的环境下，重试成本高，且可能导致大量事务排队等待，造成严重的性能抖动。

修正方案：

降级为 READ COMMITTED（默认且推荐大多数场景）：
```
ALTER DATABASE mydb RESET default_transaction_isolation;
-- 或显式设置
ALTER DATABASE mydb SET default_transaction_isolation = 'read committed';
```
对于绝大多数业务，READ COMMITTED 提供的保证已足够（没有脏读，其他问题可通过应用层乐观锁解决）。
保留极少数需要 SERIALIZABLE 的业务：仅在必须避免写偏斜、幻读等异常的小型事务中使用显式设置：
```
BEGIN ISOLATION LEVEL SERIALIZABLE;
-- 关键转账操作
COMMIT;
```
并预见可能的重试，做好幂等设计。
优化业务逻辑：减少事务持有时间，降低冲突概率。

最佳实践：

默认 RC：除非明确需要更高级别，否则永远使用 READ COMMITTED。
隔离级别越强，并发度越低，这是分布式系统的普遍真理。
监控序列化冲突：若出现零星冲突属于正常；若比例超过 0.1%，可能是架构设计问题。

案例 12：死锁排查：交叉更新相同行

错误示例：两个并发事务按照相反的顺序更新同一组行：

-- 事务 A
BEGIN;
UPDATE accounts SET balance = balance - 100 WHERE id = 1;
-- 尚未提交，继续
UPDATE accounts SET balance = balance + 100 WHERE id = 2;

-- 事务 B 同时进行
BEGIN;
UPDATE accounts SET balance = balance - 50 WHERE id = 2;
-- 此时事务 A 在等待 id=2 的锁，事务 B 继续
UPDATE accounts SET balance = balance + 50 WHERE id = 1;  -- 此时死锁

现象描述：

其中一个事务立即收到错误：ERROR: deadlock detected，另一个事务可能成功执行或也被回滚。

PostgreSQL 日志中会记录死锁详细信息，例如：

DETAIL: Process 1234 waits for ShareLock on transaction 5678; blocked by process 5678.
Process 5678 waits for ShareLock on transaction 1234; blocked by process 1234.

死锁并不常见，但一旦发生，业务逻辑必须能够重试。

排查思路：

启用死锁日志：log_lock_waits = on 和适当的 deadlock_timeout（默认 1s）会提供死锁发生时的详细链。
发生死锁后，检查日志获取进程 ID 和等待关系。
主动监控潜在的锁等待：通过实时查询 pg_locks 中未授予的锁：
```
SELECT l.pid, l.mode, l.locktype, l.granted, a.query, a.state
FROM pg_locks l
JOIN pg_stat_activity a ON l.pid = a.pid
WHERE NOT l.granted;
```
如果看到多个进程互相等待，可手动杀死其中一个来解除死锁，但 PostgreSQL 通常会自动检测并解决。
分析执行计划：检查为什么事务需要获取这些锁，通常出自显式行锁或外键约束等。

根因分析： PostgreSQL 使用标准的死锁检测算法。当进程请求一个锁但无法立即获得时，它会进入等待队列。后台死锁检测器（由 deadlock_timeout 唤醒）运行 有向图环检测算法 (DeadLockCheck)。它构建一个以进程为节点、以等待关系为边的图。如果发现环，则选择一个代价最低的事务（基于其已写入的数据量、年龄等）进行回滚，以打破死锁。

从锁视图 pg_locks 可以看到 relation、tuple、transactionid 等锁类型。本例中事务 A 先锁定了 id=1 的行（排他锁），欲获取 id=2 的行锁；事务 B 锁定 id=2，欲获取 id=1。两者互相等待对方的行锁，形成典型的死锁环。

PG 的行锁是通过在元组上设置 xmax 和 infomask 中的锁位来管理的，实际等待表现为事务 ID 锁。

修正方案：

统一资源访问顺序：修改业务代码，确保所有事务都按相同的顺序（例如按主键升序）锁定行。
```
-- 所有事务都先锁 id 较小的行
SELECT * FROM accounts WHERE id IN (1,2) ORDER BY id FOR UPDATE;
```
减少锁持有时间：将更新以外的逻辑移出事务，缩小事务范围。
使用 advisory lock 或外部排序策略：在应用层面控制锁顺序。
设置合适的 deadlock_timeout：默认为 1 秒，通常足够。如果日志中死锁信息太少，可以降低到 500ms 以更快检测。

最佳实践：

一致性加锁顺序：这是避免死锁的最根本方法。
死锁重试机制：应用应捕获 deadlock detected 错误并透明重试，因为这是短暂不可重试的错误。
监控死锁频率：偶发死锁可接受；若每秒多次，必须审查设计。

6. SQL 与查询反模式（案例 13‑15）

案例 13：`SELECT *` 全字段查询导致 Index Only Scan 失效

错误示例：

-- orders 表有 50 列，包括 TEXT 等大字段
SELECT * FROM orders WHERE id = 123;
-- 假设 (id) 上有主键索引

现象描述：

EXPLAIN ANALYZE 输出显示 Index Scan，而非 Index Only Scan，并且 Heap Fetches 数量等于返回行数。
执行时间比仅取所需列的查询慢数倍，因为每次都要回表（access heap）获取不在索引中的列数据。
如果表频繁更新，visibility map 位可能不是全为可见，导致额外的回表检查。

排查思路：

分析执行计划：
```
EXPLAIN (ANALYZE, BUFFERS) SELECT * FROM orders WHERE id = 123;
```
注意 Heap Fetches 数量，若很高，说明产生了回表访问。

对比理想查询：

EXPLAIN (ANALYZE, BUFFERS) SELECT id, status, amount FROM orders WHERE id = 123;

确认如果是 Index Only Scan，性能会提升多少。

检查索引覆盖：判断索引是否包含了所有请求列。可以使用 \d orders_id_idx 查看，通常主键索引只包含 id。
统计缓存命中：查看 pg_statio_user_tables.heap_blks_read 是否因回表而居高。

根因分析： Index Only Scan 能够仅从索引页面返回结果，前提是 索引条目包含了查询所需的所有列，并且 对应堆页面在 visibility map 中被标记为全可见，无需检查元组可见性。使用 SELECT * 会要求所有列，而普通 B-Tree 索引只存储索引键值和指向堆元组的 ctid。为了获取其他列，必须通过 ctid 回表访问堆元组，这就是 Heap Fetches 的来源。

即便 visibility map 认为页面全可见，PG 也需要访问堆来读取不在索引中的列，所以无法使用 Index Only Scan。多次回表会造成大量随机 I/O，尤其在表较大且缓存命中率低时，性能下降明显。

从 MVCC 角度看，每个堆元组的 t_infomask 和可见性映射共同决定是否需要访问堆，但 SELECT * 决定了即使 VM 是 clean，也必须访问堆以获取缺失的列。

修正方案：

只查询需要的列：

SELECT id, status, amount FROM orders WHERE id = 123;

创建覆盖索引（在 PG 11+ 支持 INCLUDE 子句）：
```
CREATE INDEX idx_orders_id_cover ON orders (id) INCLUDE (status, amount, create_time);
```
这样上述查询就可以走 Index Only Scan。
避免不必要的 SELECT *，在代码审查中强制执行此规则。

最佳实践：

禁用 SELECT * 在生产代码中，同时使用 ORM 时也要注意映射避免全部字段。
合理设计覆盖索引，对于高频读取且字段较少的查询，INCLUDE 可以显著减少回表。
定期审查慢查询，利用 pg_stat_statements 和 auto_explain 发现这类浪费。

案例 14：Join 顺序不当导致 Nested Loop 效率低

错误示例：大表 orders（1000 万行）与小表 users（1000 行）连接，并且连接列 users.id 没有索引（或被统计信息误导）：

SELECT o.id, u.name
FROM orders o
JOIN users u ON o.user_id = u.id
WHERE u.status = 'active';

如果优化器错误地选择 orders 作为驱动表，对 users 进行 Nested Loop 循环，将严重影响性能。

现象描述：

执行计划显示 Nested Loop，其中内表扫描 users 的 loops=10,000,000，且内表使用 Seq Scan。
查询极慢，CPU 100%，实际返回行数可能仅几千（因为过滤），但循环次数是外表行数。
系统视图 pg_stat_user_tables 的 seq_scan 计数猛增，而 idx_scan 为 0。

排查思路：

详细执行计划：
```
EXPLAIN (ANALYZE, BUFFERS, TIMING) SELECT ...
```
关注 Join 类型（Nested Loop）和内外表的 actual rows 与 loops。如果内表 loops 很大，且内表实际扫描行数也大，即存在过大循环。
检查统计信息：
- 查看 reltuples：
```
SELECT relname, reltuples FROM pg_class WHERE relname IN ('orders', 'users');
```
- 检查列直方图：SELECT * FROM pg_stats WHERE tablename = 'users' AND attname = 'id'; 如果统计信息陈旧（last_analyze 久远），优化器可能严重低估外表大小或高估内表大小，导致选择 Nested Loop。
确认索引存在：
```
\d users
```
主键 id 默认有索引，但可能被禁用或非正常。若缺失，则必须在连接列上加索引。

强制改变连接顺序验证：

SET join_collapse_limit = 1;
-- 或者使用 hint 扩展 pg_hint_plan
/*+ Leading((u o)) */

若性能大幅改善，证明确实是顺序问题。

根因分析：优化器根据成本估算决定 Join 顺序和策略。Nested Loop 成本 ≈ 外表扫描成本 + 外表行数 × 内表扫描成本。如果外表估算行数小，或内表有索引且估计扫描成本极低，选择 Nested Loop 是合理的。但当实际情况反差很大时（外表实际行数极大，内表又因缺索引导致全表扫描），成本就会爆炸。

统计信息是优化器作出决策的基石。pg_stats 中的 n_distinct、most_common_vals 等决定了选择性估算。若 ANALYZE 未及时运行，或者表数据分布发生了巨大变化，估算就会离谱。此外，PostgreSQL 默认不会对 FDW 外表 join 进行复杂代价重组，也可能导致次优选择。

内核里，make_join_rel 及 populate_joinrel_with_paths 生成不同的 Join 路径，add_paths_to_joinrel 会评估各种排列。join_collapse_limit 参数控制显式连接顺序的重排，设为 1 可强制按照 FROM 子句中的顺序连接，可用来临时修正。

修正方案：

更新统计信息：ANALYZE users; ANALYZE orders; 确保最新。
建立或修复索引：在 users.id 上应有主键索引，在 users.status 上建立索引加速过滤。

改写查询：

SELECT o.id, u.name
FROM users u
JOIN orders o ON o.user_id = u.id
WHERE u.status = 'active';

若优化器仍未选择 Hash Join，可尝试 SET enable_nestloop = off; 临时禁用。

长期优化：合理设置 random_page_cost 和 effective_cache_size，影响优化器对索引扫描的偏好。

最佳实践：

保持统计信息新鲜：在频繁写入后及时 ANALYZE，或设置 autovacuum_analyze_scale_factor 降低。
确保连接列有索引，这是 OLTP 的基本原则。
利用 pg_stat_statements 监控高耗时 Join 查询，定期优化。
考虑物化视图或汇总表 对于不可变数据的大表 Join。

案例 15：子查询未优化导致重复执行

错误示例：

SELECT *
FROM orders
WHERE user_id IN (SELECT id FROM users WHERE status = 'vip');

users 表很大，且 status 列没有索引。

现象描述：

EXPLAIN ANALYZE 输出中出现 SubPlan 1，其 loops 等于 orders 的行数（比如 100 万），每行都要执行一次内层的子查询。
查询时间极其漫长，CPU 高，I/O 负载大。
如果改写为 JOIN，性能提升数个数量级。

排查思路：

查看执行计划：识别到 SubPlan 节点，以及它的 loops 数量。如果 loops 与外表行数一致，说明是逐行执行。
检查子查询内部：子查询 SELECT id FROM users WHERE status = 'vip' 本身没有索引，导致每次执行也要全表扫描 users。
尝试改写：用 EXPLAIN 分析等价的 JOIN 或 EXISTS 查询，对比计划是否有 Semi Join 或 Hash Join。
检查 pg_stat_statements：可看到耗时集中在带有 IN (SELECT ...) 的语句。

根因分析：优化器在处理 IN (subquery) 时，有两种策略：

子查询提升（Subquery Unnesting）：将子查询转化为 Semi Join 或 Anti Join，使之成为正常的 Join 节点，优化器可以自由选择连接顺序和方法。
SubPlan：保持子查询的独立执行，对每个外表行执行一次。这通常发生在子查询无法安全提升时（如包含 LIMIT、OFFSET、UNION、相关引用等），或者优化器错误地估算外表行数极少，认为 SubPlan 成本更低。

在本例中，由于子查询不相关，PG 9.6+ 通常可以提升为 Semi Join，但如果缺少索引导致子查询本身代价昂贵，或者优化器被某些复杂条件误导，就可能错误地保留为 SubPlan。此外，即便提升为 Semi Join，如果没有为 users.status 建立索引，仍可能执行 Hash Join 或全表扫描，但那时是全量物化一次，比重复执行好得多。

修正方案：

改写成 JOIN 或 EXISTS：

SELECT o.*
FROM orders o
JOIN users u ON o.user_id = u.id
WHERE u.status = 'vip';

或者

SELECT *
FROM orders
WHERE EXISTS (SELECT 1 FROM users WHERE users.id = orders.user_id AND status = 'vip');

这两种写法都有利于优化器生成高效的 Semi Join。

建立索引：在 users(status, id) 上创建复合索引，让子查询或 Join 能利用 Index Scan。
更新统计信息：确保优化器正确估算行数，避免错误选择 SubPlan。
设置 enable_subplans 相关参数（不常用）强制关闭 SubPlan，但一般通过 SQL 改写解决。

最佳实践：

优先使用 JOIN 或 EXISTS 代替 IN (SELECT ... )，除非子查询结果集极小且固定。
确保子查询涉及的过滤条件有索引。
使用 EXPLAIN 检查执行计划，寻找 SubPlan 标记，若发现 loops 高，必须改写。
在 ORM 中，警惕生成的子查询，必要时改用原生 SQL 或 Criteria API 的 Join。

7. 扩展与 FDW 反模式（案例 16‑18）

案例 16：`postgres_fdw` 未开启 `use_remote_estimate` 导致优化器错误选择 Join 顺序

错误示例：

CREATE SERVER remote_production
FOREIGN DATA WRAPPER postgres_fdw
OPTIONS (host '192.168.1.100', dbname 'remote_db', use_remote_estimate 'false');

CREATE FOREIGN TABLE foreign_orders (...)
SERVER remote_production
OPTIONS (schema_name 'public', table_name 'orders');

本地查询：

SELECT u.name, o.amount
FROM local_users u
JOIN foreign_orders o ON u.id = o.user_id
WHERE o.date > '2024-01-01';

现象描述：

执行计划中 ForeignScan 的估算 rows=1000，但实际 actual rows=500000，远大于预期。
优化器选择了以本地表为内表、外表为驱动的 Nested Loop，导致本应高效的 Hash Join 被舍弃，查询极慢。
在远端执行相同的 WHERE 条件可以看到真实行数很大，但本地优化器不知道。

排查思路：

检查 FDW 选项：
```
SELECT srvname, srvoptions FROM pg_foreign_server;
```
注意 use_remote_estimate 是否为 true。
获取执行计划：EXPLAIN (ANALYZE, VERBOSE) ...，查看 ForeignScan 的 rows（估算）和 actual rows 差异。
查看推送的 SQL：EXPLAIN VERBOSE 会输出 Remote SQL: ...，可看到 WHERE 下推，但无法获取远端基数。
手动在远端 explain：拷贝 Remote SQL 到远端执行 EXPLAIN，对比行数估算与本地。

根因分析： postgres_fdw 在 use_remote_estimate = false（默认）时，使用一些启发式或本地默认行数（比如 1000）来估算外部扫描返回的行数。如果真实行数与默认值偏差巨大，本地优化器会基于错误成本选择不良的 Join 顺序。开启 use_remote_estimate 后，每次查询计划时，PG 会向远端发送 EXPLAIN 请求，获取远程估算的行数和代价，并将这些数值纳入本地成本计算。这会增加少量计划时间，但极大提高计划的准确性。

从代码层面，postgres_fdw.c 中 postgresGetForeignRelSize 函数负责获取外部表估算，当 use_remote_estimate 启用时，通过 GetForeignRelSize 调用远程 EXPLAIN 来收集统计信息。关闭此选项就直接使用本地某些估算，而这通常不准确。

修正方案：

ALTER SERVER remote_production OPTIONS (SET use_remote_estimate 'true');

然后确保对外部表有适当的统计信息（可能需要 ANALYZE foreign_table，取决于 PG 版本和 FDW 支持）。

最佳实践：

生产环境务必开启 use_remote_estimate，同时确保远程用户有 EXPLAIN 权限。
监控外部扫描的估算偏差，可通过 pg_stat_statements 对比计划行数和实际返回行数（需要 auto_explain 或应用日志）来发现 FDW 计划问题。
fetch_size 参数也需合理设定，影响游标分页传输效率。

案例 17：FDW 外表缺少索引导致远端全表扫描

错误示例：本地查询：

SELECT * FROM foreign_orders WHERE id = 12345;

foreign_orders 映射到远端 orders 表，但远端 orders.id 列没有索引。

现象描述：

本地 EXPLAIN ANALYZE 显示 ForeignScan，Remote SQL: SELECT id, ... FROM orders WHERE id = 12345。
但查询却非常慢，观察远端数据库发现 orders 表发生了顺序扫描。
远端 CPU 使用率升高，pg_stat_user_tables.seq_scan 增长。

排查思路：

确认下推的 SQL：通过 EXPLAIN VERBOSE 获取 Remote SQL。
在远端执行：登录远端数据库，执行同样的 SELECT 并使用 EXPLAIN 检查执行计划，发现 Seq Scan on orders。
检查远端索引：\d orders 确认 id 列无索引。

根因分析： postgres_fdw 尽可能将 WHERE 条件、JOIN、聚合等下推到远程服务器，以减少网络传输和本地处理。但是，下推只是生成了带有相应条件的 SQL 语句，具体在那个语句在远端如何执行，依赖于远端数据库的索引、统计信息和配置。如果远端表缺少必要的索引，下推的 SQL 仍然会执行全表扫描，性能自然糟糕。

本质上，FDW 将远程表当作外部数据源，优化器不会检查远端是否具有索引，只关心代价估算（如果开启 use_remote_estimate，代价会反应全表扫描的巨大成本，从而可能影响本地策略，但无法解决远端慢查询的问题）。根本解决之道在于像管理本地表一样，为远程表建立合适的索引。

修正方案：

在远端创建索引：
```
CREATE INDEX ON orders (id);
```
定期分析远端表：ANALYZE orders; 以保证远端优化器能使用索引。
对于复杂的 FDW 查询，考虑在远端创建物化视图或汇总表，减少实时全表扫描。

最佳实践：

将远程表视为本地表的延伸，索引设计、统计信息维护一样不能少。
利用 pg_stat_statements 或监控，发现远端慢查询。
考虑网络与数据量，如果远程扫描大量行，下推的收益可能并不高，可能需要重新设计 FDW 分区或缓存。

案例 18：`pg_stat_statements` 统计碎片化

错误示例： Java 代码使用字符串拼接构建 SQL：

String sql = "SELECT * FROM orders WHERE id = " + orderId;
PreparedStatement pst = conn.prepareStatement(sql);

每个不同的 orderId 生成一条不同的 SQL 文本，如 SELECT * FROM orders WHERE id = 1、... id = 2 等。

现象描述：

SELECT count(*) FROM pg_stat_statements 返回数量巨大，可能达到数万甚至更多。
pg_stat_statements 的视图查询变得很慢，因为行数多。
无法有效聚合分析 Top SQL，因为相同模式的查询被分散到无数条目中。
查看某些 calls = 1 的记录，发现都是结构类似仅常量不同的 SQL。

排查思路：

检查记录数：

SELECT count(*) FROM pg_stat_statements;

找出单次执行的相似查询：

SELECT query, calls, total_exec_time
FROM pg_stat_statements
WHERE calls = 1
LIMIT 20;

手动观察是否只是常量差异。

分析具体条目：使用 pg_stat_statements 的 queryid 列可以看到不同的 id，证实碎片化。
审查应用代码：确认是否使用参数化。

根因分析： pg_stat_statements 通过计算 标准化查询文本的哈希值 来生成 queryid 进行统计聚合。标准化过程会尝试将 SQL 中的常量替换为位置参数（如 $1）。如果 SQL 文本本身就是通过拼接常量生成的，标准化后可能仍保留不同的常量（因为位置、类型等差异），或者由于引号等原因导致无法归一化。例如，WHERE id = 1 和 WHERE id = 2 可以归一化为 WHERE id = $1，但如果拼接到字符串内部作为标识符或列表，可能无法归一化。但即使简单常数，若未使用参数化，也可能无法归一，或者归一后因格式不同产生不同 queryid。

本质上，这是应用不是使用参数化查询导致的。PG 的 pg_stat_statements 期望接收到的 SQL 是带 $1 占位符的 prepared statement 文本，而不是拼接后的字面量。当拼接发生时，每个不同常量的 SQL 都被视为完全不同的查询，因此在统计视图中各自独立，无法聚合。

从源码看，pg_stat_statements.c 中的 pgss_post_parse_analyze 通过 query_tree_walker 和 pgss_hash_string 计算 queryid，其标准化逻辑有限，无法处理所有未参数化的变化。

修正方案：

改用真正的参数化查询：

String sql = "SELECT * FROM orders WHERE id = ?";
PreparedStatement pst = conn.prepareStatement(sql);
pst.setInt(1, orderId);

这样发给 PG 的就是 SELECT * FROM orders WHERE id = $1，统计聚合为一类。

数据库端强制？PG 本身无法强制，需要应用层遵守。
定期清理：SELECT pg_stat_statements_reset(); 可以清空统计，但治标不治本。

最佳实践：

全面禁止字符串拼接 SQL，使用 PreparedStatement 或 ORM 的参数绑定。
启用连接池的 preparedStatementCache 进一步优化执行。
监控 pg_stat_statements 的总条目数，若异常增长往往是碎片化的信号。

8. 架构与配置反模式（案例 19‑21）

案例 19：缺少 `auto_explain` / `log_duration`，故障时无 SQL 级日志

错误示例： postgresql.conf 中默认配置，未加载 auto_explain 库，log_duration 也是关闭的。

# shared_preload_libraries = ''   # 未包含 auto_explain
# log_duration = off

现象描述：

应用反映偶尔出现慢请求，但运维人员检查 PostgreSQL 日志，只看到连接建立、FATAL、PANIC 信息，没有任何 SQL 执行时间记录，无法定位慢查询。
即使当时通过 pg_stat_statements 可以查看整体耗时，却缺乏单次执行的具体计划和上下文（如当时参数值）。
问题过后，难以复盘和优化。

排查思路：

检查当前配置：

SHOW shared_preload_libraries;
SHOW auto_explain.log_min_duration;

查看日志文件：确认日志中没有 duration 或 plan 记录。
临时启用：可动态加载 auto_explain（需要超级用户并设置 shared_preload_libraries 后重启）。但推荐立即调整配置并重载。

根因分析： auto_explain 是一个扩展模块，通过在 shared_preload_libraries 中加载，可以在查询完成后自动记录其执行计划和分析信息，只需设置 auto_explain.log_min_duration 大于 0 即可。它利用 ExecutorEnd 钩子记录计划。没有它，DBA 只能通过实时连接抓取或事后 pg_stat_statements 获取聚合数据，缺少历史细节。log_duration 仅记录每条 SQL 的持续时间，不包括执行计划，对于复杂查询排查帮助有限。

生产系统必须具备慢查询日志，就像 MySQL 的 slow_query_log。PG 通过 auto_explain 和日志记录实现类似功能。忽略这项配置无异于放弃重要的诊断手段。

修正方案：

在 postgresql.conf 中配置：

shared_preload_libraries = 'auto_explain, pg_stat_statements'   # 需要重启
# 重启后，其他参数可在线生效

然后执行：

ALTER SYSTEM SET auto_explain.log_min_duration = 1000;  -- 记录超过 1 秒的查询
ALTER SYSTEM SET auto_explain.log_analyze = on;
ALTER SYSTEM SET auto_explain.log_buffers = on;
ALTER SYSTEM SET auto_explain.log_timing = on;
ALTER SYSTEM SET auto_explain.log_verbose = on;
ALTER SYSTEM SET auto_explain.log_nested_statements = on; -- 记录嵌套
SELECT pg_reload_conf();

确保日志目录有足够空间，并配置日志轮转。

最佳实践：

生产环境必须启用 auto_explain，阈值建议在 1s 到 5s 之间。
结合 pgBadger 等工具 分析慢查询日志，生成图形化报告。
注意 log_analyze 带来的开销：它会在执行时采集详细缓冲区和计时信息，可能略微影响性能，但相对于排查价值是可接受的。
配合 pg_stat_statements 使用，提供宏观与微观视角。

案例 20：流复制延迟过大，主备切换丢数据

错误示例：主库配置为异步复制，未设置同步备机：

synchronous_commit = off          # 或者 local
# synchronous_standby_names 为空

现象描述：

主库意外宕机后，进行 Failover 切换到备库，发现备库丢失了宕机前几秒到几分钟内已提交的事务数据。业务检查发现部分订单丢失。
平时监控中，pg_stat_replication.replay_lag 可能显示几秒到几分钟的延迟，但无人关注。
流复制状态显示备库处于 streaming 但 sync_state 为 async。

排查思路：

查询复制延迟：

SELECT application_name, state, sync_state,
       replay_lag, write_lag, flush_lag
FROM pg_stat_replication;

若 replay_lag 较大（例如 00:05:00），表明备库落后。

检查 WAL 发送位置：

SELECT pg_current_wal_lsn(), sent_lsn, write_lsn, flush_lsn, replay_lsn
FROM pg_stat_replication;

对比差异，确认是发送延迟还是应用延迟。

检查备库：在备库 pg_stat_wal_receiver 查看最后一次接收到 WAL 的时间。

确认同步设置：

SHOW synchronous_commit;
SHOW synchronous_standby_names;

根因分析： PostgreSQL 流复制默认是异步的，主库提交事务后不等待备库确认，WAL 记录由 WAL sender 进程异步发送。如果主库崩溃，尚未传输和应用的 WAL 记录所代表的事务就会丢失。同步复制通过 synchronous_commit 和 synchronous_standby_names 控制，可以指定必须等待备库接收（remote_write）、刷盘（on）或应用（remote_apply）后才返回成功。

replay_lag 表示备库应用落后主库的时间。延迟可能由于网络带宽、备库磁盘 I/O 能力不足、主库 WAL 生成速度过快等导致。若不监控并处理，故障切换时将导致不可接受的数据丢失。

从内核看，WAL sender 和 receiver 通过 libpq 连接交换 WAL，WalSndLoop 和 WalReceiverMain 维护状态。pg_stat_replication 视图直接从 WalSnd 的共享内存信息中读取延迟。

修正方案：

配置同步复制（强一致需求）：
```
synchronous_commit = remote_apply
synchronous_standby_names = 'ANY 1 (standby1, standby2)'
```
这要求至少一个备库应用了 WAL 后主库事务才能提交，确保零丢失。
优化复制性能：增大 wal_sender_timeout，使用高速网络，备库使用 SSD，调整 max_wal_senders 和备库接收参数。
监控延迟：设置 Prometheus 告警，当 replay_lag > 10s 时通知。
定期备份与演练：即便有同步复制，也需备份和切换演练。

最佳实践：

关键系统必须使用同步复制，至少 remote_write 级别，减少数据丢失窗口。
备库硬件与主库相当，尤其是磁盘 I/O。
监控指标：replay_lag 应该接近 0，持续增加需立即响应。
考虑逻辑复制 用于某些场景的延迟容忍，但流复制主要用于 HA。

案例 21：`shared_buffers` 设置过大挤压 OS 缓存

错误示例：

shared_buffers = 32GB   # 物理内存 64GB
effective_cache_size = 50GB

现象描述：

free -m 显示 Mem: 的 available 很少，buff/cache 占用也很低（因为大部分内存被 shared_buffers 占据，OS 文件缓存被压缩）。
iostat 显示磁盘读取 IOPS 高，await 增加，数据文件所在的磁盘繁忙，尽管 pg_stat_bgwriter.buffers_alloc 显示后端经常需要自己分配缓冲区（意味着 shared_buffers 命中可能不够，或者 OS 缓存不足导致的读取代价高）。
整体查询性能并未随 shared_buffers 变大而线性提升，反而某些场景变慢。

排查思路：

检查当前设置：

SHOW shared_buffers;
SHOW effective_cache_size;

OS 内存分析：使用 free -h 和 cat /proc/meminfo，关注 Cached、Buffers、Available。若 shared_buffers 占用大，但 Cached 很小，说明 OS 文件缓存被挤占。

查看缓冲区使用（pg_buffercache 扩展）：

CREATE EXTENSION IF NOT EXISTS pg_buffercache;
SELECT count(*) AS buffered_pages, count(*) * 8192 / (1024*1024) AS size_mb
FROM pg_buffercache;

确认实际使用量与分配的共享缓冲区占比。

I/O 统计：pg_stat_bgwriter 中的 buffers_backend（后端进程自己读入的缓冲区数）若一直很高，说明 shared_buffers 可能不够或 OS 缓存不足，但结合 shared_buffers 过大，更可能是 double buffering。

根因分析： PostgreSQL 使用双缓存架构：自身 shared_buffers + 操作系统页面缓存。当一个页面被请求时，它先从 shared_buffers 中查找，如果未命中，则请求 OS 从磁盘读取，数据首先进入 OS 页面缓存，然后再拷贝到 shared_buffers。如果 shared_buffers 设置过大，占用了大量物理内存，留给 OS 页面缓存的内存就很少。OS 缓存不足会导致频繁的磁盘读取（因为数据文件页无法被 OS 缓存），即使 PG 自身的共享缓冲区命中率很高，也无法弥补 OS 缓存不足所造成的磁盘 I/O 增加。这就是双缓存冲突（double buffering overhead）。

理想状态下，shared_buffers 应设置为物理内存的 25% ~ 40%，剩余大部分留给 OS 缓存，这样两个缓存相互配合，一个负责热点频繁访问页，一个负责批量顺序扫描和大量其他文件缓存。effective_cache_size 应设置为 OS 缓存可用的预估值，用于优化器估算索引扫描的成本，不影响实际内存分配。

从内核视角，BufferAlloc 负责从共享缓冲区分配页面，缺页时调用 ReadBuffer_common，触发操作系统 IO。shared_buffers 越大，PostgreSQL 管理的内部缓冲池越大，但会抢占 OS 缓存，总体效果反而下降。

修正方案：

降低 shared_buffers：

shared_buffers = 16GB   # 64GB * 25%
effective_cache_size = 48GB  # 提示优化器 OS 缓存约 48GB

需要重启 PG。

监控调整后的 I/O：观察 pg_stat_bgwriter 的 buffers_alloc 和 iostat，磁盘读应下降，buffer hit ratio 可能略有降低，但整体性能提升。
多租户或单实例场景，遵循上述比例；若 PG 独占一台机器，同样适用。

最佳实践：

共享缓冲区经验值：物理内存的 25% 作为起点，不超过 40%。
effective_cache_size 应反映真实可用 OS 缓存（通常为物理内存的 60%~75%）。
使用 pg_buffercache 定期检查热点表缓存情况，但不用作实时监控。
注意虚拟化环境：内存可能存在 overcommit，设置需更谨慎。

9. 诊断工具集、映射表与标准化排查流程

9.1 核心诊断工具箱

工具 / 视图	用途简述	关键字段
`pg_stat_activity`	查看所有连接状态、执行 SQL、等待事件	`state`, `wait_event_type`, `wait_event`, `xact_start`, `query`
`pg_locks`	当前锁详细信息	`locktype`, `relation`, `mode`, `granted`, `pid`
`pg_stat_user_tables`	用户表统计：扫描计数、元组操作、死元组等	`seq_scan`, `idx_scan`, `n_tup_ins`, `n_dead_tup`, `last_autovacuum`
`pg_stat_user_indexes`	索引使用统计	`idx_scan`, `idx_tup_read`, `idx_tup_fetch`
`auto_explain`	自动记录慢查询执行计划	`log_min_duration`, `log_analyze`, `log_buffers`
`pg_stat_statements`	SQL 性能统计归一化	`queryid`, `calls`, `total_exec_time`, `mean_exec_time`, `shared_blks_hit`
`pgstattuple`	表级死元组与空闲空间精确值	`dead_tuple_percent`, `free_percent`, `tuple_count`
`pg_stat_replication`	流复制状态与延迟	`replay_lag`, `sync_state`, `write_lag`, `flush_lag`
`pg_stat_bgwriter`	后台写进程与缓冲区分配统计	`buffers_alloc`, `buffers_backend`, `maxwritten_clean`
`pg_stat_database`	数据库级统计：提交、回滚、块读取时间	`xact_commit`, `xact_rollback`, `blk_read_time`
`pg_buffercache`	缓存内容详情	`relfilenode`, `isdirty`, `usagecount`
`pg_database` + `age()`	事务 ID 年龄监控	`datfrozenxid`, `age(datfrozenxid)`
`pg_stat_progress_vacuum`	实时 VACUUM 进度	`phase`, `heap_blks_total`, `heap_blks_scanned`

9.2 工具 → 反模式映射表

典型现象	推荐排查工具	关键指标 / 阈值	指向反模式案例
查询突然变慢，全表扫描	`EXPLAIN ANALYZE`, `pg_stat_user_tables`	`seq_scan` 突增，`idx_scan` 未变	案例1, 2, 13, 14
磁盘占用异常增长	`pgstattuple`, `pg_stat_user_tables`, `pg_total_relation_size`	`dead_tuple_percent > 30%`，死元组持续增加	案例7, 10
连接耗尽 / too many clients	`pg_stat_activity`	`count(state) > max_connections * 0.9`，大量 `idle`	案例4, 6
OOM / 内存压力	`free -m`, `pg_stat_activity` 活跃数, `work_mem`	单进程内存异常高，连接数 × work_mem 接近 RAM	案例4, 5
写入变慢	`pg_stat_user_indexes`	`idx_scan = 0` 众多	案例3
死锁错误 `deadlock detected`	`pg_locks` (未授权锁), PostgreSQL 日志	互相等待锁	案例12
序列化冲突大量报错	`pg_stat_database.xact_rollback`	回滚率 > 5%	案例11
流复制延迟	`pg_stat_replication.replay_lag`	`replay_lag > 5min`	案例20
查询计划混乱，统计碎片	`pg_stat_statements` 记录数异常增长	相同模式 SQL 多条记录	案例18
FDW 查询极慢	`EXPLAIN VERBOSE`, 远端执行计划	本地估算行数 vs 实际行数差异大，远端 Seq Scan	案例16, 17
事务 ID 告警	`age(datfrozenxid)`	> 1.5 亿	案例9
故障后无法分析历史慢查询	检查 `auto_explain` 配置, 日志文件	无 `duration` 或执行计划记录	案例19
整体 IO 高但缓存命中率高	`pg_stat_bgwriter.buffers_alloc`, `iostat`, `free`	`shared_buffers` 过大，OS 缓存小	案例21

9.3 标准化排查决策树

flowchart TD
    Start["收到告警或发现异常"] --> A{"异常类型?"}
    A -->|"查询慢"| B["查询 pg_stat_activity 查看活跃/等待状态"]
    B --> B1{"等待事件是否为 Lock?"}
    B1 -->|"是"| C["用 pg_locks 构建等待图 -> 案例10/12"]
    B1 -->|"否"| D["查 pg_stat_statements 定位 Top 慢SQL"]
    D --> E["EXPLAIN ANALYZE 获取执行计划"]
    E --> F{"是否为全表扫描?"}
    F -->|"是"| G["检查索引存在、列顺序、LIKE模式 -> 案例1/2/13/14"]
    F -->|"否"| H{"死元组比例高?"}
    H -->|"是"| I["查 pg_stat_user_tables n_dead_tup / pgstattuple -> 案例7/10"]
    H -->|"否"| J["优化器估算错误?"]
    J --> K["检查统计信息、FDW use_remote_estimate -> 案例14/16"]
    A -->|"连接问题/ too many clients"| L["查 pg_stat_activity 状态分布"]
    L --> M{"大量 idle 连接?"}
    M -->|"是"| N["连接池泄漏/未配置超时 -> 案例6"]
    M -->|"否"| O["检查 max_connections、work_mem -> 案例4/5"]
    A -->|"存储膨胀/磁盘告警"| P["检查死元组与膨胀"]
    P --> Q["pg_stat_user_tables + pgstattuple -> 案例7"]
    Q --> R{"是否存在 VACUUM FULL 或长事务?"}
    R -->|"长事务"| S["终止长事务 -> 案例10"]
    R -->|"VACUUM FULL"| T["改用 pg_repack -> 案例8"]
    A -->|"流复制/数据丢失风险"| U["pg_stat_replication 检查 replay_lag"]
    U --> V["配置同步复制 -> 案例20"]
    A -->|"事务年龄告警"| W["查询 age(datfrozenxid) -> 案例9"]
    A -->|"整体 sluggish 但无明确慢查询"| X["检查 auto_explain 和 shared_buffers 配置 -> 案例19/21"]

    classDef decision fill:#fff4e6,stroke:#ff9800,stroke-width:2px,color:#333;
    classDef process fill:#f8f9fa,stroke:#333,stroke-width:1px,color:#333;
    class Start,B,C,D,E,G,I,J,K,L,N,O,P,Q,S,T,U,V,W,X process;
    class A,B1,F,H,M,R decision;

四层说明：

图标题：PostgreSQL 综合诊断与排查决策树。
入口：按异常类型分为查询慢、连接问题、存储膨胀、流复制、年龄告警、整体缓慢。
分层过滤：从系统视图（pg_stat_activity、pg_stat_statements、pg_locks）到执行计划，再到存储统计，逐级定位。
叶子映射：每个最终分支对应到具体的反模式案例编号，实现从现象到根因的快速闭环。

10. 面试高频专题

题 1：一个每天几百次调用的查询，今天突然从 5ms 变成 2s，如何排查？

标准回答：

初步定位：立即查询 pg_stat_activity，确认是否存在锁等待（wait_event 包含 Lock）或长事务阻塞。同时检查数据库整体负载，判断是单查询慢还是全局性能退化。
定位慢 SQL：利用 pg_stat_statements 查看该查询的当日平均执行时间 mean_exec_time 和调用次数 calls，对比历史数据，确认是否只有该查询异常。
分析执行计划：抓取该查询当前的 EXPLAIN (ANALYZE, BUFFERS)，重点对比是否从原先的 Index Scan 退化为 Seq Scan，或者 Join 策略、子查询处理方式发生了改变。
检查表统计信息与索引：查看 pg_stat_user_tables.seq_scan 是否突增，以及 n_dead_tup 值。如果死元组比例过高（如 > 30%），可能因为 autovacuum 未及时清理，导致 visibility map 失效，增加了回表开销甚至使 Index Only Scan 失效。
统计信息时效：确认 last_analyze 时间，若统计信息过时，优化器可能做出错误的代价估算，选择次优计划。
参数变化：检查最近是否有人调整过数据库参数（如 work_mem、random_page_cost、enable_nestloop 等）。
系统资源与环境：查看操作系统 CPU、IO 及网络情况，排除资源争抢或硬件故障。

追问 1：如果执行计划显示仍然是 Index Scan，但依然变慢，如何继续排查？回答：检查 Index Scan 的 Heap Fetches 数量和 Buffers 读取量。若 Heap Fetches 很高，说明频繁回表，通常因为 visibility map 未及时更新（死元组多），每次 Index Scan 都需要访问堆页面检查元组可见性。此时需要对该表执行 VACUUM，并调优 autovacuum 参数。此外，索引的物理碎片化（大量页面分裂导致的索引深度增加）也可能导致性能下降，必要时可 REINDEX。

追问 2：发现是 autovacuum 被关闭导致死元组高达 60%，如何处理？回答：立即手动执行 VACUUM VERBOSE 表名 清理死元组，该操作不需要 ACCESS EXCLUSIVE 锁，可与 DML 并发。然后调整 autovacuum 参数：ALTER SYSTEM SET autovacuum = on;，并设置 autovacuum_vacuum_scale_factor = 0.05（降低触发阈值），autovacuum_vacuum_cost_limit = 1000（加快清理速度）。清理完成后持续监控 pg_stat_user_tables.n_dead_tup 确认不再飙升。

追问 3：如何预防下次再发生？回答：建立多维监控告警：n_dead_tup 绝对值及占活元组比例、seq_scan 突增、长事务（xact_start 久于阈值）。确保 autovacuum 健康运行，每日巡检关键表的 dead_tuple_percent（通过 pgstattuple）。应用层面优化写入模式，批量提交以减少长事务，同时合理设置 idle_in_transaction_session_timeout。

加分回答：可以结合 pg_buffercache 检查缓存命中率变化，如果共享缓冲区命中率突然下降，可能说明数据热点发生迁移。利用 auto_explain 记录执行计划变化历史，便于对比计划漂移。另外，可临时调整 random_page_cost 观察是否影响优化器选择。

题 2：`autovacuum` 为什么没有清理死元组？可能的原因有哪些？

标准回答：可能的原因涵盖配置、运行环境和阻塞三大类：

autovacuum 被禁用：autovacuum = off 或特定表通过 ALTER TABLE ... SET (autovacuum_enabled = false) 关闭。
触发阈值过高：autovacuum_vacuum_scale_factor 设置过大（如默认 0.2），对于大表需要海量死元组（变更 20%）才触发，死元组早已堆积。
清理速度跟不上：autovacuum_vacuum_cost_limit 过低（默认 200），cost_delay 导致 VACUUM 频繁休眠，单位时间清理的页面数量小于死元组产生速度，造成“永远追不上”的局面。
长事务或长时间运行的查询：未提交的事务（尤其是 idle in transaction）持有旧的快照，导致全局 OldestXmin 停滞，VACUUM 无法回收在该快照之后产生的任何死元组。
数据库处于只读或恢复模式：物理备库处于只读状态，无法执行 VACUUM，死元组只能等主库清理后通过 WAL 重放回收空间（但标记清理和空间回收仍依赖主库）。
autovacuum 工作进程不足：autovacuum_max_workers 已满，该表的清理请求被排队等待。
表级存储参数覆盖：例如某些表的 autovacuum_vacuum_cost_limit 被单独设得过低。
统计信息被重置：pg_stat_reset_single_table_counters() 可能导致 n_dead_tup 归零，使 autovacuum 的触发条件暂时不满足。

追问 1：如何验证是否是长事务导致？回答：查询 pg_stat_activity 中 xact_start 很久远的连接，尤其是 state = 'idle in transaction'。还可以查看 backend_xmin（通过 pg_stat_activity.backend_xmin），如果该值极小且长时间不变，则就是阻塞源头。也可以使用 SELECT pid, backend_xmin, state, query FROM pg_stat_activity WHERE backend_xmin IS NOT NULL ORDER BY backend_xmin LIMIT 5; 定位最早快照。终止该连接后，n_dead_tup 应可被回收。

追问 2：为什么 autovacuum_vacuum_cost_limit 低会导致清理跟不上？回答：VACUUM 采用基于成本的节流机制，每处理一个页面都会积攒成本（vacuum_cost_page_hit、page_miss 等），达到 cost_limit 就休眠 cost_delay 毫秒。默认 limit=200，delay=2ms，即每秒约可处理 200 * (1000/2) = 100,000 单位成本对应的页面。如果表更新极频繁，死元组产量超过清理速率，堆积就不可避免。调高 cost_limit 为 1000~2000 或直接调低 cost_delay 可成倍加速清理。

追问 3：如何为不同表定制 autovacuum 参数？回答：使用 ALTER TABLE table_name SET (autovacuum_vacuum_scale_factor = 0.02, autovacuum_vacuum_cost_limit = 2000); 对高更新频率表单独设置。对于极大数据量的表，也可使用 autovacuum_vacuum_threshold 直接控制绝对死元组数量触发值。此外，还可设定 autovacuum_freeze_max_age 等冻结参数。

加分回答：可以监控 pg_stat_progress_vacuum 实时查看当前 VACUUM 的进度和 heap_blks_scanned，从而估算清理速率。结合 VACUUM VERBOSE 的输出，可精确判断每次清理回收的元组数，用于评估 autovacuum 配置调整效果。

题 3：通过 `pg_locks` 如何定位一个死锁的根源？

标准回答：当发生死锁时，PostgreSQL 会自动检测并回滚其中一个事务，同时将死锁详情记录到日志（前提 log_lock_waits = on）。若要通过 pg_locks 主动诊断：

查找未授予的锁：

SELECT pid, locktype, relation::regclass, mode, granted, waitstart
FROM pg_locks
WHERE NOT granted;

这给出了当前正在等待锁的所有进程。

定位锁持有者：对于每一个 NOT granted 的锁，根据 locktype（如 relation、transactionid、tuple）及 relation 找到已经 granted = true 的对应锁的持有进程 PID。
构建等待图：以进程为节点，若进程 A 在等待由进程 B 持有的锁，则建立边 A → B。如果图中存在环，即构成死锁。
破环操作：选择环中影响最小的事务（如运行时间最短、已写入量最少），通过 pg_terminate_backend(pid) 强制终止，打破死锁。

追问 1：死锁日志中的 Process x waits for ShareLock on transaction y; blocked by process y. 是什么含义？回答：表示进程 x 试图获取一个事务 ID 锁（locktype = 'transactionid'），等待的事务 ID 属于进程 y。由于进程 y 尚未提交或回滚，x 被阻塞。结合其他进程的等待信息，可以还原出整个死锁环。

追问 2：如何预防频繁死锁？回答：最根本的方法是统一事务中资源访问顺序，例如所有事务都按主键升序锁定行。可使用 SELECT ... FOR UPDATE ORDER BY id 提前获取所需锁。缩短事务执行时间，避免事务内部进行长时间网络调用或复杂计算。合理使用 advisory lock 进行粗粒度控制。设置 deadlock_timeout 为 1s（默认）可保证死锁迅速被检测，但不减少死锁本身。

追问 3：pg_locks 中 locktype = 'tuple' 代表什么？回答：代表行级锁等待。当多个事务尝试更新同一行时，后来的事务会在元组版本上等待排他锁。tuple 类型的锁直接对应到具体的物理元组，等待时间过长可能引发死锁。

加分回答：开启 log_lock_waits = on 并设置合理的 deadlock_timeout，可以记录所有等待超过阈值的锁信息，有助于事后分析锁争用热点。结合 pg_stat_activity 的 wait_event 字段可快速识别当前是否有大量进程在等待锁。

题 4：`pg_stat_statements` 中为什么会出现大量相似的查询？如何解决？

标准回答：大量相似查询无法归一化的根本原因是 应用没有使用参数化查询。每次发送的 SQL 文本直接拼接了不同的常量，导致 SQL 文本不同（如 WHERE id = 1 和 WHERE id = 2），归一化失败，生成不同的 queryid，无法聚合。 解决方案：应用必须改用参数化查询，如 JDBC 的 PreparedStatement 绑定参数，让 SQL 模板稳定为 WHERE id = $1。对于已存在的碎片，可执行 SELECT pg_stat_statements_reset(); 重置统计，但根本解决需修正代码。

追问 1：如果使用了 ORM（如 Hibernate），仍然出现碎片怎么办？回答：检查 ORM 是否启用了查询参数化（Hibernate 默认会参数化，但若使用了原生 SQL 拼接或 in 列表动态拼接则参数化失效）。确保 hibernate.criteria.literal_handling_mode 等参数正确。使用 pg_stat_statements 的 query 字段并结合 calls=1 查询来定位碎片 SQL，反向审查应用代码。

追问 2：如果是 IN 列表参数化（如 WHERE id IN (?, ?, ?) 个数变化）导致碎片如何优化？回答：IN 列表元素数量变化会导致不同 SQL 文本，无法归一化成单一模板。解决方案包括：① 使用 = ANY($1::int[]) 传递数组参数；② 固定 IN 列表长度，用 NULL 占位并在应用中过滤；③ 将参数写入临时表并通过 JOIN 实现。这样均可保持 SQL 模板不变。

追问 3：除了参数化，还有其他可能导致统计碎片吗？回答：有。如果 pg_stat_statements.max 设置过小，达到上限后条目会基于 LRU 被置换，可能导致高频查询的统计被挤出。另外，pg_stat_statements.track_utility = on 会记录 DDL，如果 DDL 频繁可能增加条目，但通常占比不大。主因依然是未参数化。

加分回答：可编写自动化巡检脚本，检测 pg_stat_statements 中相同模式但 queryid 不同的查询，定期反馈给开发团队。同时利用 pg_stat_statements_info 监控 dealloc 次数，评估是否需要增大 max 值。

题 5：流复制延迟过大排查步骤是什么？

标准回答：

主库检查：SELECT application_name, sync_state, write_lag, flush_lag, replay_lag FROM pg_stat_replication;，获取各备库延迟情况。
WAL 发送差异：SELECT pg_current_wal_lsn(), sent_lsn, write_lsn, flush_lsn, replay_lsn FROM pg_stat_replication;。对比各 LSN 位置，判断是发送、写入、刷盘还是重放阶段慢。
备库检查：在备库查询 pg_stat_wal_receiver 查看最后接收和确认的 LSN；用 pg_last_wal_receive_lsn() 和 pg_last_wal_replay_lsn() 获取自身延迟。检查系统资源（I/O、CPU、网络）。
网络排查：使用 ping、iperf 测试主备间延迟和带宽，排除网络瓶颈。
参数审查：wal_sender_timeout、wal_receiver_status_interval、synchronous_commit、synchronous_standby_names 配置情况。若为异步复制，需了解是否接受潜在延迟。
备库恢复冲突：若备库有频繁的只读查询，可能因 hot_standby_feedback = off 导致查询与重放冲突，重放被中断，延迟累积。
WAL 生成量：检查主库是否短时间内生成大量 WAL（如大事务、大批量 DML），超出传输或重放能力。

追问 1：replay_lag 是如何计算的？回答：replay_lag 是比较主库当前时间与最后重放的 WAL 记录中携带的时间戳的差值，因此要求主备时钟同步（NTP）。类似地，write_lag 和 flush_lag 也基于 WAL 记录的时间戳。

追问 2：如何强制同步复制以防止数据丢失？回答：主库设置 synchronous_commit = remote_apply，并配置 synchronous_standby_names = 'ANY 1 (standby1, standby2)'。这样主库提交事务时至少等待一个备库确认 WAL 已应用，确保 RPO = 0。

追问 3：如果同步复制导致主库写入性能下降怎么办？回答：可以考虑使用 remote_write 级别，只等待备库操作系统接收写入但不强制刷盘，降低延迟。部署同机房低延迟备库。采用 FIRST 或 ANY 的 quorum 模式平衡可用性和性能。对于性能极其敏感的场景，可在应用层做最终一致性，但需明确接受潜在的少量数据丢失。

加分回答：通过 pg_waldump 分析 WAL 内容，定位是否有异常大的事务导致 WAL 突然膨胀。在备库上设置 hot_standby_feedback = on，防止 VACUUM 在主库过早删除备库查询所需的旧版本元组，避免恢复冲突。

题 6：系统设计题一：设计一套 PG 慢查询自动诊断系统

标准回答：目标：自动发现慢查询、分析执行计划、给出索引建议和参数调优建议。

架构组件：

数据采集层：在生产库启用 auto_explain（log_min_duration = 1s，log_analyze=on），同时利用 pg_stat_statements 收集聚合统计。通过 Filebeat/Logstash 将慢查询日志实时发送至 Elasticsearch 或 Kafka。
分析引擎：定时任务（如 cron 或流处理）从 Elasticsearch 中拉取 Top N 慢查询模板。针对每个模板，在只读备库上执行 EXPLAIN (ANALYZE, BUFFERS)，获取实际执行计划和代价。利用 hypopg 扩展创建虚拟索引，模拟评估创建索引后的成本改善。并结合 pg_stat_user_indexes 检查现有索引使用率，给出冗余索引删除建议。
参数优化建议：分析执行计划中的 Sort Method: external 判断 work_mem 是否不足；通过 pg_stat_bgwriter 和 pg_buffercache 评估缓存命中率，建议调整 shared_buffers 或 effective_cache_size；若发现大量 Seq Scan 且表膨胀严重，建议调整 autovacuum。
告警与展示：将诊断结果存入结果数据库，通过 Grafana 仪表盘展示慢查询趋势、索引建议列表及预期收益。通过 Alertmanager 对严重慢查询发出通知。
自动应用（可选）：在严格审批流程下，可将索引建议自动推送至开发环境验证，通过后工单系统发起生产变更。

追问 1：如何避免分析对生产库造成性能影响？回答：将 EXPLAIN ANALYZE 的执行放在物理流复制的只读备库上，完全隔离生产负载。限制分析作业的并发度和资源使用（如通过 statement_timeout 和连接池限制）。生产库仅开启轻量的 auto_explain 日志记录，不额外执行 ANALYZE。

追问 2：如何给出可靠的索引建议？回答：系统会解析 WHERE 子句中的过滤列，结合 pg_stats 的直方图评估列的选择性。对于高频等值/范围条件，建议创建索引。利用 hypopg 创建虚拟索引后，重新 EXPLAIN 查询，观察成本下降比例，只有收益明显的建议才会给出。同时检查是否可合并已有索引，避免冗余。

追问 3：架构如何保证高可用和可扩展？回答：日志采集和分析组件均采用分布式部署，避免单点。如使用 Kafka 作为日志缓冲区，多个 Consumer 进行并行分析，水平扩展。分析结果数据库使用独立的高可用 PG 集群。对于超大规模环境，可按数据库实例分组分析，避免中心化瓶颈。

加分回答：引入历史执行计划对比，建立查询性能基线，当计划或耗时发生显著漂移时，主动告警。利用 ML 模型基于查询文本和表特征预测可能的索引策略，进一步辅助 DBA。

题 7：系统设计题二：设计一个多租户 SaaS 平台的 PG 数据库架构，支持数据隔离、性能监控和故障预警

标准回答：采用 数据库级隔离 (Database per tenant) 为核心设计，兼顾隔离性、运维便利性和扩展性。

数据隔离：

每个租户创建独立的 PostgreSQL 数据库。
部署统一连接池（PgBouncer），根据租户标识（从应用上下文或请求头提取）路由到对应数据库。
每个租户数据库限制最大连接数，通过 ALTER DATABASE tenent_db CONNECTION LIMIT 100 和连接池联合控制，避免单个租户资源耗尽。

性能监控：

使用 Prometheus 的 postgres_exporter 采集每个租户数据库的指标：连接数、xact_commit/rollback、死元组比例、事务 ID 年龄、复制延迟、缓存命中率、锁等待等。
Grafana 面板支持按租户筛选，集中展示。
利用 pg_stat_statements 和 auto_explain（可按数据库分别配置）收集慢查询，日志打上租户标签（通过在 log_line_prefix 中加入 %d 数据库名）。

故障预警：

设置告警规则：租户连接数使用率 > 80%，dead_tuple_percent > 20%，age(datfrozenxid) > 1.5 亿，复制延迟 > 5s，数分钟内锁等待数量异常增长。
集成 PagerDuty 或钉钉进行通知。
部分指标可自动触发运维动作：如死元组比例过高时，在低峰期自动执行 VACUUM（需编排审批流程）。

扩展性规划：

当租户数量达到上万级别，数据库级隔离成本过高，可转为 Schema 隔离 + RLS 的混合模式：中小租户共享同一数据库的不同 Schema，大租户独占数据库。
利用 Citus 按租户 ID 分片，将多个租户分布在不同节点上，实现水平扩展。
提供“租户大迁”工具，在线将 Schema 隔离的租户迁移到独立数据库。

追问 1：租户数量爆炸（上万）时，数据库级隔离是否可行？回答：不可行，上万数据库会带来管理、备份、连接池配置的灾难。此时应采用 Schema 隔离模式：每个 Schema 一个租户，通过 search_path 或连接池设置将用户限制在其模式内。搭配 RLS 策略以防应用层配置错误导致跨 Schema 访问。大租户单独迁移到独立数据库。

追问 2：如何对单个租户做性能剖析？回答：如果采用数据库隔离，直接连接该租户数据库，使用标准诊断工具（pg_stat_statements、EXPLAIN ANALYZE、auto_explain）。如果 Schema 隔离，可以通过编写代理脚本动态设置 search_path 或在查询中指定 schema。慢查询日志中通过 %d 或 %n 打印库名/用户名，便于过滤。

追问 3：数据隔离的安全性如何保障？回答：数据库级隔离通过数据库用户权限和网络策略天然隔离。Schema 隔离则必须结合严格的 Schema 权限、search_path 限制和 RLS。所有访问通过中间件认证，禁止租户直接访问数据库。启用 SSL 和审计扩展（pgaudit）记录敏感操作。

加分回答：设计一个租户自助监控门户，允许租户查看自己的性能指标、慢查询、存储用量等，但限制只能访问自身数据。通过创建受限的只读用户，使用视图函数封装查询，确保隔离性。

题 8：如何发现并删除未使用的索引？

标准回答：通过查询 pg_stat_user_indexes 系统视图，筛选出 idx_scan = 0 的索引。但需注意以下几点：

SELECT schemaname, relname, indexrelname, idx_scan
FROM pg_stat_user_indexes
WHERE idx_scan = 0
ORDER BY relname;

排除约束索引：主键、唯一约束的索引即使 idx_scan = 0 也不能删除，因为它们保障了数据完整性。可通过 pg_constraint 关联排除。
观察周期：统计信息可能在一次重启或被重置后归零，应至少观察一周以上，确保这些索引在所有业务周期内确实未被使用。
多角度交叉验证：结合 pg_stat_statements 的查询文本，确认没有查询用到这些索引的列。也可利用 pg_index.indisvalid 确保索引有效。
删除操作：确认冗余后，在低峰期执行 DROP INDEX CONCURRENTLY index_name;，避免长时间锁表影响业务。

追问 1：如何处理系统重启后统计信息重置导致的误判？回答：查询 pg_stat_database.stats_reset 了解统计重置时间，如果发生在近期，则数据参考价值有限。最佳实践是维护一个索引使用率的历史快照表，定期采集 idx_scan 并计算增量，通过多天趋势判断是否真正从未使用。

追问 2：如果索引只在某些特定时间点（如月末报表）才被使用怎么办？回答：需要在删除前进行业务确认，查阅代码仓库和查询执行计划历史，确认没有低频但关键的查询依赖该索引。可通过 auto_explain 长时间收集执行计划，确保未出现该索引的使用记录。

追问 3：idx_tup_fetch 和 idx_tup_read 区别及对诊断的意义？回答：idx_tup_read 是索引扫描返回的索引条目数，idx_tup_fetch 是通过索引回表获取的实际活元组行数。如果 idx_tup_read 远大于 idx_tup_fetch（比如高比例死元组），说明索引扫描了大量无效条目，需 VACUUM 该表。

加分回答：编写自动化脚本，生成删除无用索引的 DDL 并附上风险评估。结合 hypopg 验证删除索引后相关查询计划是否受影响（前提是事先记录这些查询）。最终决策仍需 DBA 人工审核。

题 9：`VACUUM FULL` 和普通 `VACUUM` 的根本区别？什么时候用哪个？

标准回答：

普通 VACUUM：仅仅是标记死元组空间为可复用，并不将磁盘空间归还给操作系统。它获取 ShareUpdateExclusiveLock，与 DML（读写）操作兼容，可在线执行。日常维护完全依赖它，并通常由 autovacuum 自动触发。
VACUUM FULL：将整个表重写到新的物理文件中，完全清理碎片并归还磁盘空间。操作期间需要 ACCESS EXCLUSIVE 锁，阻塞一切对该表的读写。因此它绝不能在业务高峰期执行，只能在计划的维护窗口进行。
使用场景：普通 VACUUM 用于日常死元组回收，由 autovacuum 自动执行。VACUUM FULL 仅在极端情况下使用，例如删除或更新了表中绝大部分数据，导致严重膨胀且急需回收磁盘空间，同时业务允许长时间锁表。更推荐的替代方案是使用 pg_repack 或 pg_squeeze，它们能在线重组表，仅最后切换时短暂加锁。

追问 1：为什么普通 VACUUM 不能归还磁盘空间？回答：它只标记页面内的死元组为可复用，空闲空间记录在 FSM（空闲空间映射）中供后续插入使用。物理文件的大小不会缩小，除非文件末尾的整个页面完全变空，PG 才有可能 truncate 这部分，通常不常见。要立即归还空间，必须重写整个表（如 VACUUM FULL 或 CLUSTER）。

追问 2：监控发现表膨胀严重，你会第一时间执行 VACUUM FULL 吗？回答：不会。首先排查膨胀原因（autovacuum 是否受阻、长事务等），解决根因。然后使用普通 VACUUM 回收死元组。如果需要回收磁盘空间，使用 pg_repack 进行在线重组；VACUUM FULL 是最后的手段。并评估是否可以调整 autovacuum 参数以预防未来膨胀。

追问 3：pg_repack 的工作原理是什么？回答：pg_repack 创建一个与原表结构相同的影子表，将原表数据复制过去，同时利用触发器捕获复制过程中的增量 DML。完成初始复制后，应用增量，最后在极短的排它锁窗口内，通过重命名表切换实现替换。因此整个操作对业务几乎透明。

加分回答：对于分区表，膨胀严重的分区可以直接 DETACH 并 TRUNCATE，然后使用 INSERT INTO ... SELECT 重新加载有效数据，影响范围可控且速度更快。

题 10：事务 ID 回卷告警出现，如何紧急处理？

标准回答：

立刻执行 VACUUM FREEZE：登录到告警的数据库中，执行 VACUUM FREEZE;。该命令会冻结所有满足条件的旧元组，重置 datfrozenxid。如果数据库已拒绝写入，可能需要重启到单用户模式执行。
并行加速：为了尽快冻结，可对数据库中年龄最大的几个表在多个连接中分别执行 VACUUM FREEZE，并适当增大 maintenance_work_mem 减少索引扫描的 I/O。
监控进度：通过 pg_stat_progress_vacuum 观察 VACUUM 进度，同时不断查询 SELECT datname, age(datfrozenxid) FROM pg_database; 验证年龄下降。
调优预防：调整 autovacuum_freeze_max_age 到一个更保守的值（例如 1.5 亿），并确保 autovacuum 有足够资源（autovacuum_max_workers、cost_limit）完成冻结。设置年龄监控告警，在达到 1.5 亿前预警。
长期策略：永不关闭 autovacuum，即使只读库也要定期手动执行 VACUUM FREEZE。

追问 1：为什么 VACUUM FREEZE 比普通 VACUUM 更彻底？回答：普通 VACUUM 只冻结那些 xmin 年龄超过 vacuum_freeze_min_age 的元组，而 VACUUM FREEZE 会无视该阈值，强制冻结所有符合基本冻结条件的元组，从而更激进地降低 relfrozenxid，在回卷风险紧急时效果立竿见影。

追问 2：如果 VACUUM FREEZE 执行得很慢怎么办？回答：通过 ALTER SYSTEM SET maintenance_work_mem = '1GB'; 并重载，增大维护操作内存，加快索引扫描；临时大幅提升 autovacuum_vacuum_cost_limit（如 10000）并将 cost_delay 设为 0，消除清理节流；关闭该表的 autovacuum，手动并行 VACUUM；必要时暂停非关键业务。

追问 3：只读数据库为什么也会出现事务 ID 回卷？回答：只读查询虽不消耗 XID，但诸如 VACUUM、ANALYZE，甚至某些函数调用、序列等都可能消耗 XID。最重要的是，即使表完全只读，如果没有 VACUUM 冻结，元组的 xmin 会逐渐与当前 XID 差距拉大，最终进入回卷危险区。因此 PG 要求对所有数据库（包括只读）进行定期的冻结清理。

加分回答：使用 pg_visibility 扩展可以检查表和页面的冻结状态，帮助判断哪些表最需要优先冻结。结合 pg_class.relfrozenxid 可精确定位年龄最老的表。

题 11：解释 `work_mem` 过大为什么会导致 OOM，而不只是性能下降。

标准回答： work_mem 是对每个查询操作（如 Sort、Hash Join）允许的最大内存，并且每个连接内的每个计划节点都可以独立申请这么多内存。当并发量很高时，总的申请量大致等于 活跃连接数 × work_mem × 每个查询的平均排序/哈希节点数。例如 work_mem=256MB，200 个连接同时包含一个排序操作，理论总内存需求可达 50GB，这很可能超过机器的物理内存。Linux 的 OOM Killer 将被触发，杀死部分 PostgreSQL 进程以释放内存，导致服务中断。即使没立即 OOM，频繁的 Swap 也会导致系统严重抖动，磁盘 I/O 剧增，整体性能断崖式下降。

因此，work_mem 过大等同于在“全局内存预算”中埋下炸弹，根源在于它是一个局部参数，没有全局视角的内存控制。

追问 1：如何评估当前 work_mem 设置是否合适？回答：通过 pg_stat_statements 查看使用了磁盘排序的查询（temp_blks_read 高），若大量查询使用磁盘排序，可能 work_mem 过小；若没有磁盘排序但系统频繁 OOM 或 Swap 高，则可能过大。结合 free -m、vmstat 观察内存使用。可根据公式 （物理内存 - shared_buffers - 系统预留） / (预期最大并发连接数 × 2) 估算安全值。

追问 2：OLAP 查询需要的 work_mem 与 OLTP 不同，如何兼顾？回答：全局设置一个保守的低值（如 16MB）适应 OLTP 高并发；对于复杂的分析查询，在会话级别 SET work_mem = '256MB'; 或者利用 pg_hint_plan 指定。也可以为 OLAP 用户或数据库设置 ALTER ROLE ... SET work_mem = ...。

追问 3：hash_mem_multiplier 与 work_mem 有何关系？回答：work_mem 约束 Sort 节点的内存，而 Hash 节点的最大内存 = work_mem * hash_mem_multiplier（PG 13+）。该参数允许 Hash 操作比 Sort 使用更多内存，但仍受到全局并发内存总量的限制。生产环境同样需要谨慎设置。

加分回答：可以监控每个后端的实际内存使用（通过 getrusage 或 OS 级工具配合），动态调整 work_mem。引入资源队列（如 PgBouncer 的 pool 管理）限制并发大型查询的数量，从源头控制内存消耗。

题 12：`effective_cache_size` 参数如何影响查询计划？

标准回答： effective_cache_size 并不实际分配内存，它只是告诉 PostgreSQL 优化器 操作系统文件缓存大约有多大。优化器利用这个值来计算索引扫描的成本：如果一个索引扫描需要的页面很大一部分被认为已经在 OS 缓存中，那么索引扫描的成本会降低，优化器就更倾向于选择索引扫描而非顺序扫描。值越大，优化器越假定缓存命中率越高，从而更偏向使用索引。反之，如果设得太小，优化器可能过分认为需要昂贵的磁盘 I/O，从而错误选择全表扫描。

通常建议设置为物理内存的 50%~75%，但要扣除 shared_buffers 的影响，因为 OS 缓存不包括 PostgreSQL 自身的共享缓冲区。

追问 1：如何验证 effective_cache_size 设置是否合适？回答：观察 EXPLAIN ANALYZE 中实际花费与实际行数的差异。如果索引扫描的代价估算偏高导致优化器选择 Seq Scan，可适当调大该值再观察计划变化。结合 OS 层 free -m 的 cached 大小进行校准。

追问 2：如果把 effective_cache_size 设置得过大（比如等于物理内存）有什么风险？回答：过大会使优化器“过度自信”地选择索引扫描，而忽略了实际上数据并未完全在缓存中，结果出现大量物理随机 I/O，性能反而下降。所以它必须是真实的 OS 缓存估计，而不是随意夸大。

追问 3：它和 shared_buffers 有直接关系吗？回答：没有直接的内存重叠，effective_cache_size 描述的是系统中 OS 页面缓存的大小，不包括 shared_buffers。因此，设置时应在物理内存基础上减去 shared_buffers 的大小。

加分回答：在只读负载测试中，可以通过不断增加 effective_cache_size 观察执行计划变迁，找到性能最佳时的近似值，然后乘以一个安全系数作为生产配置。

题 13：为什么推荐使用 `READ COMMITTED` 而非 `SERIALIZABLE`？

标准回答： READ COMMITTED (RC) 是 PostgreSQL 的默认隔离级别，它在并发性和数据一致性之间提供了最佳平衡。相比之下，SERIALIZABLE 在高并发 OLTP 场景下会带来严重的序列化冲突，导致大量事务回滚，吞吐量下降。

RC 工作原理：允许不可重复读和幻读，但通过 MVCC 保证不会读到未提交的数据（脏读）。大部分 OLTP 应用可以通过应用层乐观锁（版本号）来解决逻辑冲突。
SERIALIZABLE 代价：使用 SSI（可序列化快照隔离）技术，追踪更复杂的读写依赖，需要额外的谓词锁（SIREAD 锁）管理。在高冲突的写场景下，大量事务会因检测到依赖循环而失败，错误信息 could not serialize access... 频繁出现，导致业务逻辑复杂化（需要不断重试）。
选型建议：除非业务确实需要通过数据库原生能力避免写偏斜等异常，且能够接受潜在的低并发和高失败率，否则永远使用 READ COMMITTED。金融汇总等需要强一致性的小型事务可以单独使用 SERIALIZABLE。

追问 1：READ COMMITTED 能防止哪些问题，不能防止哪些？回答：它保证不会发生脏读，但是不可重复读（同一事务内两次读同一行结果不同）和幻读（同一事务内两次范围查询结果不同）是允许的。如果应用逻辑必须处理这些场景，可通过 SELECT FOR UPDATE 或版本控制来弥补。

追问 2：REPEATABLE READ 和 SERIALIZABLE 在 PG 中有什么区别？回答：PG 的 REPEATABLE READ 防止不可重复读和脏读，但可能发生幻读；而 SERIALIZABLE 通过 SSI 检测并防止任何序列化异常（包括幻读和写偏斜），代价是冲突检测和事务所失败。实际上 PG 的 RR 实现已非常强，很多场景可作为低代价的替代。

追问 3：如何统计序列化冲突的比例？回答：通过 pg_stat_database.xact_rollback 与 xact_commit 的比例，结合错误日志中 serialization_failure 的数量评估。如果冲突比例超过 0.1%，可能说明该业务不适合全局 SERIALIZABLE。

加分回答：为了演示，可以通过 CREATE TABLE t (id int primary key, val int); 然后在两个会话中使用 SERIALIZABLE 分别读写不同行再交错更新，重现 could not serialize access 错误。

题 14：你遇到过 `SELECT *` 带来的性能问题吗？如何说服开发人员改正？

标准回答：遇到过。SELECT * 会拉取所有列，常见危害：

阻止 Index Only Scan：因为索引不可能覆盖所有列，必须回表获取不在索引中的列，增加了随机 I/O。
网络传输开销：传输大量不必要的数据，尤其当包含 TEXT/BLOB 大字段时，延迟显著增加。
内存消耗：客户端和服务器需要更多内存来处理结果集。
破坏查询稳定性：后续表结构增加或删除列会导致应用获取到预期之外的列数据，引发潜在错误。

说服开发人员的方法：通过实验展示，对比 SELECT * 和 SELECT col1, col2 的执行计划和耗时，强调 Heap Fetches 的巨大差异。指出使用 ORM 时建议开启“partial select”或明确列出字段映射。设立代码规范并利用 SonarQube 等工具在 CI 阶段拦截 SELECT *。

追问 1：在什么情况下 SELECT * 无可厚非？回答：仅在临时查询、管理脚本、或者工具代码（如 pg_dump）中使用。但生产应用代码中绝不应出现。

追问 2：如果表列数很少（比如 5 列），是否无所谓？回答：列数少危害相对较小，但仍会破坏扩展性：一旦增加列，所有 SELECT * 的地方返回数据突然增多，可能冲击网络和内存。所以仍应坚持明确列出列名。

追问 3：如何在 PostgreSQL 端阻止 SELECT *？回答：数据库端没有原生方法禁用 SELECT *。可以借助 pg_stat_statements 监控 SELECT * 的出现，或利用 pg_query_state（PG 14+）和 review 查询文本，在 DB 审计层告警。根本解决还得靠应用层规范。

加分回答：可以创建一个 Linter 工具，解析 SQL 文本并禁止 SELECT *，在预发布阶段自动检查。

题 15：FDW 外表的 `fetch_size` 参数影响什么？

标准回答： fetch_size 是 postgres_fdw 的一个选项，指定在一次游标操作（FETCH）中从远端获取的行数。它影响 FDW 查询的效率：

低的 fetch_size：导致更多的网络往返（每个 FETCH 获取少量行），增加延迟开销，适合要尽快返回首行结果（如 LIMIT 少量行）的场景。
高的 fetch_size：减少往返次数，提高吞吐量，但会增加单次传输的内存消耗和延迟首行返回时间。
默认值为 100，通常需要根据网络延迟和查询需求调优。对于批量提取大量数据的场景（如数据迁移），可以设高为 1000 或更高。

追问 1：如何观察 fetch_size 对查询的影响？回答：通过 EXPLAIN (ANALYZE, VERBOSE) 查看 ForeignScan 节点，开启 auto_explain 记录时间，改变 fetch_size 对比 actual time 的变化。

追问 2：fetch_size 对内存有影响吗？回答：本地后端会缓冲从远端获取的行，fetch_size 越大，本地缓冲区消耗的内存越多，可能会影响 work_mem 之外的内存使用量。

追问 3：是否可以为每个表或查询单独设置？回答：可以作为外表选项（ALTER FOREIGN TABLE ... OPTIONS (SET fetch_size '1000')）固定设置，或者在事务内通过 ALTER SERVER 等影响全局，但无法在单个 SQL 中指定。不同场景可能需不同表不同设置。

加分回答：对于通过 FDW 的 JOIN，合理设置 fetch_size 加上 use_remote_estimate 可以提供准确的行数估计，帮助优化器选择更合适的 JOIN 策略。

题 16：如何用 `pgstattuple` 和 `pg_stat_user_tables` 量化表膨胀？

标准回答：

pg_stat_user_tables：提供 n_live_tup 和 n_dead_tup 的估计值（基于采样统计，非精确）。计算膨胀率可以使用公式 n_dead_tup / NULLIF(n_live_tup + n_dead_tup, 0)。当比率超过 0.2 就值得关注。
pgstattuple 扩展：提供精确的死元组比例和空闲空间比例。执行 SELECT * FROM pgstattuple('table_name'); 返回 dead_tuple_percent、free_percent 等。若 dead_tuple_percent > 30%，说明严重膨胀，需要立即 VACUUM。同时 table_len 与实际数据量的对比可用于评估物理存储膨胀。
联合使用：平时用 pg_stat_user_tables 快速筛选膨胀可能高的表，然后对候选表用 pgstattuple 精确确认，决定是否需要介入。

追问 1：pgstattuple 操作是轻量的吗？生产环境执行有风险吗？回答：pgstattuple 会全表扫描并读取每个页面，对大型表会消耗大量 I/O 和 CPU，执行期间可能影响性能。建议在低峰期对重点表执行，或使用 pgstattuple_approx（需要将参数设置为 true）进行快速近似扫描。

追问 2：n_dead_tup 与 pgstattuple 的死元组数为什么有时差异较大？回答：n_dead_tup 是基于统计的估算值，通过 ANALYZE 和 VACUUM 过程采样更新，不是实时精确值。而 pgstattuple 扫描所有页面给出精确统计。两者可能因采样误差或统计信息更新不及时而产生差异。

追问 3：如何基于这些信息调整 autovacuum？回答：如果发现某表 dead_tuple_percent 持续升高，可降低该表的 autovacuum_vacuum_scale_factor（例如 0.02），同时提高 autovacuum_vacuum_cost_limit，确保在膨胀恶化前就触发清理。

加分回答：配合 pg_visibility 查看 visibility map 的覆盖率，VM 未全清会导致 Index Only Scan 失效，与膨胀紧密相关。

题 17：死锁检测原理与参数调优。

标准回答： PostgreSQL 使用 等待图（Wait-For Graph） 的方式进行死锁检测。当一个事务请求锁而无法立即获得时，它进入等待队列，死锁检测器会周期性被唤醒（由 deadlock_timeout 参数控制间隔），运行 DeadLockCheck 函数。该函数遍历所有阻塞的锁请求，构建以进程为节点、以等待关系为边的有向图。如果检测到环，则选择一个代价最低的事务（考虑事务已运行时间、已写入数据量、锁数量等）回滚，日志中记录详细死锁信息。

参数调优：
- deadlock_timeout：默认 1 秒，即每 1 秒检查一次。这是检测死锁的周期，也是事务在被检测到死锁前可能等待的最长时间。如果死锁频繁影响业务，可适当降低（如 500ms）以加快检测，但会增加检测开销。
- log_lock_waits：开启此参数后，即使未形成死锁，只要一个锁等待超过 deadlock_timeout，也会记录日志。这对排查锁等待热点非常有用。

追问 1：为什么不能立即检测死锁？回答：死锁检测算法需要扫描所有等待锁的进程，有一定开销。若每次有新锁请求都运行检测，将严重降低性能。因此采用周期性检查，deadlock_timeout 实际上是在性能和检测及时性间的权衡。

追问 2：如何查看最近的死锁详情？回答：死锁发生时，PG 会自动将详细信息（进程ID、等待锁类型、语句）写入服务器日志。可以使用 grep 'DETAIL' 过滤日志。如果日志量太大，可临时增加 log_lock_waits = on 对所有锁等待进行记录。

追问 3：deadlock_timeout 设置过大有什么后果？回答：最大的问题是真实死锁事务需要等待更久才被回滚，占用锁资源时间延长，可能引发更多的阻塞等待，雪崩效应。例如两个死锁事务各持有行锁，其他数十个事务也在等待相同行，这些都会积压直到检测完成。

加分回答：使用 SELECT * FROM pg_locks WHERE NOT granted; 可实时观察等待中的锁，配合 pg_stat_activity 可手动画出等待链，在死锁检测器介入前主动干预（杀掉其中一个进程）。

题 18：`autovacuum` 的 `scale_factor` 和 `threshold` 如何协同决定触发时机？

标准回答： autovacuum_vacuum_scale_factor 和 autovacuum_vacuum_threshold 共同决定一个表何时触发 VACUUM。触发公式为： 触发死元组数 = autovacuum_vacuum_threshold + autovacuum_vacuum_scale_factor * reltuples

threshold 是绝对基数，默认 50，用于小表保护，防止比例计算不准确。
scale_factor 是相对于表总行数 reltuples 的比例，默认 0.2（20%）。

例如，一个 10 万行的表，默认触发需死元组 ≥ 50 + 0.2×100,000 = 20,050 行。对于 1 亿行的大表则需要 2,000 万行死元组才触发，极易造成膨胀。因此常对大表降低 scale_factor 到 0.01~0.05。

追问 1：两者如何为不同大小的表微调？回答：小表可以依赖 threshold 快速触发。对于中大型表，threshold 作用微弱，应主要调整 scale_factor。还可以对极个别高频更新表通过 ALTER TABLE ... SET (autovacuum_vacuum_threshold = 1000, autovacuum_vacuum_scale_factor = 0.01); 定制。

追问 2：分析型表（很少更新）应该如何设置？回答：这类表死元组少，膨胀风险低，可以保留默认甚至调高 scale_factor 以减少不必要 VACUUM 开销。但冻结参数（autovacuum_freeze_max_age）仍需正常设置，以管理事务 ID 年龄。

追问 3：ANALYZE 也有类似的阈值参数吗？回答：是的，autovacuum_analyze_scale_factor 和 autovacuum_analyze_threshold 控制何时触发自动分析以更新统计信息，原理相同，只是依据的是表的变更行数（n_mod_since_analyze）。

加分回答：可以通过监控 n_dead_tup 和上次 autovacuum 时间，结合 reltuples 反推是否快要达到触发阈值，实现更主动的维护。

题 19：流复制的 `write_lag`, `flush_lag`, `replay_lag` 区别？

标准回答：这三个延迟字段均从主库 pg_stat_replication 视角反映备库的延迟，基于 WAL 记录中的时间戳。

write_lag：WAL 记录从主库发送到备库，并写入操作系统缓冲区（但未刷盘）的延迟。
flush_lag：备库将 WAL 从操作系统缓冲区刷写到磁盘（持久化）的延迟。
replay_lag：备库将 WAL 记录实际应用到（重放）数据库的延迟，即数据在备库真正可见的延迟。通常 replay_lag ≥ flush_lag ≥ write_lag。replay_lag 是最关键的，因为它直接影响主备切换后的数据可见性。

追问 1：为什么 replay_lag 有时远远大于 flush_lag？回答：可能因为备库的 recovery 过程遇到瓶颈：如备库只读查询与 WAL 重放冲突（hot_standby_feedback 未开），导致重放暂停；或者备库的应用速度跟不上刷写速度（CPU 或 I/O 资源不足）。

追问 2：write_lag 很大意味着什么？回答：网络传输是瓶颈，或者主库 WAL sender 发送速度不够。可能需要优化网络，或检查主库生成 WAL 速率是否过载。

追问 3：如何计算这些延迟？回答：主库通过比较当前时间与 WAL 记录中携带的主库写入时间戳来计算。因此要求主备时钟必须同步（NTP），否则数值不准确。

加分回答：通过 pg_stat_wal_receiver 的 last_msg_send_time 等可以辅助判断备库自上次通信后是否已经失联。连续监控这些指标并组合报警，可及时定位复制链路的哪个阶段出了问题。

题 20：`log_duration` 和 `auto_explain` 有什么区别？如何结合使用？

标准回答：

log_duration：参数，开启后在日志中记录每条 SQL 语句的执行时长。优点是可以全面了解所有 SQL 的耗时分布，缺点是不区分快慢，会产生海量日志，且不包含执行计划细节。
auto_explain：扩展模块，仅在 SQL 执行时间超过 log_min_duration 时，自动记录其执行计划（并可附加 BUFFERS、TIMING 等信息）。适用于精准捕获慢查询的执行细节，日志量可控。
结合使用：日常可仅开启 auto_explain 捕捉超过一定阈值（如 1s）的慢查询计划。如果需要全量 SQL 耗时统计，可用 pg_stat_statements 代替 log_duration，因为它聚合统计，开销更小。只有在特定调试阶段，才短暂开启 log_duration 配合 auto_explain。

追问 1：auto_explain 对性能有何影响？回答：当开启 auto_explain.log_analyze = on 时，查询执行期间会额外采集缓冲区和计时信息，有一定的性能开销（通常 2%~5%）。阈值越高，触发的语句越少，影响越小。生产环境建议开启但不分析过于频繁的极快查询。

追问 2：能否只对某些用户或数据库记录慢查询？回答：auto_explain 的配置可以按数据库或用户通过 ALTER DATABASE / ALTER ROLE ... SET 来覆盖全局设置，实现细粒度控制。

追问 3：auto_explain.log_nested_statements 是什么？回答：该参数启用后，对于函数或存储过程中执行的 SQL 语句，只要执行时间超过阈值，也会单独记录其执行计划，有利于排查复杂 PL/pgSQL 中的慢逻辑。

加分回答：结合 pgbadger 等日志分析器，可以图形化展示 auto_explain 产生的执行计划，对历史慢查询进行趋势和对比分析。

题 21：生产中关闭 `autovacuum` 的风险与应对措施。

标准回答：关闭 autovacuum 会导致：

表膨胀：死元组无法自动回收，表占用空间持续增长，查询严重变慢。
事务 ID 回卷风险：冻结操作停止，datfrozenxid 年龄不断增长，最终数据库拒绝写入。
统计信息过时：autovacuum 也负责触发 ANALYZE，关闭后列统计信息不更新，优化器做出错误计划。
可见性映射不更新：Index Only Scan 效率下降，回表剧增。

应对措施：

绝对不禁止：哪怕只读库也不能完全关闭。
如果因历史原因已关闭：应立即开启并进行全面检测：对全库执行 VACUUM FREEZE 紧急处理年龄问题；手动 VACUUM VERBOSE 关键表；调优 autovacuum 参数确保后续正常运行。
监控兜底：即使开启，也要监控 n_dead_tup、age(datfrozenxid)、统计信息更新时间，确保 autovacuum 实际在正常工作。

追问 1：为什么即使只读也不能完全关闭？回答：只读库的元组依然需要冻结，因为事务 ID 随着查询和系统维护也在推进（txid_current() 会在各种操作中递增）。没有 VACUUM 冻结，年龄会增长，最终触发回卷保护。

追问 2：如果 autovacuum 导致负载过高，如何在不关闭的情况下缓解？回答：调高 autovacuum_vacuum_cost_delay，降低 cost_limit，让清理更慢但更温柔。或利用表级存储参数为特定大表设置更低的 autovacuum_vacuum_scale_factor。避免在高峰期集中触发批量 VACUUM，可设置 autovacuum_naptime 间隔更长但保持开启。

追问 3：如何模拟和验证 autovacuum 的功效？回答：创建一个测试表，插入大量数据后不断更新，观察 n_dead_tup 在 autovacuum 开启/关闭时的升降。使用 VACUUM VERBOSE 查看清理细节。

加分回答：使用 pg_stat_progress_vacuum 可以观察 autovacuum 工作的实时进度，帮助判断其是否有效执行。

题 22：设计一个 PG 报警规则，列举 10 个关键指标与阈值。

标准回答：以下为生产环境中建议的十大关键指标及报警阈值：

连接数使用率：当前连接数 / max_connections > 80%。工具：pg_stat_activity count。
死元组比率：n_dead_tup / (n_live_tup + n_dead_tup) > 20%（或 dead_tuple_percent > 25%）。工具：pg_stat_user_tables / pgstattuple。
事务 ID 年龄：age(datfrozenxid) > 1.5 亿。工具：pg_database。
流复制延迟：replay_lag > 5 秒。工具：pg_stat_replication。
锁等待数量：count(pg_locks WHERE NOT granted) > 10 且持续时间 > 1 分钟。工具：pg_locks。
缓存命中率：(blks_hit / (blks_hit + blks_read)) < 90%。工具：pg_stat_database。
磁盘使用率：数据目录所在磁盘使用率 > 80%。OS 层面监控。
慢查询比率：pg_stat_statements 中 mean_exec_time > 阈值 的查询数量突增，或者通过 auto_explain 日志数量判断。
序列化冲突率：xact_rollback / (xact_commit + xact_rollback) > 1%（如果使用 SERIALIZABLE）。工具：pg_stat_database。
WAL 生成速率异常：使用 pg_current_wal_lsn() 周期性计算，若短时间生成量远超平常，告警。可结合复制延迟判断。

追问 1：报警规则中如何区分不同重要等级？回答：将上述指标分为 P0（致命，如连接耗尽、回卷告警、复制中断）、P1（严重，如延迟 > 5s、死元组 > 30%）、P2（警告，如缓存命中率 < 90%、磁盘 80%）。不同等级对应不同的通知和响应要求。

追问 2：如何避免报警风暴？回答：设置合理的 flapping 抑制（例如指标短时间内反复跨越阈值时不重复发送）。聚合多个指标（如死元组高且查询变慢）才触发。使用 Prometheus 的 alertmanager 的 grouping 和 inhibition 规则。

追问 3：流复制延迟 > 5s 的告警，如果网络抖动导致偶尔触碰如何处理？回答：设置持续时长规则，如延迟超过 5s 持续 2 分钟才告警，忽略瞬时尖峰。结合 write_lag 和 flush_lag 分解，判断是短暂网络问题还是持续性能瓶颈。

加分回答：将报警信息与诊断决策树联动，报警消息中附带初步排查建议（如检查死元组的建议 SQL），加速值班人员响应。

说明：以上 22 道面试题完整覆盖了七大反模式领域，每题均按标准化面试回答展开，包括追问和加分回答，确保读者对排查思路、内核原理和最佳实践了然于心。

反模式速查表

反模式名称	领域	核心现象	根因关键词	修正要点
复合索引列顺序错误	索引	查询 Seq Scan	B-Tree 最左前缀	调整索引列顺序
LIKE 前导模糊无索引	索引	模糊查询慢	B-Tree 不支持前导通配符	pg_trgm GIN
冗余索引过多	索引	写入 TPS 低	INSERT/UPDATE 维护所有索引	删除 idx_scan=0 索引
max_connections 过高	连接资源	OOM, 上下文切换	每连接一进程，work_mem 叠加	连接池降 conn
work_mem 过大	连接资源	并发 OOM	每操作独立分配	全局小值，会话调大
无连接池/连接泄漏	连接资源	idle 连接耗尽	连接未释放	连接池 + timeout
autovacuum 关闭/滞后	VACUUM	表膨胀，死元组多	死元组未回收	开启调优 autovacuum
VACUUM FULL 锁表	VACUUM	业务挂起	AccessExclusive 锁	pg_repack / 低峰期
事务ID回卷风险	VACUUM	数据库拒绝写入	32位xid 回卷	VACUUM FREEZE, 监控
长事务阻 VACUUM	事务锁	表膨胀，死元组不降	旧快照可见性	终止长事务，设置超时
SERIALIZABLE 误用	事务锁	序列化冲突	SSI 冲突检测	降级 RC
死锁	事务锁	deadlock detected	锁等待环	统一加锁顺序
SELECT *	SQL查询	回表过多	需要非索引列	指定所需列
Join 顺序错误	SQL查询	Nested Loop 大表驱动	统计信息过时/缺索引	建索引，ANALYZE
子查询重复执行	SQL查询	SubPlan loops 高	未提升为 Semi Join	JOIN/EXISTS 代替
FDW 未远程估算	扩展FDW	估算偏差大	use_remote_estimate off	开启远程估算
FDW 缺索引远端	扩展FDW	远端全表扫描	缺索引	远端建索引
统计碎片化	扩展FDW	归一化失效	非参数化 SQL	参数化查询
缺 auto_explain	架构配置	故障难定位	无慢查询日志	启用 auto_explain
流复制延迟大	架构配置	切换丢数据	异步复制延迟	同步复制，监控
shared_buffers 过大	架构配置	IO 不降反升	挤占 OS 缓存	调至 RAM 25%-40%

Demo 脚本示例

完整的 postgresql-anti-patterns.sql 包含所有反模式的错误示例、排查和修正代码，以下为部分摘要：

-- =====================================================
-- PostgreSQL 反模式诊断与修复脚本集 (PostgreSQL 16.x)
-- 文件名: postgresql-anti-patterns.sql
-- 涵盖 21 个反模式，带详细中文注释
-- =====================================================

--------------------------------------------
-- 案例1: 复合索引列顺序错误
--------------------------------------------
-- 准备环境
DROP TABLE IF EXISTS orders CASCADE;
CREATE TABLE orders(id SERIAL PRIMARY KEY, status INT, create_time TIMESTAMP, amount NUMERIC);
INSERT INTO orders (status, create_time, amount) SELECT (random()*10)::int, now() - interval '1 day' * (random()*1000), random()*1000 FROM generate_series(1,100000);

-- 错误索引
CREATE INDEX idx_err ON orders (status, create_time);
-- 错误查询导致 Seq Scan
EXPLAIN ANALYZE SELECT * FROM orders WHERE create_time > '2024-01-01';
-- 排查
SELECT relname, seq_scan, idx_scan FROM pg_stat_user_tables WHERE relname='orders';
-- 修正
CREATE INDEX idx_correct ON orders (create_time, status);
EXPLAIN ANALYZE SELECT * FROM orders WHERE create_time > '2024-01-01';
-- 结果应为 Index Scan

-- ... (其他案例类似，每个包含 create、wrong、diagnose、fix 步骤)

-- 案例7: autovacuum 跟不上表膨胀
-- 暂时关闭 autovacuum (演示用，生产勿用)
ALTER SYSTEM SET autovacuum = off;
SELECT pg_reload_conf();
-- 模拟大量更新产生死元组
UPDATE orders SET amount = amount + 1;
-- 检查死元组
SELECT relname, n_live_tup, n_dead_tup FROM pg_stat_user_tables WHERE relname='orders';
-- 使用 pgstattuple
SELECT * FROM pgstattuple('orders');
-- 修正：开启 autovacuum 并手动清理
ALTER SYSTEM SET autovacuum = on;
ALTER SYSTEM SET autovacuum_vacuum_scale_factor = 0.05;
SELECT pg_reload_conf();
VACUUM VERBOSE orders;

-- 案例12: 死锁重现
TRUNCATE accounts;
INSERT INTO accounts VALUES (1,1000),(2,1000);
-- 在 psql 中开启两个会话模拟（此处仅给出伪代码）
-- S1: BEGIN; UPDATE accounts SET balance = balance - 100 WHERE id = 1;
-- S2: BEGIN; UPDATE accounts SET balance = balance - 50 WHERE id = 2;
-- S1: UPDATE accounts SET balance = balance + 100 WHERE id = 2;  -- 等待
-- S2: UPDATE accounts SET balance = balance + 50 WHERE id = 1;  -- 死锁
-- 排查锁
SELECT pid, relation::regclass, mode, granted FROM pg_locks WHERE relation = 'accounts'::regclass;

-- ... 以及 FDW、auto_explain 等配置示例 ...

所有脚本可在 PostgreSQL 16 环境中直接执行，包含详细注释。读者可依次复现每个反模式的现象，并执行修复命令验证效果。

结语

本文串联了前 14 篇的核心知识，将分散的机制与优化点凝聚为 21 个反模式，并提供以 pg_stat_activity、pg_locks、auto_explain、pg_stat_statements、pgstattuple 等工具为核心的标准化排查体系。从索引失效到存储膨胀，从长事务阻塞到流复制延迟，每一个坑点背后都有清晰的根因和修复路线。结合七大领域、诊断决策树和面试专题，读者应能形成“查现象→定位工具→映射到反模式→根因分析→修正”的肌肉记忆。希望这份“案头手册”能帮助 Java 专家及 DBA 在复杂的线上环境中快速定位问题，保障 PostgreSQL 的稳定与高效。

反模式与排查宝典：PostgreSQL 常见陷阱与排错指南

文章概述

衔接前文段落

总结性引言

核心要点

文章组织架构图

1. 反模式总览与分类

2. 索引反模式（案例 1‑3）

案例 1：复合索引列顺序错误导致 Index Scan 失效

案例 2：LIKE '%keyword%' 无法使用 B-Tree 索引

案例 3：冗余索引过多导致写入性能下降

3. 连接与资源反模式（案例 4‑6）

案例 4：max_connections 设置过高导致 OOM 或上下文切换风暴

案例 5：work_mem 设置过大导致高并发 OOM

案例 6：未使用连接池导致连接泄漏

4. VACUUM 与存储反模式（案例 7‑9）

案例 7：autovacuum 关闭或跟不上导致表膨胀

案例 8：VACUUM FULL 锁表导致业务中断

案例 9：事务 ID 回卷风险

5. 事务与锁反模式（案例 10‑12）

案例 10：长事务阻止 VACUUM 回收死元组

案例 11：SERIALIZABLE 隔离级别误用导致大量序列化冲突

案例 12：死锁排查：交叉更新相同行

6. SQL 与查询反模式（案例 13‑15）

案例 13：SELECT * 全字段查询导致 Index Only Scan 失效

案例 14：Join 顺序不当导致 Nested Loop 效率低

案例 15：子查询未优化导致重复执行

7. 扩展与 FDW 反模式（案例 16‑18）

案例 16：postgres_fdw 未开启 use_remote_estimate 导致优化器错误选择 Join 顺序

案例 17：FDW 外表缺少索引导致远端全表扫描

案例 18：pg_stat_statements 统计碎片化

8. 架构与配置反模式（案例 19‑21）

案例 19：缺少 auto_explain / log_duration，故障时无 SQL 级日志

案例 20：流复制延迟过大，主备切换丢数据

案例 21：shared_buffers 设置过大挤压 OS 缓存

9. 诊断工具集、映射表与标准化排查流程

9.1 核心诊断工具箱

9.2 工具 → 反模式映射表

9.3 标准化排查决策树

10. 面试高频专题

题 1：一个每天几百次调用的查询，今天突然从 5ms 变成 2s，如何排查？

题 2：autovacuum 为什么没有清理死元组？可能的原因有哪些？

题 3：通过 pg_locks 如何定位一个死锁的根源？

题 4：pg_stat_statements 中为什么会出现大量相似的查询？如何解决？

题 5：流复制延迟过大排查步骤是什么？

题 6：系统设计题一：设计一套 PG 慢查询自动诊断系统

题 7：系统设计题二：设计一个多租户 SaaS 平台的 PG 数据库架构，支持数据隔离、性能监控和故障预警

题 8：如何发现并删除未使用的索引？

题 9：VACUUM FULL 和普通 VACUUM 的根本区别？什么时候用哪个？

题 10：事务 ID 回卷告警出现，如何紧急处理？

题 11：解释 work_mem 过大为什么会导致 OOM，而不只是性能下降。

题 12：effective_cache_size 参数如何影响查询计划？

题 13：为什么推荐使用 READ COMMITTED 而非 SERIALIZABLE？

题 14：你遇到过 SELECT * 带来的性能问题吗？如何说服开发人员改正？

题 15：FDW 外表的 fetch_size 参数影响什么？

题 16：如何用 pgstattuple 和 pg_stat_user_tables 量化表膨胀？

题 17：死锁检测原理与参数调优。

题 18：autovacuum 的 scale_factor 和 threshold 如何协同决定触发时机？

题 19：流复制的 write_lag, flush_lag, replay_lag 区别？

题 20：log_duration 和 auto_explain 有什么区别？如何结合使用？

题 21：生产中关闭 autovacuum 的风险与应对措施。

题 22：设计一个 PG 报警规则，列举 10 个关键指标与阈值。

反模式速查表

Demo 脚本示例

结语

延伸阅读

案例 2：`LIKE '%keyword%'` 无法使用 B-Tree 索引

案例 4：`max_connections` 设置过高导致 OOM 或上下文切换风暴

案例 5：`work_mem` 设置过大导致高并发 OOM

案例 7：`autovacuum` 关闭或跟不上导致表膨胀

案例 8：`VACUUM FULL` 锁表导致业务中断

案例 11：`SERIALIZABLE` 隔离级别误用导致大量序列化冲突

案例 13：`SELECT *` 全字段查询导致 Index Only Scan 失效

案例 16：`postgres_fdw` 未开启 `use_remote_estimate` 导致优化器错误选择 Join 顺序

案例 18：`pg_stat_statements` 统计碎片化

案例 19：缺少 `auto_explain` / `log_duration`，故障时无 SQL 级日志

案例 21：`shared_buffers` 设置过大挤压 OS 缓存

题 2：`autovacuum` 为什么没有清理死元组？可能的原因有哪些？

题 3：通过 `pg_locks` 如何定位一个死锁的根源？

题 4：`pg_stat_statements` 中为什么会出现大量相似的查询？如何解决？

题 9：`VACUUM FULL` 和普通 `VACUUM` 的根本区别？什么时候用哪个？

题 11：解释 `work_mem` 过大为什么会导致 OOM，而不只是性能下降。

题 12：`effective_cache_size` 参数如何影响查询计划？

题 13：为什么推荐使用 `READ COMMITTED` 而非 `SERIALIZABLE`？

题 14：你遇到过 `SELECT *` 带来的性能问题吗？如何说服开发人员改正？

题 15：FDW 外表的 `fetch_size` 参数影响什么？

题 16：如何用 `pgstattuple` 和 `pg_stat_user_tables` 量化表膨胀？

题 18：`autovacuum` 的 `scale_factor` 和 `threshold` 如何协同决定触发时机？

题 19：流复制的 `write_lag`, `flush_lag`, `replay_lag` 区别？

题 20：`log_duration` 和 `auto_explain` 有什么区别？如何结合使用？

题 21：生产中关闭 `autovacuum` 的风险与应对措施。