大多数后端工程师搭数据系统，卡在了一个不该卡的地方大多数工程师在系统变慢后，第一反应是"换数据库"或"加缓存"。这其实

大多数工程师在系统变慢后，第一反应是"换数据库"或"加缓存"。

这其实是反的。

The Pragmatic Engineer 本周邀请了《Designing Data-Intensive Applications》（DDIA）作者 Martin Kleppmann 来聊这本书的背景，我顺着这个话题整理了一些自己用起来最有价值的思维框架。

DDIA 是公认最值得读的工程书之一，但我发现一个现象：买了这本书的人很多，真正把核心思想用进日常决策的很少。原因大概是：大多数人把它当"技术百科"读，而不是当"决策框架"读。

Q1：DDIA 说的"数据密集型"，和日常开发有什么关系？

DDIA 的核心主张：现代应用的瓶颈不在计算（CPU），在数据——数据量、数据复杂性、数据流动速度。

听起来像大厂问题，其实从某个规模开始每个团队都会遇到：

这些不是"分布式系统大厂题"，是每个长期维护的项目都会遇到的真实问题。

需要，而且越早越好。

Kleppmann 有个观点值得记住：很多团队在系统已经出问题之后才开始认真读 DDIA，这时候补课的代价远高于预防。

一个常见案例：团队早期选了单机 MySQL，业务增长后开始加读写分离，但数据模型当初设计时没有考虑主从复制延迟——结果是用户刚写入的数据，在另一个请求里读不到。

这个 bug 很经典，修起来成本高，而且完全可以在设计阶段规避。

很多工程师的决策顺序是反的：先说"我们用 PostgreSQL"，然后再考虑数据关系。正确顺序是先想清楚数据之间是什么关系（文档型、图型、关系型？），再选合适的存储。

实用做法： 在 ADR（Architecture Decision Record）里，把"为什么选这个数据模型"写清楚，比写"为什么选这个数据库"更有价值。

如果你的数据处理管道挂了，能从某个检查点重跑吗？还是要从头来？

这个看起来是运维问题，其实是架构问题。Kafka 流行的核心原因之一，就是消费者可以从任意 offset 重播，不破坏生产者。

实用做法： 在设计任何数据处理任务时，先问一句"如果这步挂了，怎么重跑？"——这个问题会逼你做出更健壮的设计。

"最终一致性"和"强一致性"是两端，中间有很多档位。大多数业务场景不需要 Spanner 级别的强一致性，但也承受不了"任意延迟"的最终一致性。

实用做法： 在讨论一致性需求时具体化——"在写入后多少毫秒内，用户需要看到最新数据？"比"我们需要强一致性"清晰得多，也更容易做工程决策。

几个实际有用的：

这些工具的共同特点：减少"我猜系统在干什么"的时间，增加"我知道系统在干什么"的时间。

按阅读顺序推荐：

《Database Internals》（Alex Petrov）——DDIA 的补充，深入存储引擎和分布式协议实现
《System Design Interview》 系列——把 DDIA 的理论用到具体设计场景里
Martin Kleppmann 的新研究：他目前在研究 local-first software 和 CRDTs，是下一代协作软件的数据一致性方向，值得关注

你现在维护的系统里，数据一致性或扩展性遇到过什么坑？