春与秋其代序

赞

396

|

搜索文章

分布式幂等体系（Idempotency System）—— 如何从单接口防重复进化到全链路幂等保障？

为什么“幂等”是分布式系统最关键的工程概念之一？并发写入重试机制 MQ 至少一次投递网络超时 + 客户端重发不做幂等 = 订单重复扣钱、优惠券发多张、库存扣穿幂等的四类场景

5月前
101
点赞
评论

零宕机发布体系（Zero-Downtime Deployment）—— 如何让系统在不停机条件下完成版本切换？

为什么“零宕机上线”是企业级系统的硬指标？多租户 SaaS 不能宕机金融交易系统不能断政务平台不可中断零宕机发布是高可用体系的最后一块拼图

5月前
66
点赞
评论

系统碎片化治理（Fragmentation Governance）—— 大型系统如何避免越做越乱？

为什么系统越做越大就越混乱？多团队并行功能快速堆叠老代码无人敢改结果就是：组件碎片化、逻辑碎片化、数据碎片化、技术碎片化这就是“系统碎片化”。

5月前
44
点赞
评论

全链路容量评估体系（Capacity Planning）—— 如何让系统从“能跑”到“可预测可扩容”？

为什么“容量评估”是决定系统能否活下去的核心能力？系统崩溃不是因为坏是因为超出容量却无人知晓容量规划是大厂 SRE/架构的核心任务之一容量评估的三大核心指标

5月前
88
点赞
评论

数据一致性校验平台（Consistency Check Platform）—— 如何构建大型系统的数据自愈能力？

为什么中大型系统一定会出现“数据不一致”？分布式系统没有绝对一致事件丢失、任务失败、双写失序、缓存滞后、补偿延迟数据不一致不是“有没有”，而是“何时出现 & 如何发现”

5月前
84
点赞
评论

可回放调试体系（Replay Debugging）—— 大型分布式系统的终极排障能力

为什么日志 + 可观测性也不足以解决所有线上问题？分布式系统不是单点可重现用户行为、状态、调用链变化巨大很多线上问题：本地复现不了、测试环境复现不了、灰度环境复现不了

5月前
62
点赞
评论

分层事件总线架构（Layered Event Bus）—— 解耦大型系统的终极方法

为什么事件总线是“大型系统的生命线”？复杂系统不是靠 RPC 扩展的一切大型系统最终都要走向事件驱动（EDA）单层事件系统会导致混乱，分层事件总线才是真解法

5月前
74
点赞
评论

全链路灰度回滚体系 —— 如何让大型系统实现真正的“可控上线 & 秒级回滚”？

为什么所有大型系统都需要“灰度 + 回滚”？灰度不是为了慢，而是为了最小化风险。回滚不是“git revert”，是系统级逆转能力。真正成熟的后端，一定能做到 “上线不慌，回滚不难” 。

5月前
64
点赞
评论

分布式锁体系设计 —— 如何在复杂业务中保证一致性与高性能？

为什么分布式锁一直被“低估”？很多系统不是因为 DB 慢，而是因为并发写入导致一致性问题分布式锁是防止混乱写入的基础能力但做不好会变成性能黑洞分布式锁的正确使用场景

5月前
41
点赞
评论

SaaS 多租户数据迁移体系 —— 如何在不停机条件下完成租户迁移、分库分表与归档？

多租户系统为什么最怕“迁移”？租户迁移 = 真实世界的“搬家” 停机不可能、数据量巨大、业务正在运行数据迁移是 SaaS 系统最难的问题之一租户数据迁移常见场景

5月前
83
点赞
评论

个人成就

优秀创作者

文章被点赞 9

文章被阅读 105,219

掘力值 5,619

加入于

2022-11-11