什么是分布式系统的可靠性，可扩展性和可维护性可靠性（Reliability）什么是可靠性可靠性：即使出现问题也能继续

可靠性（Reliability）

可靠性：即使出现问题也能继续正常工作。

具体来说：

首先，故障不等于失效

硬件故障：一旦你拥有很多机器，这些事情总会发生

软件错误：内部的系统性错误，难以预料

人为错误：运维配置错误是导致服务中断的首要原因

可扩展性（Scalability）：

描述负载：

描述性能：

系统的负载被描述好后，就可以讨论负载增加时会发生什么，观察的角度包括：

对于响应时间来说，最好使用百分位点（percentiles）而非平均值。可以用中位数和尾部延迟来判断响应速度

尾部延迟：
- tail latencies，即高百分点位的响应时间，例如最慢的95%、99.9%的用户的响应时间。
- 实践中，尾部延迟直接影响着用户体验，因为请求响应更慢的客户数据更多所以往往更有价值。
- 排队延迟（queueing delay）占了尾部延迟中的很大一部分，总体响应时间包括等待先前请求完成的时间。

当负载增加时，如何保持良好的性能？答案是扩展。

扩展：

纵向扩展（scaling up），也称垂直扩展（vertical scaling）
- 使用性能更强大的机器
- 运行在单台机器上的系统更加简单
横向扩展（scaling out），也称水平扩展（horizontal scaling）
- 增加机器的数量，将负载分摊到更多的机器上
- 由于资金问题，密集的负载无法避免地需要横向扩展
- 跨多台机器分配负载也称为“无共享（shared-nothing） ”架构

优秀架构需要将这两种方法务实地结合，因为使用几台强大的机器可能比使用大量的小型虚拟机更简单也更便宜。

普通的系统需要手动扩展系统资源，但当负载极难预测时，可以使用弹性（elastic）系统，当检测到负载增加时会自动增加计算资源。

可扩展架构基于假设，但是如果假设错了，那么前期为扩展所做的投入就浪费了。因此，早期创业公司更需要产品“快速迭代”能力。

运维阶段占了软件的大部分开销，包括修复漏洞、保持系统正常运行、调查失效、适配新的平台、为新的场景进行修改、偿还技术债、添加新的功能等。

可维护性强的系统能减少维护的痛苦，在运维阶段更少的修复遗留问题和避免变为遗留系统。

随着项目越来越大，代码往往变得非常复杂且难以理解，慢慢的变成屎山。复杂度（complexity）有各种可能的症状，例如：状态空间激增、模块间紧密耦合、纠结的依赖关系、不一致的命名和术语、解决性能问题的Hack、需要绕开的特例等等。

因为复杂度导致维护困难时，预算和时间安排通常会超支，在复杂的软件中进行变更，引入错误的风险也更大。当开发人员难以理解系统时，隐藏的假设、无意的后果和意外的交互就更容易被忽略。

降低复杂度能极大提高软件可维护性。同时，简化系统不一定是减少功能，也可以是消除额外复杂度。额外复杂度是由具体实现中涌现而非问题本身固有的复杂度。

消除额外复杂度最好的工具是抽象。一个好的抽象隐藏实现细节且外观简单易懂，并且能广泛用于各类的不同应用。

系统的需求通常处于常态的变化中，而简单易懂的系统通常比复杂的系统更容易修改，这与简单性和抽象性密切相关。

在组织流程方面，敏捷工作模式为适应变化提供了一个框架，敏捷社区开发了对频繁变化的环境中开发软件很有帮助的技术工具和模式，例如测试驱动开发（TDD）和重构（refactoring）。这些技术可以用于小规模的代码（同一个应用中几个代码文件）中。