这么牛的毕业生，来当CTO吧！时光如风飘渺，眨眼间已经在行业浸润多年了，见过无数厉害的人物，也见过更多更多的挫B。前几

原创：小姐姐味道（微信公众号ID：xjjdog），欢迎分享，非公众号转载保留此声明。

时光如风飘渺，眨眼间已经在行业浸润多年了，见过无数厉害的人物，也见过更多更多的挫B。

前几天刚上班，就接到面试一个毕业生的任务，让我感叹人与人之间的差距。

他的水平，绝对的完爆工作多年的架构师。在下佩服之～

我们的话题，是关于怎么构建一个可伸缩的高可用、高可靠大型网站。嗯，就让我们开始吧。

1.要发问了

大家都知道，如今的互联网，数据量爆炸，服务请求飙升，即使是非常小的公司，也可能因为某个产品产生不同于往日的数十倍流量，当然这有时候是个梦想而已。

流量增加就意味着对后端服务能力的增加，如何构建每秒处理GB数据、QPS超过数十万的大型系统，就变成了一个挑战。尤其是某些天才的秒杀创意，让这个流量变的越发变态不可预料。

在有效的资源下，如何让系统保持良好的反馈？以支撑老板们的梦想呢？你有什么处理方式？或者你有什么体系化的心得体会要和我分享一下的？

毕业生微微一笑：“我在这方面正好有点总结，我可以多花点时间聊聊这个”。

好吧，洗耳恭听。

2.服务建设的重要指标

“我首先要说明的是，服务的建设要关注几个指标。有了目标就有了方向，大体上我总结了四个”。

可用性。 我们要保证服务的可用性，也就是SLA指标。只有服务能够正常响应，错误率保持在较低的水平，我们的服务才算正常。
服务性能。 可用性和性能是相辅相成的，服务性能高了，有限的资源就能够支撑更多的请求，可用性就会提高。所以服务性能优化是一个持续性的工作，在巨量流量下每1ms的平均性能提升，都是值得追求的。
可靠性。 分布式服务的组件非常多，每个组件都可能会产生问题，影响面也不尽相同。如何保证每个组件的运行时高可靠性，如何保证数据的一致性，都是有挑战的。
可观测性。 想要获取服务优化的指标数据，就要求我们的服务，在设计开始能够保证服务的可观测性。宏观上能够识别组件类故障，微观上能为性能优化提供依据。在HPA等自动化伸缩场景中，遥测数据甚至是自动化决策的唯一依据。

对于一个服务来说，扩容的手段主要有两种。scale-up：垂直扩展，scale-out：水平扩展。

垂直扩展通过增加单台机器的配置来增加单节点的处理能力。这在某些业务场景下是非常有必要的。但我们的服务更多的是追求水平扩展，用更多的机器来支撑业务的发展。

只要服务满足了横向扩展的能力，满足无状态的特点，剩下的事情就是堆硬件了。听起来很美好，但实际上，对整个体系架构的挑战非常的大。

毕业生的一番分析像极了野鸡CTO的发言，废话连篇。我暗自点头，鼓励他继续深入、细化下去，拿出点不一样的东西。

3.幂等性

如果接口调用失败怎么办？在早期的互联网中，因为网络原因，这样的情况可能更严重。HTTP状态码504，就是典型的代表网关超时的状态。第一次请求可能会超时失败，第二次可能就成功了。现实中需要严格重试的接口还是蛮多的，尤其是异步化的加入，使得重试变得更加重要。

但我们也要考虑由于快速重试所造成的重试风暴，因为超时本身可能就意味着服务器已经不堪重负，我们没有任何理由火上浇油。所以，重试都会有退避算法（exponential backoff），直到真正的结束请求进入异常处理流程。

可以看出，由于超时和重试机制的引入，服务的幂等变的格外重要。它不仅仅是在单台机器上支持重复的调用，在整个分布式集群环境中同样保证可以重入多次。

在数学上，它甚至有一个优美的函数公式。

f(f(f(x))) = f(f(x)) = f(x)

一旦接口拥有了幂等性，就有了能够忍受故障的能力。当我们因为偶发的网络故障、机器故障造成少量的服务调用失败时，可以通过重试和幂等很容易的最终完成调用。

对于查询操作来说，在数据集合不变的情况下，它天然是幂等的，不需要做什么额外的处理。比较有挑战的是添加和更新操作。

有不少的技术手段来保证幂等，比如使用数据库的唯一索引，使用提前生成好的交易ID，或者使用token机制来保证唯一调用。其中，token机制被越来越多的使用，其做法是在请求之前，先请求一个唯一的tokenId，此后的调用幂等就围绕着tokenId进行编程。

4.健康检查

自从k8s把健康检查这个东西标准化之后，健康检查就成为了一个服务的必备选项。在k8s中，分为活跃探针（liveness probe）和 就绪探针（readiness probe）。

活跃探测主要用来查明应用程序是否处于活动状态。它只展示应用本身的状态，而不应依赖于外部其他系统的健康状态；就绪探测指示应用程序是否已准备好接受流量，如果应用程序实例的就绪状态为未就绪，则不会将流量路由到该实例。

如果你使用了SpringBoot的actuator组件，通过health接口，将很容易获取这部分功能。当容器或者注册中心通过health接口判断到服务出现了问题，会自动的把问题节点从节点列表中摘除，然后再通过一系列探测机制在服务恢复正常的时候再把它挂上去。

通过健康检查机制，能够避免流量被调度到错误的机器上去。

5.服务自动发现

早期的软件开发人员，对服务上线的机制摸的门清，不是因为他们想要这样，而是不得不这样做。

比如，我要扩容一台机器，需要首先测试这台机器的存活性，然后部署服务，最后再在负载均衡软件比如nginx中将这台机器配置上。通常情况下，还要看一下日志，到底有没有流量到这台机器上来。

借助于微服务和持续集成，我们再也不需要这么繁杂的上线流程，只需要在页面上点一下构架、发布，服务就能够自动上线，并被其他服务发现。

注册中心在服务发现方面承担了非常重要的角色。它相当于一个信息集中地，所有的服务启动、关闭，都要上报到这里；同样，我想要调用某些服务，也需要到同一个注册中心去查询。

注册中心相当于一个中介，将这些频繁的上下线需求和查询需求，全部统一起来进行管理，现在已经成为微服务的必备设施。

这些查询需求可能是非常频繁的，所以在调用方本地，同样也会存储一份副本，这样在注册中心出现问题的时候，不至于因为大脑缺氧而造成大规模故障。有了副本就有了一致性问题，有注册中心通过Pull的方式更新信息，存在数据一致性的实效性。实效性处理的比较好的是有Push（通知）机制的组件，能够在较快的时间感知服务的变化。

许多组件可以充当服务注册中心，只要它有分布式存储数据的能力和数据一致性的能力。比如Eureka、Nacos、Zookeeper、Consul、Redis，甚至数据库，都能胜任这个角色。

6.限流

web开发中，tomcat默认是200个线程池，当更多的请求到来，没有新的线程能够去处理这个请求，那这个请求将会一直等待在浏览器方。表现的形式是，浏览器一直在转圈（还没超过acceptCount），即使你请求的是一个简单的Hello world。

我们可以把这个过程，也看作是限流。它在本质上，是设置一个资源数量上限，超出这个上限的请求，将被缓冲，或者直接失败。

对于高并发场景下的限流来说，它有特殊的含义：它主要是用来保护底层资源的。如果你想要调用某些服务，你需要首先获取调用它的许可。限流一般由服务提供方来提供，对调用方能够做事的能力进行限制。

比如，某个服务为A、B、C都提供了服务，但根据提前申请的流量预估，限制A服务的请求为1000/秒、B服务2000/秒，C服务1w/秒。在同一时刻，某些客户端可能会出现被拒绝的请求，而某些客户端能够正常运行，限流被看作是服务端的自我保护能力。

常见的限流算法有：计数器、漏桶、令牌桶等。但计数器算法无法实现平滑的限流，在实际应用中使用较少。

7.熔断

自从施耐德发明了断路器，这个熔断的概念席卷了全球。从A股熔断，到服务熔断，大有异曲同工之妙。

熔断的意思是：当电路闭合时，电流可以通过，当断路器打开时，电流停止。

通常情况下，用户的一个请求，需要后端多个服务配合才能完成工作。后端的这些服务，并不是每一个都是必须的，如果因为其中的某个服务有问题，就把用户的整个请求给拒绝掉，那是非常不合理的。

熔断期望某些服务，在发生问题时，返回一些默认值。整个请求依然可以正常进行下去。

比如风控。如果在某个时间风控服务不可用了，用户其实是应该能够正常交易的。这时候我们应该默认风控是通过的，然后把这些异常交易倒到另外一个地方，在风控恢复后再尽快赶在发货的之前处理。

从上面的描述可以看出，有的服务，熔断后简单的返回些默认数据就行，比如推荐服务；但有的服务就需要有对应的异常流程支持，算是一个if else；更要命的是，有些业务不支持熔断，那就只能Fail Fast。

一股脑的处理是没有思考的技术手段，不是我们所推荐的。

Hystrix、resilience4j、Sentinel等组件，是Java系广泛使用的工具。通过SpringBoot的集成，这些框架一般用起来都比较方便，可以达到配置化编程。

8.降级

降级是一个比较模糊的说法。限流、熔断，在一定程度上，也可以看作是降级的一种。但通常所说的降级，切入的层次更加高级一些。

降级一般考虑的是分布式系统的整体性，从源头上切断流量的来源。比如在双11的时候，为了保证交易系统，将会暂停一些不重要的服务，以免产生资源争占。服务降级有人工参与，人为使得某些服务不可用，多属于一种业务降级方式。

在什么地方最适合做降级呢？就是入口。比如Nginx，比如DNS等。

在某些互联网应用中，会存在MVP（Minimum Viable Product）这个概念，意为最小化可行产品，它的SLA要求非常高。围绕着最小可行性产品，会有一系列的服务拆分操作，当然某些情况甚至需要重写。

比如，一个电商系统，在极端情况下，只需要把商品显示出来，把商品卖出去就行。其他一些支撑性的系统，比如评论、推荐等，都可以临时关掉。在物理部署和调用关系上，就要考虑这些情况。

9.预热

请看下面一种情况。

一个高并发环境下的DB，进程死亡后进行重启。由于业务处在高峰期间，上游的负载均衡策略发生了重分配。刚刚启动的DB瞬间接受了1/3的流量，然后load疯狂飙升，直至再无响应。

原因就是：新启动的DB，各种Cache并没有准备完毕，系统状态与正常运行时截然不同。可能平常1/10的量，就能够把它带入死亡。

同理，一个刚刚启动的JVM进程，由于字节码并未被JIT编译器优化，在刚启动的时候，所有接口的响应时间都比较慢。如果调用它的负载均衡组件，并没有考虑这种刚启动的情况，1/n的流量被正常路由到这个节点，就很容易出现问题。

所以，我们希望负载均衡组件，能够依据JVM进程的启动时间，动态的慢慢加量，进行服务预热，直到达到正常流量水平。

10.背压

考虑一下下面两种场景：

没有限流。请求量过高，有多少收多少，极容易造成后端服务崩溃或者内存溢出
传统限流。你强行规定了某个接口最大的承受能力，超出了直接拒绝，但此时后端服务是有能力处理这些请求的

如何动态的修改限流的值？这就需要一套机制。调用方需要知道被调用方的处理能力，也就是被调用方需要拥有反馈的能力。背压，英文Back Pressure，其实是一种智能化的限流，指的是一种策略。

背压思想，被请求方不会直接将请求端的流量直接丢掉，而是不断的反馈自己的处理能力。请求端根据这些反馈，实时的调整自己的发送频率。比较典型的场景，就是TCP/IP中使用滑动窗口来进行流量控制。

反应式编程（Reactive）是观察者模式的集大成者。它们大多使用事件驱动，多是非阻塞的弹性应用，基于数据流进行弹性传递。在这种场景下，背压实现就简单的多。

背压，让系统更稳定，利用率也更高，它本身拥有更高的弹性和智能。比如我们常见的HTTP 429状态码头，表示的意思就是请求过多，让客户端缓一缓，不要那么着急，算是一个智能的告知。

11.隔离

即使在同一个instance中，同类型的资源，有时候也要做到隔离。一个比较浅显的比喻，就是泰坦尼克号，它有多个船舱。每个船舱都相互隔离，避免单个船舱进水造成整个船沉了。

当然，泰坦尼克号带着骚气的jack沉了，那是因为船舱破的太多的缘故。

在有些公司的软件中，报表查询服务、定时任务、普通的服务，都放在同一个tomcat中。它们使用同一套数据库连接池，当某些报表接口的请求一上升，其他正常的服务也无法使用。这就是混用资源所造成的后果。

除了遵循CQRS来把服务拆分，一个快速的机制就是把某类服务的使用资源隔离。比如，给报表分配一个单独的数据库连接池，分配一个单独的限流器，它将无法影响其他服务。

耦合除了出现在无状态服务节点，同时还会出现在存储节点。与其把报表服务的存储和正常业务的存储放在一个数据库，不如把它们拆开，分别提供服务。

一个和尚挑水喝，两个和尚也可以挑水喝。原因就是他们在两个庙。

12.异步

如果你比较过BIO和NIO的区别，就可以看到，我们的服务其实大部分时间都是在等待返回，CPU根本就没有跑满。当然，NIO是底层的机制，避免了线程膨胀和频繁的上下文切换。

服务的异步化和NIO有点类似，采用之后可以避免无谓的等待。尤其是当调用路径冗长的时候，异步不会阻塞，响应也会变的迅速。

单机时候，我们会采用NIO；而在分布式环境中，我们会采用MQ。虽然它们是不同的技术，但道理都是相通的。

异步通常涉及到编程模型的改变。同步方式，请求会一直阻塞，直到有成功，或者失败结果的返回。虽然它的编程模型简单，但应对突发的、时间段倾斜的流量，问题就特别大，请求很容易失败。异步操作可以平滑的横向扩容，也可以把瞬时压力时间上后移。同步请求，就像拳头打在钢板上；异步请求，就像拳头打在海绵上。你可以想象一下这个过程，后者肯定是富有弹性，体验更加友好。

13.缓存

缓存可能是软件中使用最多的优化技术了。比如，在最核心的CPU里，就存在着多级缓存；为了消除内存和存储之间的差异，各种类似Redis的缓存框架更是层出不穷。

缓存的优化效果是非常好的，可以让原本载入非常缓慢的页面，瞬间秒开；也能让本是压力山大的数据库，瞬间清闲下来。

缓存，本质上是为了协调两个速度差异非常大的组件，通过加入一个中间层，将常用的数据存放在相对高速的设备中。

在应用开发中，缓存分为本地缓存和分布式缓存。

那什么叫分布式缓存呢？它其实是一种集中管理的思想。如果我们的服务有多个节点，堆内缓存在每个节点上都会有一份；而分布式缓存，所有的节点，共用一份缓存，既节约了空间，又减少了管理成本。

在分布式缓存领域，使用最多的就是Redis。Redis支持非常丰富的数据类型，包括字符串（string）、列表（list）、集合（set）、有序集合（zset）、哈希表（hash）等常用的数据结构。当然，它也支持一些其他的比如位图（bitmap）一类的数据结构。

所以加下来的问题一定集中在缓存穿透、击穿和雪崩，以及一致性上，这个我就不多聊了。

14.Plan-B

一个成熟的系统都有B方案，除了异地多活和容灾等处置方案，Plan-B还以为着我们要为正常的服务提供异常的通道。

比如，专门运行一个最小可行性系统，运行公司的核心业务。在大面积故障的时候，将请求全面切换到这个最小系统上。

Plan-B通常都是全局性的，它保证了公司最基本的服务能力，我们期望它永远用不上。

15.监控报警

问题之所以成为问题，是因为它留下了证据。没有证据的问题，你虽然看到了影响结果，但是你无法找到元凶。

而且问题通常都具有人性化，当它发现无法发现它的时候，它总会再次出现。就如同罪犯发现了漏洞，还会再次尝试利用它。

所以，要想处理线上问题，你需要留下问题发生的证据，这是重中之重。如果没有这些东西，你的公司，绝对会陷入无尽的扯皮之中。

日志是最常见的做法。通过在程序逻辑中进行打点，配合Logback等日志框架，可以快速定位到发生问题的代码行。我们需要看一下bug的详细发生过程，对可能发生问题的逻辑进行详细的日志记录，进行更加细致的日志输出，在发生问题的时候，就可以切换到debug进行调试。

如果是大范围的bug，那么强烈建议直接在线上进行调试。不太推荐使用Arthas等工具动态的修改字节码进行测试，当然也不推荐IDEA的远程调试。相反，推荐使用类似金丝雀发布的方式，导出非常小的一部分流量，构造一个新的版本进行测试。如果你没有金丝雀发布平台，类似Nginx的负载均衡工具也可以通过权重做到类似的事情。

日志系统与监控系统，对硬件的需求是比较大的，尤其是你的请求体和返回体比较大的情况下，对存储和计算资源的额要求更是高。它的硬件成本，在整个基础设施中，占比也是比较高的。但这些证据信息，对分析问题来说，是非常有必要的。所以即使比较贵，很多公司依然会有很大的投入在这上面，包括硬件投入和人力投入。

MTTD和MTTR是两个非常重要的指标，我们一定要加大关注。

16.结尾

我看了一下表，这家伙很能说，预定的时间很快用完了。我挥挥手打住：”你还会哪些东西？简单的说一下吧！“

”也不是很多。像怎么构建一个DevOps团队支撑我们开发、测试、线上环境，如何进行更深入的性能优化，如何进行实际的故障排查。以及一些细节问题，比如怎么优化操作系统，网络编程和多线程，我这些还都没有聊。“

我说，”够了，你已经非常优秀了“。

”你把自己叫作毕业生，已经碾压绝大多数人了。你到底是哪里的毕业生啊！“

”我是B站的，昨天刚毕业～“，他腼腆的笑了。

我盯着他的眼睛，也笑了。枯木逢春犹再发，人可两度再少年！妙啊。

作者简介：小姐姐味道 (xjjdog)，一个不允许程序员走弯路的公众号。聚焦基础架构和Linux。十年架构，日百亿流量，与你探讨高并发世界，给你不一样的味道。我的个人微信xjjdog0，欢迎添加好友，进一步交流。

推荐阅读：

1. 玩转Linux
2. 什么味道专辑

3. 蓝牙如梦
4. 杀机！
5. 失联的架构师，只留下一段脚本
6. 架构师写的BUG，非比寻常
7. 有些程序员，本质是一群羊！

小姐姐味道

不羡鸳鸯不羡仙，一行代码调半天

332篇原创内容