  一致性问题是分布式系统中的最基本的问题之一,分布式系统中的很多问题最终都可以归结为一致性问题(例如 leader 节点选举)。一致性算法的目的就是为了使得分布式系统中的多个节点最终能达成一致,其在保证分布式系统的一致性以及容错性方面起着非常关键的作用。

⒈Paxos 算法的机制介绍

  Paxos 算法涉及到多种角色以及多阶段的提交,其关键在于由提议者(Proposer)提出的提案能够被大多数的接受者(Acceptor)所接受,并最终在整个系统中的所有节点之间达成一致。


⓵ 角色介绍

  在 Paxos 中通常存在三种角色,这三种角色都是逻辑角色,在实际应用中,同一个节点可以同时扮演这三种角色。

  • 提议者(Proposer)
  • 接受者(Acceptor)
  • 学习者(Learner)

⓶ 两阶段提交

  Paxos 算法通常包括两个阶段:Prepare 阶段和 Accept 阶段:

  在 Prepare 阶段,提议者向接受者提出提案,发送 prepare 消息。接受者在收到 prepare 消息后,如果接受该提案,则向提议者发送 promise 消息。

  如果大多数接受者都表示接受提案,则进入 Accept 阶段。此时,提议者向接受者发送 accept 消息并携带提案值。接受者在收到 accept 消息后,如果接受该提案值,则向提议者发送 accepted 消息。

在实际应用中,有时候会把 learner 获取最终结果的过程视为第三阶段




⓷ 运作过程

  在收到客户端的请求后,提议者首先会向接受者发送 prepare(n) 消息,其中 n 为唯一的提案号。

  接受者在收到 prepare(n) 消息后会进行以下处理:

  • 如果接受者在此之前已经接受了另一个提议者提出的提案号为 m 的提案,并且 m > n,则接受者此时会向提议者返回 nack 消息,表示不接受该提案。
  • 如果接受者在此之前已经接受了另一个提议者提出的提案号为 m 且值为 u 的提案,并且 m < n,则接受者会向提议者返回 promise(m, u) 消息,表示接受提案号为 n 的提案,同时将最近一次接受的提案的提案号以及值返回给接受者。
  • 如果接受者在此之前没有处理过任何提案,则直接返回 promise(n) 消息,表示接受提案。

  如果大多数接受者都返回了 promise 消息,则提议者将继续向接受者发送 accept(n, v) 消息,其中 v 为本次提案的值。如果返回 promise 消息的节点数没有达到大多数(quorum),则提议者会更新本次提案的提案号,然后等待一段时间后重新发起提案。

  接受者在收到 accept(n, v) 消息后,首先会检查提案号 n。如果 n 不小于接受者最近一次接受的提案的提案号,则接受者会返回 accepted(n, v) 消息,表示接受该提案的值。

  如果大多数的接受者都返回了 accepted 消息,则表示提案在系统中各节点之间达成一致。此后,提议者会将最终结果通知学习者。根据实际情况,学习者可能会进行数据库或配置的更新等其他操作。


⒉ 代码实现


// message.go
package main

type Message struct {
   From        string
   To          string
   Type        int
   Id          int64
   Value       string

const (
   Ping    = iota

  通过监听不同端口模拟多个节点,节点同时是提议者、接受者以及学习者。由于 Paxos 要求提案必须有大多数节点同意才能在系统中最终达成一致,所以需要周期性的对系统中各个节点进行心跳检测,以便及时了解各个节点的活跃状态,避免发起无意义的提案(当超过半数节点都失效时,无论如何提案都不会达成一致)。

// node.go

import (

const (
   Live = true
   Dead = false

// 各节点以及监听地址的映射信息
var nodeMap = map[string]string{
   "node1":    "",
   "node2":    "",
   "node3":    "",
   "node4":    "",
   "node5":    "",

// 各节点当前的状态
var nodeStatus = map[string]bool{
   "node1":    Dead,
   "node2":    Dead,
   "node3":    Dead,
   "node4":    Dead,
   "node5":    Dead,

// 节点信息
type Node struct {
   Id          string
   Addr        string

// 创建新的节点
func NewNode(id string) *Node {
   node := &Node{
      Id:        id,
      Addr:      nodeMap[id],

   return node

// 监听当前节点
func (node *Node) NewListener() (net.Listener, error) {
   listener, err := net.Listen("tcp", node.Addr)

   return listener, err

// 与节点进行通信
func (node *Node) CommunicateWithSibling(nodeAddr string, message Message) (Message, error) {
   var response Message
   var err error

   rpcClient := rpcClientPool.Get().(*rpc.Client)
   defer rpcClientPool.Put(rpcClient)

   rpcClient, err = rpc.Dial("tcp", nodeAddr)

   if err != nil {
      log.Printf("与节点 %s:%s 建立连接失败:%s\n", message.To, nodeAddr, err)
      return response, err

   err = rpcClient.Call("Node.RespondTheMessage", message, &response)

   if err != nil {
      log.Printf("与节点通信失败:%s\n", err)

   return response, err

// 响应消息
// 这个方法在这里扮演了接受者(acceptor)以及学习者(learner)的角色,同时还响应心跳检测
func (node *Node) RespondTheMessage(message Message, response *Message) error {
   response.From = node.Id
   response.To = message.From

   switch message.Type {
   case Ping:
      response.Type = Pong
   case Prepare:
      if preProposalId == 0 {
         response.Type = Promise
         preProposalId = message.Id
      } else if preProposalId < message.Id {
         response.Type = Promise
         response.Id = preProposalId
         response.Value = preProposalValue
         preProposalId = message.Id
      } else {
         response.Type = Nack
   case Accept:
      if preProposalId <= message.Id {
         response.Type = Accepted
         response.Id = message.Id
         response.Value = message.Value
         preProposalId = message.Id
         preProposalValue = message.Value
      } else {
         response.Type = Nack
   case Accepted:
   // todo learner implement

   return nil

// 节点心跳检测
func (node *Node) HeartBeat() {
   message := Message{
      From: node.Id,
      Type: Ping,
   for nodeId, nodeAddr := range nodeMap {
      if nodeId == node.Id {
         nodeStatus[node.Id] = Live
         // 不检测自身

      message.To = nodeId
      response, err := node.CommunicateWithSibling(nodeAddr, message)

      if err != nil {
         log.Printf("检测节点 %s 的心跳失败:%s\n", message.To, err)
         nodeStatus[message.To] = Dead

      log.Printf("节点 %s 心跳检测响应:%v\n", message.To, response)
      if response.Type == Pong {
         nodeStatus[message.To] = Live

   time.Sleep(5 * time.Second)
   goto ping

// 确定系统中节点的法定人数(quorum)
func (node *Node) majority() int {
   return len(nodeMap) / 2 + 1

// 判断系统中大多数节点是否仍处于活跃状态
func (node *Node) isMajorityNodeLived() bool {
   majority := node.majority()

   for _, status := range nodeStatus {
      if status {
         majority --

   return majority <= 0

/*********** proposer ***********/
// 发起提案
func (node *Node) Propose(val string, reply *Message) error {
   var response Message
   var err error
   proposal := Message{
      From:  node.Id,
      To:    "",
      Type:  Prepare,
      Id:    time.Now().UnixNano(),
      Value: val,

   // 发送 prepare 消息
   if !node.isMajorityNodeLived() {
      return nil

   majority := node.majority()
   for nodeId, nodeAddr := range nodeMap {
      if !nodeStatus[nodeId] || nodeId == node.Id {
         // 跳过失效的节点

      proposal.To = nodeId
      response, err = node.CommunicateWithSibling(nodeAddr, proposal)

      if err != nil {
         log.Printf("向节点 %s 发送 prepare 消息失败\n", proposal.To)

      log.Printf("response %d from %s \n", response.Type, response.From)

      if response.Type == Promise {
         majority --

      if majority <= 0 {
         // 大多数节点返回 promise
         proposal.Type = Promise

   // 大多数节点没有返回 promise,500ms 之后重试,重试时需要更新提案号
   if proposal.Type != Promise {
      time.Sleep(500 * time.Millisecond)
      proposal.Id = time.Now().UnixNano()
      goto retry

   // 发送 accept 消息
   reply.Type = Promise
   proposal.Type = Accept
   if !node.isMajorityNodeLived() {
      return nil

   majority = node.majority()
   for nodeId, nodeAddr := range nodeMap {
      if !nodeStatus[nodeId] || nodeId == node.Id {

      proposal.To = nodeId
      response, err = node.CommunicateWithSibling(nodeAddr, proposal)

      if err != nil {
         log.Printf("向节点 %s 发送 accept 消息失败\n", nodeId)

      log.Printf("response %d from %s\n", response.Type, response.From)

      if response.Type == Accepted {
         majority --

      if majority <= 0 {
         // 大多数节点接受提案值
         proposal.Type = Accepted

   if proposal.Type == Accepted {
      // todo 结果通知 learner

   reply.Type = proposal.Type

   return nil

  程序启动之初需要指定节点 ID,然后监听当前节点的端口,之后进行周期性的心跳检测。

// main.go
package main

import (

func main() {
   if len(os.Args) != 2 {

   nodeId := os.Args[1]
   if nodeMap[nodeId] == "" {
      log.Fatal("节点 ID 异常!")
   node := NewNode(nodeId)

   listener, err := node.NewListener()
   if err != nil {
      log.Fatal("监听当前节点失败:", err.Error())
   defer listener.Close()

   rpcServer := rpc.NewServer()

   go rpcServer.Accept(listener)


   time.Sleep(10 * time.Second)

   // 系统启动后首先进行心跳检测,确认系统中各个节点的活跃状态
   go node.HeartBeat()

   ch := make(chan os.Signal, 1)
   signal.Notify(ch, os.Interrupt)
   <- ch



package main

import (

type Message struct {
	From        string
	To          string
	Type        int
	Id          int64
	Value       string

func main() {
	rpcClient, err := rpc.Dial("tcp", "")

	if err != nil {
		log.Printf("建立连接失败:%v\n", err)

	var response Message

	err = rpcClient.Call("Node.Propose", "Hello World", &response)

	if err != nil {
	} else {
		log.Printf("response = %+v\n", response)