基于Twitter的雪花算法改造,分布式全局唯一ID生成器

2,229 阅读2分钟

分布式系统中我们一般会对一些数据量大的业务进行拆分,如:订单表,用户表。因为数据量巨大一张表无法承载。就会对其进行分库分表。 但一旦涉及到分库分表,就会引申出分布式系统中唯一主键ID的生成问题,永不迁移数据和避免热点的文章中要求需要唯一ID的特性。

分布式id生成算法的有很多种,Twitter的SnowFlake就是其中经典的一种。

本文介绍的是基于Twitter的SnowFlake的一种优化版本,默认支持的运行环境: php-fpm、shell-cli、php -S 127.0.0.1:80 模式下生成全局唯一ID

Twitter版SnowFlake

SnowFlake算法(简称雪花算法)生成64位的二进制正整数,然后转换成10进制的数。64位二进制数由如下部分组成:

SnowFlake组成

优化后SnowFlake版本

基于Twitter的雪花算法改造,分布式全局唯一ID生成器, 组成<毫秒级时间戳+机器ip+进程id+序列号>

长度最长为64位bit,各bit位含义如下:

  • 1位 不用。二进制中最高位为1的都是负数,但是我们生成的id一般都使用整数,所以这个最高位固定是0
  • 41位 用来记录时间戳(毫秒)
    • 41位可以表示2^{41}-1个数字,
    • 如果只用来表示正整数(计算机中正数包含0),可以表示的数值范围是:0 至 2^{41}-1,减1是因为可表示的数值范围是从0开始算的,而不是1。
    • 也就是说41位可以表示2^{41}-1个毫秒的值,转化成单位年则是(2^{41}-1) / (1000 * 60 * 60 * 24 * 365) = 69
  • 10位 机器IP低10位,可以支持最多1023个机器节点
  • 10位 当前处理进程标识,10位的长度最多支持1023个机器进程
  • 2位 计数序列号,序列号即序列自增id,可以支持同一节点的同一进程同一毫秒生成4个ID序号

优点

1、此方案每秒能够产生409.6万个ID,性能快
2、时间戳在高位,自增序列在低位,整个ID是趋势递增的,按照时间有序递增
3、灵活度高,可以根据业务需求,调整bit位的划分,满足不同的需求

缺点

1、依赖机器的时钟,如果服务器时钟回拨,会导致重复ID生成

实用

通过composer包引用,引用到项目中

composer require webergiles/favorites

use WeberGiles\Favorites\Snowflake;

//生成一个全局唯一ID
echo Snowflake::uniqueId();