ShardingSphere分库分表查询时如何避免全路由？详解【附属表法】与【基因法】ShardingSphere分库

全路由

在分库分表中，如果 SQL 没有携带 分片键，ShardingSphere 无法知道数据落在哪个库 / 表，就会执行 全路由 ，即对所有分片执行查询，再合并结果。

假设用户表 user 按 user_id 分片，有 2 个库（db0 ~ db1），每个库 4 张表（t0 ~ t3）。

如果我们想要根据手机号（mobile）或者邮箱（email）字段进行查询，由于当前分库分表设user_id为分片键，mobile与email没有设置分片键，因此当查询这两个时会发生全路由：

db0.t0 db0.t1 db0.t2 db0.t3

db1.t0 db1.t1 db1.t2 db1.t3

可以看到，系统会对每一个库的每一张表进行查询，然后再聚合结果，这会导致：

在分库分表的情况下，数据并发量本身已经很大，我们应该尽量减轻数据库的压力，提高数据库的性能是我们进行业务开发的重中之重。因此在这里我提出两个方法来解决分库分表时的全路由问题。

以 user 表为例，可以在原user表基础上新建user_mobile和user_email表作为附属表，分别以手机号和邮箱号字段为主键，其中对应着userID。附属表根据主表也新建对应的分表，分别以手机号和邮箱号为分片键。

这样，假设根据手机号查询的时候，会查询以手机号为主键的附属表，又因为附属表以手机号为分片键，因此可以避免全路由。拿到userID后再回到主表进行查询。

优点

缺点

假设分片规则是 user_id % 分表数量n：

因此利用基因法，查询手机号时：

从手机号中解析出分片值（基因）
构造路由，只查询对应分片
由于手机号和userID对Log2 n取模的结果是一样的，因此可以认为手机号带了userID的基因，当对手机号取模求值的时候，得出的值就可以认为是对应的userID。
所以手机号查询可以转为UserID查询，避免了全路由的情况

优点

缺点

编辑

假设存在一种情况，在超高的并发下，在同一毫秒，同一台机器，生成两个id，那么这两个id唯一的区别 就是序列号相差1，如果这时我们使用了基因法，分成32张表，也就是取把雪花算法二进制的后5位进行基因替换，两个id就会发生重复。

解决方法：

根据分片表的数据计算出log2n的对数，将序列号左移相应的对数，然后剩下的位数替换为userId % 分片表数量的基因。

缺点：

替换后的雪花算法，在一毫秒内，最多能支持2^(12 - log2 n)的数量的id不会重复。

因此，分片数量越多，基因法改良的雪花算法一毫秒所能生成的不重复的订单越少。