关系型数据库本身就容易成为系统瓶颈,单机存储容量、连接数、处理能力都有限。当单表的数据量达到2000w或100G以后,由于查询维度较多,即使添加从库优化索引,做很多操作时性能仍下降严重。此时就要考虑对其进行切分了,切分的目的就在于减少数据库的负担,缩短查询时间。分库分表就是为了解决由于数据量过大而导致数据库性能降低的问题,将原来独立的数据库拆分成若干数据库组成 ,将数据大表拆分成若干数据表组成,使得单一数据库、单一数据表的数据量变小,从而达到提升数据库性能的目的。
分库分表包括分库和分表两个部分,在生产中通常包括:垂直分库、水平分库、垂直分表、水平分表四种方式。
1、垂直分表
其定义:将一个表按字段分成多表,每个表存储其中一部分字段。
比如商品信息中商品描述字段访问频率比较低,且该字段存储占用空间较大,访问单个商品IO时间较长;商品信息表中商品名称、商品图片、商品价格等其它字段数据访问频率较高,所以,商品描述放在一张表中,商品名称,商品图片,商品价格等字段放在一张表中
带来的提升是:
- 为了避免IO争抢并减少锁表的几率,查看详情的用户与商品信息浏览互不影响。
- 充分发挥热门数据的操作效率,商品信息的操作的高效率不会被商品描述的低效率拖累。
2、垂直分库
因为数据还是始终限制在一台服务器,库内垂直分表直接就了单一表数据量过大的问题,但没有将表分布到不同的服务器上,因此每个表还是竞争同一个物理机的CPU、内存、网络IO和磁盘。
所以,经过思考,把原有的卖家表,分为了商品库和店铺库,并把这两个库分散到不同的服务器
垂直分库是指按照业务将表进行分类,分布到不同的数据库上面,每个库可以放在不同的服务器上,它的核心理念是专库专用。
好处:
1、业务解耦
2、高并发场景下,垂直分库一定程度上提升IO、数据库连接和降低单机硬件资源的瓶颈(减少数据库压力)
3、水平分库
经过垂直分库后,数据库性能得到了一定程度上的解决,但是随着业务的增长,商品库单库存储数据已经超出预估 从业务角度来分析,目前情况已经无法再垂直分库了。 尝试水平分库,将店铺ID为单数的和店铺ID为偶数的商品信息分布存在两个表中。
水平分库就是把同一个表的数据按一定规则拆到不同的数据库中,每个库可以放在不同的服务器上。
4、水平分表
水平分表就是在同一个数据库内,把同一个表的数据按一定规则拆到多个表中(对数据的拆分,不影响表结构)。
总结
分库分表的方式有四种,它们分别是:垂直分表、垂直分库、水平分库和水平分表。
垂直分表:可以把一个宽表的字段按照访问频率、是否是大字段的原则拆分为多个表,这样既能使业务清晰,还能提高部分性能。拆分后,尽量从业务角度避免联查,否则性能方面将得不偿失。
垂直分库:可以把多个表按照业务的耦合性来进行分类,分别存放在不同的数据库中,这些库可以分布在不同的服务器,从而使访问压力被分摊在多个服务器,大大提高性能,同时能提高整体架构的业务清晰度,不同的业务库可根据自身情况定制优化方案。但是它需要解决跨库带来的所有复杂问题。
水平分库:可以把一个表的数据(按数据行)分到多个不同的库,每个库只有这个表的部分数据,这些库可以分布在不同的服务器,从而使访问压力被多服务器负载,提升性能。它不仅需要解决跨库带来的问题,还需要解决数据路由的问题。
水平分表:可以把一个表的数据(按数据行)分到多个同一个数据库的多张表中,每个表的数据只有这个表的部分数据,这样做能小幅提升性能,它仅仅作为水平分库的一个补充优化。
最后,一般来说,在系统设计阶段就应该根据业务耦合程度来确定用哪种分库分表的方式(方案),在数据量及访问压力不是特别大的情况,首先考虑缓存、读写分离、索引技术等方案。若数据量极大,且连续增长,再考虑水平分库水平分表的方案。
再提炼下
垂直分表,是把一张宽表拆成多个表,原则是按照访问频率,字段大小
垂直分库,是按照业务耦合度对多个表进行分类
水平分库,是按照行将一张表拆分给不同的库
水平分表,是按照行,将一张表的数据分到同一库的多张表中