分布式存储系统基础概念|青训营笔记
这是我参与「第四届青训营 -大数据场」笔记创作活动的的第3篇笔记
一. 总览
分布式存储系统:将数据分散在多台独立的设备上。利用多台存储服务器分担存储负荷。利用位置服务器定位存储信息。
二. 关键技术
1.元数据管理
元数据(描述数据的数据,主要是描述数据属性的信息)
在分布式存储系统中用来指示存储位置。
类似电子式目录
在大数据环境下,元数据的体量很大,其存取性能是分布式文件系统性能的关键。
1.1元数据管理分类
-
集中式
采用单一的元数据服务器,实现简单,但存在单点故障
-
分布式
将元数据分散在多个结点上,解决了元数据服务器的性能瓶颈,但实现复杂,且引入了元数据一致性的问题
2系统弹性扩展技术
在大数据环境下,数据规模和复杂度的增加往往非常迅速,对系统的扩展性能要求较高。实现存储系统的高可扩展性首先要解决两个方面的重要问题,包含元数据的分配和数据的透明迁移。元数据的分配主要通过静态子树划分技术实现,后者则侧重数据迁移算法的优化。此外,大数据存储体系规模庞大.结点失效率高,因此还需要完成一定的自适应管理功能。系统必须能够根据数据量和计算的工作量估算所需要的结点个数,并动态地将数据在结点间迁移。以实现负载均衡;同时.结点失效时,数据必须可以通过副本等机制进行恢复,不能对上层应用产生影响。
3存储层级内的优化技术
基于成本和性能考虑,采用多层不同性价比的存储器件构成存储层次结构。采用信息生命周期管理方法将访问效率低的冷数据迁移到低速廉价存储设备上,在小幅牺牲系统整体性能的基础上,大幅降低构建成本和能耗(以时间换成本)
4 针对应用和负载的存储优化技术
(暂时不需要)
三.考虑因素
1.一致性
为了保证在有服务器出现故障的情况下系统仍然可用,将一个数据分成多份存储在不同的服务器中,故需要保证多个副本的数据完全一致
2.可用性
当服务器数量增多时,其中的一些服务器出现故障是在所难免的。我们希望这样的情况不会对整个系统造成太大的影响。在系统中的一部分节点出现故障之后,系统的整体不影响客服端的读/写请求称为可用性。
3.分区容错性
分布式存储系统中的多台服务器通过网络进行连接。但是我们无法保证网络是一直通畅的,分布式系统需要具有一定的容错性来处理网络故障带来的问题。一个令人满意的情况是,当一个网络因为故障而分解为多个部分的时候,分布式存储系统仍然能够工作。