为什么要使用分布式文件系统
单机时代
初创时期由于时间紧迫,在各种资源有限的情况下,通常就直接在 项目目录下建立静态文件夹,用于用户存放项目中的文件资源。如 果按不同类型再细分,可以在项目目录下再建立不同的子目录来区 分。例如: resources\static\file 、 resources\static\img 等。
注意: 优点:便利,使用方便。 缺点:文件越多存放越混乱。
独立文件服务器
随着公司业务不断发展,将代码和文件放在同一服务器的弊端就会 越来越明显。为了解决上面的问题引入独立图片服务器,
流程: 项目上传文件时,首先通过ftp或者ssh将文件上传到图片服务器 的某个目录下,再通过Ngnix或者Apache来访问此目录下的文 件,返回一个独立域名的图片URL地址,前端使用文件时就通过 这个URL地址读取。
分布式文件系统
业务继续发展,单台服务器存储和响应也很快到达了瓶颈,新的业 务需要文件访问具有高响应性、高可用性来支持系统。
优点: 扩展能力: 毫无疑问,扩展能力是一个分布式文件系统最重要的特点; 高可用性: 在分布式文件系统中,高可用性包含两层,一是整个文件系统的可用性,二是数据 的完整和一致性; 弹性存储: 可以根据业务需要灵活地增加或缩减数据存储以及增删存储池中的资源,而不需要 中断系统运行。 缺点:系统复杂度稍高,需要更多服务器
什么是FastDFS
FastDFS是一个开源的轻量级分布式文件系统。它解决了大数据量 存储和负载均衡等问题。特别适合以中小文件(建议范围:4KB < file_size <500MB)为载体的在线服务,如相册网站、视频网站等 等。
FastDFS特性:
- 文件不分块存储,上传的文件和OS文件系统中的文件一一对应
- 支持相同内容的文件只保存一份,节约磁盘空间
- 下载文件支持HTTP协议,可以使用内置Web Server,也可以和其他Web Server配合使用 支持在线扩容
- 支持主从文件
分布式文件服务提供商
1、阿里的OSS 2、七牛云存储 3、百度云储存
FastDFS服务端三个角色
FastDFS服务端有三个角色:跟踪服务器(tracker)、存储服务器 (storage)和客户端(client)。
tracker
跟踪服务器,主要做调度工作,起负载均衡的作用。在内存中记录 集群中所有存储组和存储服务器的状态信息,是客户端和数据服务 器交互的枢纽。
storage
存储服务器(又称:存储节点或数据服务器),文件和文件属性 (meta data)都保存到存储服务器上。Storage server直接利用 OS的文件系统调用管理文件。
client
客户端,作为业务请求的发起方,通过专有接口,使用TCP/IP协议 与跟踪器服务器或存储节点进行数据交互。FastDFS向使用者提供 基本文件访问接口,比如upload、download、append、delete 等,以客户端库的方式提供给用户使用。
group
组, 也可称为卷。 同组内服务器上的文件是完全相同的 ,同一组 内的storage server之间是对等的, 文件上传、 删除等操作可以在 任意一台storage server上进行 。
流程: Tracker相当于FastDFS的大脑,不论是上传还是下载都是通过 tracker来分配资源;客户端一般可以使用Ngnix等静态服务器 来调用或者做一部分的缓存;存储服务器内部分为卷(或者叫 做组),卷于卷之间是平行的关系,可以根据资源的使用情况 随时增加,卷内服务器文件相互同步备份,以达到容灾的目 的。
上传机制
首先客户端请求Tracker服务获取到存储服务器的ip地址和端口,然 后客户端根据返回的IP地址和端口号请求上传文件,存储服务器接 收到请求后生产文件,并且将文件内容写入磁盘并返回给客户端 file_id、路径信息、文件名等信息,客户端保存相关信息上传完 毕。
内部机制如下
1、选择Tracker server
当集群中不止一个Tracker server时,由于Tracker之间是完全对等 的关系,客户端在upload文件时可以任意选择一个trakcer。
2、选择Storage server
当选定Group后,Tracker会在Group内选择一个Storage Server给 客户端
3、选择Storage path
当分配好Storage Server后,客户端将向Storage发送写文件请求, Storage将会为文件分配一个数据存储目录。 注意: 剩余存储空间最多的优先。
4、生成Fileid
选定存储目录之后,Storage会为文件生一个Fileid,由Storage Server Ip、文件创建时间、文件大小、文件crc32和一个随机数拼接 而成,然后将这个二进制串进行base64编码,转换为可打印的字符 串。
5、生成文件名
当文件存储到某个子目录后,即认为该文件存储成功,接下来会为 该文件生成一个文件名,文件名由group、存储目录、两级子目 录、fileid、文件后缀名(由客户端指定,主要用于区分文件类型) 拼接而成。
下载机制
客户端带上文件名信息请求Tracker服务获取到存储服务器的ip地址 和端口,然后客户端根据返回的IP地址和端口号请求下载文件,存 储服务器接收到请求后返回文件给客户端。
内部机制如下
1 client询问tracker下载文件的storage,参数为文件标识(组名和文件名) 2 tracker返回一台可用的storage 3 client直接和storage通讯完成文件下载