认识存储与数据库 | 青训营笔记

61 阅读2分钟

课程介绍 本节课将通过一个模拟案例,描述数据是怎么产生,在后端系统里怎么流通,最后怎么写入到存储/数据库系统。本小节主要为大家讲解存储/数据库系统的产生背景及基本特点。

课程资料

  • The Google File System

课程内容 数据是信息的载体,是我们进行分析和决策的基础。在当今的互联网时代,数据的规模和复杂度都在不断增长,给数据的存储和管理带来了巨大的挑战。为了应对这些挑战,我们需要了解不同类型的存储/数据库系统,它们的优缺点,以及适用的场景。

在本节课中,我们将通过一个模拟案例,来展示数据是如何从源头产生,经过后端系统的处理和传输,最终写入到存储/数据库系统中。我们将重点介绍一种分布式文件系统——The Google File System(GFS),它是谷歌公司为了支持其大规模数据处理而开发的一种创新性的存储/数据库系统。

GFS是一种基于集群的文件系统,它由一个主节点(master)和多个分块服务器(chunkserver)组成。主节点负责管理文件系统的元数据(metadata),如文件名,大小,权限等。分块服务器负责存储文件的内容,每个文件被切分成固定大小(默认为64MB)的分块(chunk),每个分块被复制到多个分块服务器上,以提高可靠性和可用性。GFS提供了一套简单而强大的API,让用户可以方便地创建,读取,写入,删除和追加文件。

GFS具有以下几个特点:

  • 高容错性:GFS能够自动检测和恢复硬件故障,保证数据的完整性和一致性。
  • 高扩展性:GFS能够支持数千台服务器和数PB级别的数据量,通过增加或减少服务器来调整存储容量和性能。
  • 高效性:GFS针对大文件和顺序读写进行了优化,减少了网络开销和磁盘寻道时间。
  • 易用性:GFS提供了一个统一的命名空间(namespace),让用户可以像操作本地文件一样操作分布式文件。

通过学习本节课,你将掌握以下知识点:

  • 数据的产生和流动过程
  • 存储/数据库系统的分类和特征
  • GFS的架构和原理
  • GFS的优势和局限
  • GFS的应用场景和案例