初识NoSQL

134 阅读8分钟

NosQL 不仅仅是SQL,它是Not Ony sQL 的缩写,也是众多非关系型数据库的统称。NoSQL 和关系型数据库一样,也是用来存储数据的仓库。

使用 NoSQL作用

  • NoSQL 的出现解决了高并发读/写问题
  • NoSQL 的出现解决了海量数据的高效率存储和访问问题
  • NoSQL 的出现实现了高可用性及高可扩展性

NoSQL 具有如下特点:

  • 容易扩展,方便使用,数据之间没有关系。
  • 数据模型非常灵活,无须提前为要存储的数据建立字段类型,随时可以存储自定义的数据格式。
  • 适合大数据量、高性能的存储。
  • 具有高并发读/写、高可用性。

NoSQL 与传统关系型数据库的比较

1. 使用成本

  • NoSQL:NoSQL 使用简单,易搭建,大部分是开源软件,比较廉价,任何人都可以使用。4∣从零开始学 Redis
  • 关系型数据库:相对于 NoSQL,关系型数据库通常需要安装部署,开源的比较少,使用成本比较昂贵。尤其是 Oracle 数据库,需要花费大量资金购买,使用成本比较高。

2. 存储形式

  • NoSQL:NoSQL 具有丰富的存储形式,如 key-value(键值对)形式、图结构形式、文档形式、列簇形式等,因此,它可以存储各种类型的数据。
  • 关系型数据库:关系型数据库是采用关系型数据模型来组织的,它是行列表结构,通过行与列的二元形式表示出来,数据之间有很强的关联性。它采用二维表结构的形式对数据进行持久存储。

3. 查询速度

  • NoSQL:NoSQL 将数据存储在系统的缓存中,不需要经过 SQL 层的解析,因此查询效率很高。
  • 关系型数据库:关系型数据库将数据存储在系统的硬盘中,在查询的时候需要经过 SQL层的解析,然后读入内存,实现查询,因此查询效率较低。

4. 扩展性

  • NoSQL:NoSQL 去掉了传统关系型数据库表与字段之间的关系,实现了真正意义上的扩展。它采用键值对的形式存储数据,消除了数据之间的耦合性,因此易扩展。
  • 关系型数据库:由于关系型数据库采用关系型数据模型来存储数据,数据与数据之间的关联性较强,存在耦合性,因此不易扩展。尤其是存在多表连接(join)查询机制的限制,使得扩展很难实现。

5. 是否支持 ACID 特性

  • ACID 特性是指数据库事务的执行要素,包括原子性、一致性、隔离性、持久性。
  • NoSQL:NoSQL 一般不支持 ACID 特性,它实现最终一致性。
  • 关系型数据库:关系型数据库支持 ACID 特性,具有严格的数据一致性。

6. 是否支持 SQL 语句

  • NoSQL:SQL 语句在 NoSQL 中是不被支持的,NoSQL 没有声明性查询语言,且没有预定义的模式。
  • 关系型数据库:关系型数据库支持 SQL 语句,也支持复杂查询。SQL 是结构化查询语言、数据操纵语言、数据定义语言。
NoSQL 与传统关系型数据库是互补的关系,对方的劣势就是自己的优势,反之亦然。

使用 NoSQL的常用场景

  • 对于大数据量、高并发的存储系统及相关应用。
  • 对于一些数据模型比较简单的相关应用。
  • 对数据一致性要求不是很高的业务场景。
  • 对于给定 key 来映射一些复杂值的环境。
  • 对一些大型系统的日志信息的存储。
  • 存储用户信息,如大型电商系统的购物车、会话等。
  • 对于多数据源的数据存储。
  • 对易变化、热点高频信息、关键字等信息的存储。

NoSQL 的数据模型

  1. 键值对数据模型

    键值对数据模型就是采用键值对形式将数据存储在一张哈希表中的一类数据库,这张哈希表具有一个特定的键和一个指向特定数据的指针。键值对存储中的值可以是任意类型的值,如数字、字符串,也可以是封装在对象中的新的键值对。

  2. 列数据模型

    列数据模型就是将数据按照列簇形式来存储的一类数据库,通常用于存储分布式系统的海量数据。它也有键,这些键指向多个列,由数据库的列簇来统一安排。

  3. 文档数据模型

    文档数据模型以文档形式进行存储,它是键值对数据模型的升级版,是版本化的文档。它可以使用模式来指定某个文档结构,通常采用特定格式来存储半结构化的文档,最常使用的存储格式是 XML、JSON。每个文档都是自包含的数据单元,是一系列数据项的集合。

  4. 图数据模型

    图数据模型采用图结构形式存储数据,它是最复杂的 NoSQL,常被用于存储一些社交网络的社交关系,适用于存储高度互联的数据。它由多个节点和多条边组成,节点表示实体,边表示两个实体之间的关系。

NoSQL 数据库的分类

  1. 键值对存储数据库

    主要采用键值对形式存储数据的一类数据库。

    典型代表:Redis(由 C/C++语言开发)、Memcached、Voldemort、Berkeley DB、Tokyo Cabinet/Tyrant 等。当采用该类数据库存储数据时,需要定义数据结构(半结构化)才能进行存储。

  2. 面向列存储数据库

    主要按照列存储数据的一类数据库。

    典型代表:HBase(由 Java 语言开发)、Cassandra(由 Java 语言开发)、Riak(由 Erlang语言、C 语言及 JavaScript 组合开发)等。当采用该类数据库存储数据时,需要定义数据结构(半结构化)才能进行存储。

  3. 面向文档数据库

    主要用于存储文档的一类数据库。文档也是它的最小单元,同一张表中存储的文档属

    性可以是多样化的,数据可以采用 XML、JSON、JSONB 等多种格式存储。

    典型代表:MongoDB(由 C++语言开发)、CouchDB(由 Erlang 语言开发)、RavenDB等。当采用该类数据库存储数据时,不需要定义数据结构(非结构化)就可以存储。

  4. 面向图形数据库

    主要用于存储图片信息的一类数据库。

    典型代表:Neo4j(由 Java 语言开发)、InfoGrid、Infinite Graph 等。

    目前,NoSQL 数据库的使用场景比较广泛,很多企业都会根据自己相关的业务场景来使用各类 NoSQL 数据库,或者混合使用它们。

各类 NoSQL 数据库的比较

分类数据模型优 点缺 点适用场景不适用场景
键 值 对 存 储 数a 据库一系列 key 指 向 value 的键值对,通常采用哈希表来实现(1)查询速度快(2)保存速度快(3)兼具临时性和永久性(1)数据无结构,通常只被当作字符串或二进制数据(2)当进行临时性保存时,数据有可能丢失(1)做高速缓存, 实现大数据量的存储 与访问 (2)缓存日志,做日 志缓存系统 (3)存储用户信息, 如购物车、会话等(1)不适用于通过 值来查询的业务 (2)不适用于需 要存储数据之间关 系的业务 (3)需要对事务 提供支持,在遇到 故障时事务不可以 回滚
面 向 列 存 储 数 据库采用列簇形式 存储,将同一列 数据存放在一起(1)查询速度快 (2)擅长以列为 单位读入数据 (3)可扩展性强, 尤其是分布式扩展功能相对局限(1)做分布式文件 系统 (2)存储日志信息不适用于需要实 现 ACID 相关事务的 业务
面 向 文 档 数 据 库采用文档形式 存储,也可以看 作一系列键值 对,它的每个数 据项都有对应的 名称和值(1)无须定义表 结构,表结构可变 (2)对数据结构 要求不严格 (3)可以使用复 杂的查询条件(1)查询性能不高 (2)缺乏统一的查 询语法(1)Web 应用,与 key-value 类似,value 是 结构化的,不同的是数 据库可以了解 value 的 内容 (2)存储日志信息, 做相关业务的分析在存储文档数据 时,需要在不同的文 档上添加事务时不 适用
面 向 图 形 数 据 库采用图结构形 式存储,实体是 一个节点,节点 之间的关系是边具有很多图结构 算法的支持,如最短 路径算法、最小生成 树算法等(1)为了得到结果, 需要对整个图形进行 计算 (2)不利于做分布 式应用 (3)适用范围有限(1)应用于大型社交 网络 (2)做相关推荐系统 (3)面对一些关系性 强的数据不适用于存储非 图结构的数据