1.什么是mongodb MongoDB 是一个基于分布式文件存储的数据库。由 C++ 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。 MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档,数组及文档数组。 1.1主要特点 * MongoDB 是一个面向文档存储的数据库,操作起来比较简单和容易。 * 你可以在MongoDB记录中设置任何属性的索引 (如:FirstName="Sameer",Address="8 Gandhi Road")来实现更快的排序。 * 你可以通过本地或者网络创建数据镜像,这使得MongoDB有更强的扩展性。 * 如果负载的增加(需要更多的存储空间和更强的处理能力) ,它可以分布在计算机网络中的其他节点上这就是所谓的分片。 * Mongo支持丰富的查询表达式。查询指令使用JSON形式的标记,可轻易查询文档中内嵌的对象及数组。 * MongoDb 使用update()命令可以实现替换完成的文档(数据)或者一些指定的数据字段 。 * Mongodb中的Map/reduce主要是用来对数据进行批量处理和聚合操作。 * Map和Reduce。Map函数调用emit(key,value)遍历集合中所有的记录,将key与value传给Reduce函数进行处理。 * Map函数和Reduce函数是使用Javascript编写的,并可以通过db.runCommand或mapreduce命令来执行MapReduce操作。 * GridFS是MongoDB中的一个内置功能,可以用于存放大量小文件。 * MongoDB允许在服务端执行脚本,可以用Javascript编写某个函数,直接在服务端执行,也可以把函数的定义存储在服务端,下次直接调用即可。 * MongoDB支持各种编程语言:RUBY,PYTHON,JAVA,C++,PHP,C#等多种语言。 * MongoDB安装简单。
1.2概念解析 SQL术语/概念 MongoDB术语/概念 解释/说明 database database 数据库 table collection 数据库表/集合 row document 数据记录行/文档 column field 数据字段/域 index index 索引 table joins
表连接,MongoDB不支持 primary key primary key 主键,MongoDB自动将_id字段设置为主键
1.3支持的数据类型 数据类型 描述 String 字符串。存储数据常用的数据类型。在 MongoDB 中,UTF-8 编码的字符串才是合法的。 Integer 整型数值。用于存储数值。根据你所采用的服务器,可分为 32 位或 64 位。 Boolean 布尔值。用于存储布尔值(真/假)。 Double 双精度浮点值。用于存储浮点值。 Min/Max keys 将一个值与 BSON(二进制的 JSON)元素的最低值和最高值相对比。 Array 用于将数组或列表或多个值存储为一个键。 Timestamp 时间戳。记录文档修改或添加的具体时间。 Object 用于内嵌文档。 Null 用于创建空值。 Symbol 符号。该数据类型基本上等同于字符串类型,但不同的是,它一般用于采用特殊符号类型的语言。 Date 日期时间。用 UNIX 时间格式来存储当前日期或时间。你可以指定自己的日期时间:创建 Date 对象,传入年月日信息。 Object ID 对象 ID。用于创建文档的 ID。 Binary Data 二进制数据。用于存储二进制数据。 Code 代码类型。用于在文档中存储 JavaScript 代码。 Regular expression 正则表达式类型。用于存储正则表达式。 ObjectId ObjectId 类似唯一主键,可以很快的去生成和排序,包含 12 bytes,含义是: 前 4 个字节表示创建 unix 时间戳,格林尼治时间 UTC 时间,比北京时间晚了 8 个小时 接下来的 3 个字节是机器标识码 紧接的两个字节由进程 id 组成 PID 最后三个字节是随机数
MongoDB 中存储的文档必须有一个 _id 键。这个键的值可以是任何类型的,默认是个 ObjectId 对象 由于 ObjectId 中保存了创建的时间戳,所以你不需要为你的文档保存时间戳字段,你可以通过 getTimestamp 函数来获取文档的创建时间: var newObject = ObjectId()> newObject.getTimestamp()ISODate("2017-11-25T07:21:10Z") ObjectId 转为字符串 newObject.str
2.语法 2.1 ddl 1. use db_name 如果数据库不存在,则创建数据库,否则切换到指定数据库。 2. show dbs 查看所有数据库 3. db.dropDatabase() 删除数据库,需要切换到你需要删除的db 4. db.createCollection(name, options) 创建集合,name: 要创建的集合名称,options: 可选参数, 指定有关内存大小及索引的选项。 在插入文档时,MongoDB 首先检查固定集合的 size 字段,然后检查 max 字段。 5. show collections 或 show tables 查看已有集合 6. db.collection_name.drop() 删除集合
2.2 dml 所有存储在集合中的数据都是 BSON 格式。 BSON 是一种类似 JSON 的二进制形式的存储格式,是 Binary JSON 的简称。 1.db.COLLECTION_NAME.insert(document) document是json格式, 如果该集合不在该数据库中, MongoDB 会自动创建该集合并插入文档, 如果不指定 _id 字段 save() 方法类似于 insert() 方法。如果指定 _id 字段,则会更新该 _id 的数据。
2.db.COLLECTION_NAME.update(,,{upsert: multi: ,writeConcern: })
参数说明: query : update的查询条件,类似sql update查询内where后面的。 update : update的对象和一些更新的操作符(如inc...)等,也可以理解为sql update查询内set后面的 upsert : 可选,这个参数的意思是,如果不存在update的记录,是否插入objNew,true为插入,默认是false,不插入。 multi : 可选,mongodb 默认是false,只更新找到的第一条记录,如果这个参数为true,就把按条件查出来多条记录全部更新。 writeConcern :可选,抛出异常的级别。 例子: db.col.update({'title':'MongoDB 教程'},{$set:{'title':'MongoDB'}})
3.db.collection_name.remove(,)
参数说明: query :(可选)删除的文档的条件。 justOne : (可选)如果设为 true 或 1,则只删除一个文档,如果不设置该参数,或使用默认值 false,则删除所有匹配条件的文档。 writeConcern :(可选)抛出异常的级别。
4.db.collection.find(query, projection) 可以使用 pretty() 方法 query :可选,使用查询操作符指定查询条件 projection :可选,使用投影操作符指定返回的键。查询时返回文档中所有键值, 只需省略该参数即可(默认省略)。
2.3MongoDB 与 RDBMS Where 语句比较
如果你熟悉常规的 SQL 数据,通过下表可以更好的理解 MongoDB 的条件语句查询: 操作 格式 范例 RDBMS中的类似语句 等于 {:} db.col.find({"by":"菜鸟教程"}).pretty() where by = '菜鸟教程' 小于 {:{lt:<value>}} db.col.find({"likes":{lt:50}}).pretty() where likes < 50 小于或等于 {:{lte:<value>}} db.col.find({"likes":{lte:50}}).pretty() where likes <= 50 大于 {:{gt:<value>}} db.col.find({"likes":{gt:50}}).pretty() where likes > 50 大于或等于 {:{gte:<value>}} db.col.find({"likes":{gte:50}}).pretty() where likes >= 50 不等于 {:{ne:<value>}} db.col.find({"likes":{ne:50}}).pretty() where likes != 50 操作value即可 2.4MongoDB AND 条件 MongoDB 的 find() 方法可以传入多个键(key),每个键(key)以逗号隔开,即常规 SQL 的 AND 条件。 语法格式如下:
db.col.find({key1:value1, key2:value2}).pretty() 类似于 WHERE 语句:WHERE by='菜鸟教程' AND title='MongoDB 教程'
2.5MongoDB OR 条件 MongoDB OR 条件语句使用了关键字 $or,语法格式如下:
db.col.find( { or: [ {key1: value1}, {key2:value2} ] }).pretty()db.col.find({or:[{"by":"菜鸟教程"},{"title": "MongoDB 教程"}]}).pretty() 2.6AND 和 OR 联合使用 以下实例演示了 AND 和 OR 联合使用,类似常规 SQL 语句为: 'where likes>50 AND (by = '菜鸟教程' OR title = 'MongoDB 教程')' db.col.find({"likes": {gt:50}, or: [{"by": "菜鸟教程"},{"title": "MongoDB 教程"}]}).pretty() 2.7MongoDB Limit() 方法 如果你需要在MongoDB中读取指定数量的数据记录,可以使用MongoDB的Limit方法,limit()方法接受一个数字参数,该参数指定从MongoDB中读取的记录条数。语法 limit()方法基本语法如下所示: db.COLLECTION_NAME.find().limit(NUMBER)
2.8MongoDB Skip() 方法 我们除了可以使用limit()方法来读取指定数量的数据外,还可以使用skip()方法来跳过指定数量的数据,skip方法同样接受一个数字参数作为跳过的记录条数。语法 skip() 方法脚本语法格式如下:
db.COLLECTION_NAME.find().limit(NUMBER).skip(NUMBER)实例 以下实例只会显示第二条文档数据 db.col.find({},{"title":1,_id:0}).limit(1).skip(1){ "title" : "Java 教程" }>
2.9MongoDB sort() 方法 在 MongoDB 中使用 sort() 方法对数据进行排序,sort() 方法可以通过参数指定排序的字段,并使用 1 和 -1 来指定排序的方式,其中 1 为升序排列,而 -1 是用于降序排列。语法 sort()方法基本语法如下所示:
db.COLLECTION_NAME.find().sort({KEY:1})
2.10MongoDB 索引 索引通常能够极大的提高查询的效率,如果没有索引,MongoDB在读取数据时必须扫描集合中的每个文件并选取那些符合查询条件的记录。 这种扫描全集合的查询效率是非常低的,特别在处理大量的数据时,查询可以要花费几十秒甚至几分钟,这对网站的性能是非常致命的。 索引是特殊的数据结构,索引存储在一个易于遍历读取的数据集合中,索引是对数据库表中一列或多列的值进行排序的一种结构。 db.collection.createIndex(keys, options) db.col.createIndex({"title":1})
Parameter Type Description background Boolean 建索引过程会阻塞其它数据库操作,background可指定以后台方式创建索引,即增加 "background" 可选参数。 "background" 默认值为false。 unique Boolean 建立的索引是否唯一。指定为true创建唯一索引。默认值为false. name string 索引的名称。如果未指定,MongoDB的通过连接索引的字段名和排序顺序生成一个索引名称。 dropDups Boolean 3.0+版本已废弃。在建立唯一索引时是否删除重复记录,指定 true 创建唯一索引。默认值为 false. sparse Boolean 对文档中不存在的字段数据不启用索引;这个参数需要特别注意,如果设置为true的话,在索引字段中不会查询出不包含对应字段的文档.。默认值为 false. expireAfterSeconds integer 指定一个以秒为单位的数值,完成 TTL设定,设定集合的生存时间。 v index version 索引的版本号。默认的索引版本取决于mongod创建索引时运行的版本。 weights document 索引权重值,数值在 1 到 99,999 之间,表示该索引相对于其他索引字段的得分权重。 default_language string 对于文本索引,该参数决定了停用词及词干和词器的规则的列表。 默认为英语 language_override string 对于文本索引,该参数指定了包含在文档中的字段名,语言覆盖默认的language,默认值为 language.实例 在后台创建索引: db.values.createIndex({open: 1, close: 1}, {background: true})
2.11MongoDB 聚合 MongoDB中聚合(aggregate)主要用于处理数据(诸如统计平均值,求和等),并返回计算后的数据结果。有点类似sql语句中的 count(*)。aggregate() 方法 MongoDB中聚合的方法使用aggregate()。语法 aggregate() 方法的基本语法格式如下所示: db.COLLECTION_NAME.aggregate(AGGREGATE_OPERATION)
表达式 描述 实例 sum 计算总和。 db.mycol.aggregate([{group : {_id : "by_user", num_tutorial : {sum : "likes"}}}]) avg 计算平均值 db.mycol.aggregate([{group : {_id : "by_user", num_tutorial : {likes"}}}]) min 获取集合中所有文档对应值得最小值。 db.mycol.aggregate([{group : {_id : "by_user", num_tutorial : {min : "likes"}}}]) max 获取集合中所有文档对应值得最大值。 db.mycol.aggregate([{group : {_id : "by_user", num_tutorial : {likes"}}}]) push 在结果文档中插入值到一个数组中。 db.mycol.aggregate([{group : {_id : "by_user", url : {push: "url"}}}]) addToSet 在结果文档中插入值到一个数组中,但不创建副本。 db.mycol.aggregate([{group : {_id : "by_user", url : {url"}}}]) first 根据资源文档的排序获取第一个文档数据。 db.mycol.aggregate([{group : {_id : "by_user", first_url : {first : "url"}}}]) last 根据资源文档的排序获取最后一个文档数据 db.mycol.aggregate([{group : {_id : "by_user", last_url : {url"}}}])
db.mycol.aggregate([{group : {_id : "by_user", num_tutorial : {$sum : 1}}}])
3.高级特性 3.1复制集 概念:MongoDB复制是将数据同步在多个服务器的过程。复制提供了数据的冗余备份,并在多个服务器上存储数据副本,提高了数据的可用性, 并可以保证数据的安全性。复制还允许您从硬件故障和服务中断中恢复数据。 原理:mongodb的复制至少需要两个节点。其中一个是主节点,负责处理客户端请求,其余的都是从节点,负责复制主节点上的数据。mongodb各个节点常见的搭配方式为:一主一从、一主多从。主节点记录在其上的所有操作oplog,从节点定期轮询主节点获取这些操作,然后对自己的数据副本执行这些操作,从 而保证从节点的数据与主节点一致。
我们通过指定 --replSet 选项来启动mongoDB。--replSet 基本语法格式如下: mongod --port "PORT" --dbpath "YOUR_DB_DATA_PATH" --replSet "REPLICA_SET_INSTANCE_NAME"实例 mongod --port 27017 --dbpath "D:\set up\mongodb\data" --replSet rs0副本集添加成员 添加副本集的成员,我们需要使用多台服务器来启动mongo服务。进入Mongo客户端,并使用rs.add()方法来添加副本集的成员。语法 rs.add() 命令基本语法格式如下:
rs.add(HOST_NAME:PORT)实例 假设你已经启动了一个名为mongod1.net,端口号为27017的Mongo服务。 在客户端命令窗口使用rs.add() 命令将其添加到副本集中,命令如下所示: rs.add("mongod1.net:27017")> MongoDB中你只能通过主节点将Mongo服务添加到副本集中, 判断当前运行的Mongo服务是否为主节点可以使用命令db.isMaster() 。 MongoDB的副本集与我们常见的主从有所不同,主从在主机宕机后所有服务将停止,而副本集在主机宕机后,副本会接管主节点成为主节点,不会出现宕机的情况。
3.2分片 在Mongodb里面存在另一种集群,就是分片技术,可以满足MongoDB数据量大量增长的需求。当MongoDB存储海量的数据时,一台机器可能不足以存储数据,也可能不足以提供可接受的读写吞吐量。这时,我们就可以通过在多台机器上分割数据,使得数据库系统能存储和处理更多的数据。
3.3MongoDB 关系 MongoDB 的关系表示多个文档之间在逻辑上的相互联系。文档间可以通过嵌入和引用来建立联系。 MongoDB 中的关系可以是: 1:1 (1对1) 1: N (1对多) N: 1 (多对1) N: N (多对多) 接下来我们来考虑下用户与用户地址的关系。一个用户可以有多个地址,所以是一对多的关系。
3.4查询分析 MongoDB 查询分析可以确保我们所建立的索引是否有效,是查询语句性能分析的重要工具。 MongoDB 查询分析常用函数有:explain() 和 hint()。
3.5全文检索 全文检索对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。
3.6 GridFS GridFS 用于存储和恢复那些超过16M(BSON文件限制)的文件(如:图片、音频、视频等)。 GridFS 也是文件存储的一种方式,但是它是存储在MonoDB的集合中。 GridFS 可以更好的存储大于16M的文件。 GridFS 会将大文件对象分割成多个小的chunk(文件片段),一般为256k/个,每个chunk将作为MongoDB的一个文档(document)被存储在chunks集合中。 GridFS 用两个集合来存储一个文件:fs.files与fs.chunks。 每个文件的实际内容被存在chunks(二进制数据)中,和文件有关的meta数据(filename,content_type,还有用户自定义的属性)将会被存在files集合中。
4.集成java 4.1引入jar包 4.2创建MongoClient // 连接到 mongodb 服务 MongoClient mongoClient = new MongoClient( "localhost" , 27017 );