深入解析MongoDB最新版本:表设计、索引优化与分布式架构实践

0 阅读12分钟

imgs_mongodb_architecture_diagram.png

执行摘要

MongoDB 8.0的发布标志着文档数据库领域迎来了性能、安全性与扩展性的重大飞跃。根据官方基准测试数据,MongoDB 8.0相比前代版本实现了32%的读取吞吐量提升,批量写入操作性能提升56%,数据复制期间并发写入速度提高20%,而时间序列数据聚合处理速度更是提升了200%以上。这些惊人的性能提升配合可查询加密功能的扩展,使得MongoDB 8.0成为企业级应用的首选数据库解决方案。本博客将深入探讨MongoDB 7.x/8.x版本在表设计、索引优化、查询优化、分布式架构以及高可用设计方面的最新实践,为中高级开发者提供全面的技术指导。

一、引言

1.1 MongoDB版本演进概述

MongoDB从4.4到8.0经历了多个重要版本的迭代,每一代都在性能、功能和安全性方面实现了质的飞跃。MongoDB 7.0引入了可扩展操作(Scalable Operations)这一重磅功能,允许单个操作处理超过16MB文档限制的数据集,彻底解决了处理海量数据时的分批操作难题。同时引入的时间点快照读(Point-in-Time Snapshot Reads)机制解决了跨分片查询可能出现的"时间旅行"问题,确保从多个分片读取的数据反映的是数据库在某个单一、精确时间点的状态快照。

MongoDB 8.0在此基础上更进一步,通过超过45项架构改进实现了性能的大幅提升。新版本不仅在传统数据库操作上表现卓越,还特别针对时间序列数据和向量搜索场景进行了深度优化。MongoDB 8.0扩展的可查询加密功能允许客户在保持高度安全的情况下对敏感数据进行复杂查询,这种创新性的功能在数据库领域具有里程碑意义。

1.2 本博客目标读者与内容范围

本博客专为具有MongoDB基础的中高级开发者设计,旨在提供从理论到实践的完整技术指导。我们将涵盖以下核心主题:MongoDB数据建模原则与Schema设计模式、索引类型与优化策略、查询计划分析与优化技巧、分片集群架构设计与片键选择、副本集高可用设计与读写分离策略。此外,每个主题都配有完整的Node.js代码示例,帮助读者将理论知识快速应用到实际项目中。

二、表设计(Collection Design)

2.1 MongoDB数据建模原则

MongoDB作为文档型数据库,其数据建模方式与传统关系型数据库有着本质区别。在设计MongoDB Schema时,开发者需要摒弃思维定式,从"数据规范化"转向"数据反规范化"思维,根据实际业务场景和查询模式来组织数据结构。

数据建模的首要原则是面向查询设计。与传统关系型数据库强调的数据独立性和完整性约束不同,MongoDB的设计核心是如何让数据访问更加高效。这意味着在设计初期就要明确应用程序的查询模式,包括最频繁的读取操作、最常见的写入场景、数据之间的关联关系等。只有深入理解业务需求,才能设计出高效的文档结构。

字段名设计是MongoDB建模中常被忽视但非常重要的方面。由于MongoDB会在每个文档中存储字段名,字段名长度直接影响集合的存储大小和内存占用。建议将字段名控制在32个字符以内,同时保持字段名的语义清晰。例如,使用uid而非userIdentifier,使用ts而非timestamp(但要注意可读性的平衡)。在实际项目中,可以建立团队统一的字段命名规范,既能节省存储空间,又能提高代码可维护性。

文档大小控制也是重要原则。虽然MongoDB单个文档最大支持16MB(在7.0之前是16MB限制,7.0引入了可扩展操作),但过大的文档会导致查询性能下降、内存占用增加等问题。建议单个文档大小控制在1MB以内,如果文档过大,应该考虑将其拆分为多个关联文档或使用GridFS存储。

2.2 文档结构设计最佳实践

MongoDB文档结构设计的核心挑战在于嵌入文档Embedded Document与引用文档Referenced Document之间的选择。这两种模式各有优劣,适用于不同的业务场景。

嵌入文档模式适用于以下场景:数据之间是"包含"关系而非"属于"关系;数据通常需要一起读取;数据之间是一对少量关系;需要保证原子性写入。例如,一个博客系统中的文章文档可以嵌入作者信息、标签列表、评论数组等,因为这些数据通常与文章一起展示,且数量有限。

嵌入文档的优势在于可以一次性读取所有相关数据,减少数据库往返次数,提高查询性能。同时,MongoDB支持对嵌入文档字段直接建立索引,可以实现精确的嵌套字段查询。然而,嵌入模式的局限性在于无法嵌入无限增长的数据(如评论列表),且数据更新时需要读取整个文档,增加了网络传输开销。

引用文档模式(也称为规范化和链接模式)适用于以下场景:数据之间是多对多关系;数据需要独立访问;数据量可能无限增长;需要在多个文档间共享数据。例如,电商系统中的订单和商品、用户和角色等关系,适合使用引用模式。

引用模式通过在文档中存储另一个文档的ObjectId来实现关联,查询时使用$lookup聚合阶段或应用层代码手动关联数据。这种模式的优点是数据独立性好,更新灵活,但缺点是查询需要多次数据库往返,或者使用昂贵的$lookup操作。

最佳实践建议:优先考虑嵌入模式,除非有明确的理由使用引用模式。MongoDB官方建议"除非有什么迫不得已的原因,否则优先考虑内嵌文档"。但也要注意,数组不应该无限制增长,如果数组元素数量可能非常多,应该考虑使用引用模式或桶模式。

2.3 Schema设计模式详解

MongoDB社区经过多年实践,总结出了一系列成熟的Schema设计模式,这些模式可以帮助开发者应对各种复杂业务场景。

属性模式Attribute Pattern适用于需要频繁查询具有大量可选字段的文档的场景。例如,电商产品具有颜色、尺寸、材质、价格区间等数十个可选属性,如果为每个属性建立独立字段会导致大量空值,且难以维护。属性模式将可选属性统一放入一个attributes数组,每个元素包含keyvalue字段,查询时通过属性名和属性值进行筛选。

// 属性模式示例:电子产品文档
{
  _id: ObjectId("..."),
  name: "iPhone 15 Pro",
  category: "smartphone",
  attributes: [
    { key: "color", value: "Titanium Blue" },
    { key: "storage", value: "256GB" },
    { key: "display", value: "6.1英寸OLED" },
    { key: "chip", value: "A17 Pro" },
    { key: "water_resistance", value: "IP68" }
  ]
}

// 查询示例:查找所有256GB存储的手机
db.products.find({
  category: "smartphone",
  attributes: { $elemMatch: { key: "storage", value: "256GB" } }
})

桶模式Bucket Pattern是处理时间序列数据的首选模式。相比为每个测量数据点创建一个文档,桶模式将多个数据点聚合到一个"桶"文档中,显著减少文档数量,提高查询效率。桶模式通常用于物联网传感器数据、日志数据、统计数据等场景。

// 桶模式示例:传感器数据存储
{
  _id: ObjectId("..."),
  sensor_id: "temp_sensor_001",
  date: ISODate("2024-01-15"),
  readings: [
    { timestamp: ISODate("2024-01-15T08:00:00Z"), value: 22.5 },
    { timestamp: ISODate("2024-01-15T08:05:00Z"), value: 23.1 },
    { timestamp: ISODate("2024-01-15T08:10:00Z"), value: 23.8 },
    // ... 每个桶存储固定时间间隔的数据
  ],
  metadata: {
    location: "Building A - Floor 3",
    sensor_type: "temperature"
  }
}

桶模式的关键设计考量包括每个桶的时间间隔和数据点数量。建议每个桶存储固定数量的数据点(如100个),而不是固定时间间隔,这样可以保证每个文档大小相对一致,便于分片和查询优化。

异常值模式Outlier Pattern用于处理数据分布不均匀的场景。当大多数文档具有少量关联数据,但极少数文档具有大量关联数据时(如大多数用户只有几条订单,但个别用户有数万条订单),可以使用异常值模式。主要信息存储在主文档中,超出阈值的关联数据存储在独立的异常值文档中,通过引用关联。

// 异常值模式示例:用户订单处理
// 普通用户订单存储在用户文档中
{
  _id: ObjectId("..."),
  username: "normal_user",
  order_count: 5,
  recent_orders: [
    { order_id: "...", amount: 299, date: "2024-01-10" },
    { order_id: "...", amount: 159, date: "2024-01-12" }
  ]
}

// 高频用户的超额订单存储在独立文档中
{
  _id: ObjectId("..."),
  user_id: ObjectId("..."), // 引用用户文档
  overflow_orders: [
    { order_id: "...", amount: 1999, date: "2024-01-01" },
    { order_id: "...", amount: 2999, date: "2024-01-02" }
    // ... 可能存储数千条订单
  ]
}

**计算模式(Computed Pattern)**适用于频繁读取但计算成本高的数据。将计算结果预先存储在文档中,读取时直接使用,避免重复计算。例如,电商网站的商品评分和评论统计、用户的活跃度指标、仪表板的汇总数据等。

// 计算模式示例:产品评论统计
{
  _id: ObjectId("..."),
  product_id: ObjectId("..."),
  // 预计算的统计值
  stats: {
    total_reviews: 12580,
    avg_rating: 4.3,
    rating_distribution: {
      "5": 6280,
      "4": 3145,
      "3": 1800,
      "2": 890,
      "1": 465
    },
    helpful_votes: 34567,
    last_updated: ISODate("2024-01-15T12:00:00Z")
  }
}

2.4 Schema设计反模式

了解常见反模式可以避免在实际项目中犯下致命错误。

过度嵌套反模式是指文档嵌套层级过深,导致查询和数据更新变得复杂。建议文档嵌套不超过2级,如果需要更深的嵌套,考虑使用引用模式或重新设计数据结构。

无限制数组增长反模式是MongoDB开发中最常见的问题之一。如果数组可能无限增长(如用户的操作日志、聊天记录等),不应该将其嵌入主文档,而应该使用独立集合或桶模式。MongoDB单个文档16MB的限制意味着一旦数组增长失控,就会出现写入失败。

无索引字段反模式指在经常用于查询条件的字段上未建立索引。这会导致全集合扫描,在数据量较大时性能急剧下降。每个集合建议建立5-10个索引,索引数量过多又会影响写入性能,需要在查询性能和维护成本之间找到平衡。

三、索引设计与优化

3.1 索引类型详解

MongoDB提供了丰富的索引类型,每种索引都有其特定的使用场景和优化效果。

单字段索引是最基础的索引类型,对集合中的单个字段建立索引。对于等值查询和排序操作,单字段索引可以提供高效的查询加速。

// 创建单字段索引
db.users.createIndex({ email: 1 }, { unique: true })
db.products.createIndex({ category: 1, price: -1 })

复合索引Compound Index由多个字段组合而成,可以同时优化涉及多个字段的查询。复合索引的字段顺序至关重要,因为MongoDB遵循最左前缀原则。例如,一个索引{user_id: 1, create_time: -1}可以同时优化{user_id: 5}{user_id: 5, create_time: {$gt: ...}}两种查询,但无法优化{create_time: {$gt: ...}}查询。

// 复合索引示例
// 假设有以下查询模式
// Query 1: { status: "active", created_at: { $gte: date1 } }
// Query 2: { status: "active" }
// Query 3: { created_at: { $gte: date1 } }

// 最佳索引设计
db.orders.createIndex({ status: 1, created_at: -1 })

// 这个索引可以同时支持Query 1和Query 2
// 但不支持Query 3(因为缺少最左前缀status)

多键索引Multikey Index用于索引数组字段。当对一个包含数组的字段建立索引时,MongoDB会自动创建多键索引,为数组中的每个元素建立索引条目。

// 多键索引示例
db.products.createIndex({ tags: 1 })

// 文档示例
{ name: "iPhone", tags: ["electronics", "smartphone", "Apple"] }

// 查询可以直接利用索引
db.products.find({ tags: "smartphone" })

多键索引的限制:如果复合索引中包含多个数组字段,MongoDB无法创建这样的索引,因为会产生索引条目爆炸式增长。

文本索引Text Index用于支持全文搜索功能。MongoDB允许在字符串字段上创建文本索引,支持多种语言的全文搜索。

// 创建文本索引
db.articles.createIndex({ title: "text", content: "text", tags: "text" })

// 文本搜索查询
db.articles.find({
  $text: { $search: "mongodb optimization techniques" }
})

// 按相关性评分排序
db.articles.find(
  { $text: { $search: "mongodb performance" } },
  { score: { $meta: "textScore" } }
).sort({ score: { $meta: "textScore" } })

地理空间索引Geospatial Index用于支持地理位置查询。MongoDB支持2dsphere索引(地球球体表面)和2d索引(平面坐标)。

// 2dsphere索引用于地球表面坐标
db.places.createIndex({ location: "2dsphere" })

// 查询示例:查找附近100公里内的餐厅
db.places.find({
  location: {
    $nearSphere: {
      $geometry: { type: "Point", coordinates: [116.3970, 39.9166] },
      $maxDistance: 100000 // 100公里,单位米
    }
  }
})

哈希索引Hashed Index使用字段值的哈希值作为索引键,适用于哈希分片场景,可以确保数据在分片间均匀分布。

// 哈希索引
db.users.createIndex({ _id: "hashed" })

3.2 索引优化策略

覆盖查询Covered Query是最高效的查询方式,指查询条件和解投影字段都位于同一个索引中,MongoDB可以直接从索引返回结果,无需访问文档本身。

// 创建覆盖索引
db.users.createIndex({ status: 1, email: 1 }, { unique: true })

// 这个查询会被索引完全覆盖
db.users.find(
  { status: "active" },
  { email: 1, _id: 0 }
)

// 使用explain验证(winningPlan.stage应为IXSCAN而非FETCH)
db.users.find(
  { status: "active" },
  { email: 1, _id: 0 }
).explain("executionStats")

前缀索引优化原则要求合理设计复合索引的字段顺序,将选择性高的字段放在前面。所谓选择性,是指字段唯一值的数量与总文档数量的比值。例如,email字段的选择性远高于status字段,因此在设计复合索引时应该优先考虑高选择性字段。

// 低效索引设计(假设status只有active/inactive两种值)
db.orders.createIndex({ status: 1, customer_id: 1, create_time: -1 })

// 高效索引设计(customer_id选择性最高)
db.orders.createIndex({ customer_id: 1, create_time: -1, status: 1 })

索引交集是MongoDB 2.6引入的特性,查询优化器可以选择使用多个单字段索引的交集来满足查询。虽然这提供了灵活性,但通常不如精心设计的复合索引高效。

3.3 部分索引和稀疏索引

部分索引Partial Index是3.2版本引入的功能,只对满足特定过滤条件的文档建立索引。这可以显著减少索引存储空间,提高写入性能,特别适用于数据分布不均匀的场景。

// 只对已发布文章建立索引
db.articles.createIndex(
  { author_id: 1, published_at: -1 },
  { partialFilterExpression: { status: "published" } }
)

// 只对高分商品建立索引
db.products.createIndex(
  { category: 1, rating: -1 },
  { partialFilterExpression: { rating: { $gte: 4.0 } } }
)

// 只对VIP用户建立邮箱唯一索引
db.users.createIndex(
  { email: 1 },
  {
    unique: true,
    partialFilterExpression: { account_type: "vip", email: { $exists: true } }
  }
)

部分索引的限制:查询必须包含过滤表达式(或其子集)才能使用部分索引;如果索引覆盖会导致结果不完整,MongoDB不会使用该索引。

**稀疏索引(Sparse Index)**是部分索引的一种特殊形式,只对存在索引字段的文档建立索引,适用于经常查询可选字段的场景。

// 稀疏索引只索引包含phone字段的文档
db.users.createIndex(
  { phone: 1 },
  { sparse: true }
)

// 注意事项:稀疏索引与唯一索引结合时可能产生意外行为
// 假设有以下文档
// { _id: 1, email: "a@test.com" }
// { _id: 2, email: "b@test.com" }
// { _id: 3 }  // 没有email字段

// 创建稀疏唯一索引
db.users.createIndex({ email: 1 }, { unique: true, sparse: true })

// 这个操作会成功,因为_id:3的文档不会被索引检查
db.users.insert({ _id: 3, email: "a@test.com" }) // 报错:唯一约束冲突

3.4 索引限制与注意事项

MongoDB索引存在以下限制,开发者需要在设计时充分考虑:

索引键限制:每个索引键不超过1024字节,超出部分会被忽略。

复合索引字段数限制:每个复合索引最多31个字段。

索引名称长度限制:索引名称不超过128字节。

集合索引数量限制:每个集合建议不超过10个索引(MongoDB硬限制为64个)。

索引对写入性能的影响:每次文档插入或更新都需要更新所有相关索引,过多的索引会显著影响写入性能。建议定期审查和清理不再使用的索引。

// 查看集合的所有索引
db.collection.getIndexes()

// 删除不需要的索引
db.collection.dropIndex("index_name")

// 查看索引使用情况(需要开启profiler)
db.system.profile.find({ op: "query" }).sort({ millis: -1 }).limit(10)

// 重建索引(可以回收索引碎片,但会锁表,生产环境慎用)
db.collection.reIndex()

后台索引创建:在生产环境创建索引时,务必使用后台创建选项,避免阻塞读写操作。

// 后台创建索引(非阻塞)
db.products.createIndex({ category: 1 }, { background: true })

// 限制索引建立时间(超时自动放弃)
db.products.createIndex(
  { category: 1 },
  { expireAfterSeconds: 300 } // 5分钟内未完成则放弃
)

四、查询优化

4.1 查询计划分析(explain)

MongoDB提供了explain()方法来分析查询执行计划,这是查询优化的基础工具。通过分析explain输出,可以了解查询使用了哪个索引、扫描了多少文档、查询各阶段耗时等关键信息。

// 三种explain模式
// 1. queryPlanner模式(默认)- 只显示查询计划
db.collection.find({ field: value }).explain()

// 2. executionStats模式 - 显示执行统计信息
db.collection.find({ field: value }).explain("executionStats")

// 3. allPlansExecution模式 - 显示所有候选计划
db.collection.find({ field: value }).explain("allPlansExecution")

explain()输出的关键字段包括:winningPlan.stage表示查询执行的主要阶段,常见值有COLLSCAN(集合扫描)、IXSCAN(索引扫描)、FETCH(根据索引检索文档)、SORT(内存排序)等;executionStats.totalDocsExamined表示扫描的文档数量,越接近nReturned说明索引效率越高;executionStats.executionTimeMillis表示执行总耗时。

// 示例:分析查询计划
db.orders.find({
  status: "shipped",
  created_at: { $gte: ISODate("2024-01-01") }
}).explain("executionStats")

执行计划分析结果示例:

{
  "queryPlanner": {
    "winningPlan": {
      "stage": "FETCH",
      "inputStage": {
        "stage": "IXSCAN",
        "keyPattern": { "status": 1, "created_at": -1 },
        "indexName": "status_1_created_at_-1"
      }
    }
  },
  "executionStats": {
    "executionSuccess": true,
    "nReturned": 1523,
    "totalDocsExamined": 1523,
    "executionTimeMillis": 45,
    "indexName": "status_1_created_at_-1"
  }
}

在这个例子中,nReturned等于totalDocsExamined,说明索引效率完美——每个扫描的文档都被返回。如果totalDocsExamined远大于nReturned,说明索引设计或查询条件需要优化。

4.2 查询模式优化

使用投影限制返回字段可以减少网络传输数据量,加快查询响应速度。MongoDB默认返回文档的所有字段,但在很多场景下只需要部分字段。

// 只返回必要的字段
db.users.find(
  { status: "active" },
  { _id: 1, username: 1, email: 1, avatar: 1 } // 投影
)

// 在mongodb原生驱动中
const result = await collection.find(
  { status: "active" },
  { projection: { _id: 1, username: 1, email: 1, avatar: 1 } }
).toArray();

使用合适的查询操作符可以提高查询效率。例如,使用$in而不是多个$or条件,使用$exists而不是$ne: null来判断字段存在性。

// 低效写法
db.users.find({
  $or: [
    { role: "admin" },
    { role: "moderator" },
    { role: "editor" }
  ]
})

// 高效写法
db.users.find({ role: { $in: ["admin", "moderator", "editor"] } })

避免正则表达式前导模糊查询。正则表达式{ field: /^prefix/ }可以使用索引,但{ field: /.*suffix/ }{ field: /.*middle.*/ }无法使用索引,会导致全表扫描。

// 无法使用索引(以通配符开头)
db.users.find({ name: /.*wang.*/ })

// 可以使用索引(以固定字符串开头)
db.users.find({ name: /^zhang/ })

// 最佳实践:使用文本索引替代正则搜索
db.users.createIndex({ name: "text" })
db.users.find({ $text: { $search: "wang" } })

4.3 聚合管道优化

MongoDB聚合管道是处理复杂数据转换和分析的强大工具,但不当使用可能导致性能问题。以下是聚合管道优化的关键策略。

$match放在管道前面是最基本也是最重要的优化原则。$match操作可以早期过滤大量数据,减少后续处理阶段的负担。

// 低效:先分组再过滤
db.orders.aggregate([
  { $group: { _id: "$customer_id", total: { $sum: "$amount" } } },
  { $match: { total: { $gte: 10000 } } }
])

// 高效:先过滤再分组
db.orders.aggregate([
  { $match: { status: "completed" } }, // 早期过滤
  { $group: { _id: "$customer_id", total: { $sum: "$amount" } } },
  { $match: { total: { $gte: 10000 } } }
])

使用$limit限制中间结果可以防止管道处理过多数据。

// 获取TOP 10销售商品
db.orders.aggregate([
  { $match: { status: "completed" } },
  { $group: { _id: "$product_id", total_sales: { $sum: "$amount" } } },
  { $sort: { total_sales: -1 } },
  { $limit: 10 } // 限制结果数量
])

使用$project减少字段传递可以减少管道阶段的内存和处理开销。

// 只传递需要的字段
db.orders.aggregate([
  { $match: { created_at: { $gte: ISODate("2024-01-01") } } },
  { $project: { customer_id: 1, amount: 1, status: 1, _id: 0 } },
  { $group: { _id: "$customer_id", total: { $sum: "$amount" } } }
])

使用$lookup优化是处理多集合关联时的关键。MongoDB 3.6引入的$lookup新语法允许使用pipeline进行更高效的关联查询。

// 原始$lookup(MongoDB 3.6之前)
db.orders.aggregate([
  {
    $lookup: {
      from: "customers",
      localField: "customer_id",
      foreignField: "_id",
      as: "customer_info"
    }
  }
])

// 优化后的pipeline $lookup(MongoDB 3.6+,特别是5.0+性能显著提升)
db.orders.aggregate([
  {
    $lookup: {
      from: "customers",
      let: { customer_id: "$customer_id" },
      pipeline: [
        { $match: { $expr: { $eq: ["$_id", "$$customer_id"] } } },
        { $project: { name: 1, email: 1, _id: 0 } }
      ],
      as: "customer_info"
    }
  }
])

pipeline $lookup的优势在于可以在关联阶段使用索引过滤,减少关联数据量。在MongoDB 5.0+中,新引入的$lookup with pipeline支持在关联前使用$match阶段,进一步提升性能。

使用$facet进行多维度聚合可以避免多次扫描集合。

// 一次聚合多维度统计
db.orders.aggregate([
  { $match: { created_at: { $gte: ISODate("2024-01-01") } } },
  {
    $facet: {
      // 按状态统计
      by_status: [
        { $group: { _id: "$status", count: { $sum: 1 } } }
      ],
      // 按日统计销售额
      daily_sales: [
        {
          $group: {
            _id: { $dateToString: { format: "%Y-%m-%d", date: "$created_at" } },
            total: { $sum: "$amount" }
          }
        },
        { $sort: { _id: 1 } }
      ],
      // TOP 5客户
      top_customers: [
        { $group: { _id: "$customer_id", total: { $sum: "$amount" } } },
        { $sort: { total: -1 } },
        { $limit: 5 }
      ]
    }
  }
])

4.4 常见查询陷阱与避免方法

分页深翻页问题是Web应用中的常见性能陷阱。使用skip()进行深度分页时,数据库需要扫描并丢弃前面所有的文档,页数越深,性能越差。

// 低效深分页
db.orders.find().sort({ created_at: -1 }).skip(100000).limit(10)

// 优化方案1:使用上一页最后一行的_id作为起点(游标分页)
db.orders.find({ _id: { $lt: last_seen_id } })
  .sort({ _id: -1 })
  .limit(10)

// 优化方案2:记录当前页起始位置的总count
// 在某些必须知道总页数的场景下,预先计算并缓存总数

内存排序问题。MongoDB对排序操作有内存限制(默认32MB),超过限制会报错或退化为全表扫描。

// 确保排序字段有索引
db.orders.createIndex({ created_at: -1 })

// 对于必须使用内存排序的场景,增加内存限制(谨慎使用)
db.orders.find({ status: "completed" })
  .sort({ total_amount: -1 })
  .allowDiskUse(true) // 允许使用磁盘存储中间结果

// 限制排序前的数据量
db.orders.aggregate([
  { $match: { status: "completed" } },
  { $sort: { created_at: -1 } },
  { $limit: 1000 }, // 先限制数量
  { $group: { _id: null, avg_amount: { $avg: "$amount" } } }
])

$or vs $in效率问题。在查询单个字段的多个值时,$in$or更高效。

// 低效
db.users.find({
  $or: [
    { role: "admin" },
    { role: "moderator" },
    { role: "editor" }
  ]
})

// 高效
db.users.find({ role: { $in: ["admin", "moderator", "editor"] } })

五、分布式表设计

5.1 分片策略概述

当单机MongoDB无法满足数据量和吞吐量需求时,就需要考虑分片(Sharding)架构。MongoDB通过分片实现水平扩展,将数据分布到多个服务器上。

分片集群的核心组件包括:**Shard(分片)**存储数据的子集,通常配置为副本集以保证高可用;**Config Server(配置服务器)**存储集群元数据,包括分片信息和数据块分布,必须部署为副本集(MongoDB 3.4+);**Mongos(查询路由器)**作为应用程序的入口,将查询请求路由到正确的分片,并合并返回结果。

MongoDB支持两种主要分片策略:范围分片(Range Sharding)哈希分片(Hashed Sharding)

5.2 哈希分片 vs 范围分片

范围分片根据片键值的范围将数据划分为连续的数据块(Chunk)。具有"接近"片键值的文档通常位于相同的Chunk或Shard中,这使得范围查询非常高效。但如果片键选择不当,容易产生热点,导致数据分布不均。

// 范围分片示例
sh.shardCollection("ecommerce.orders", { customer_id: 1, order_time: -1 })

范围分片适合以下场景:片键值不是单调递增或递减、片键基数大且重复频率低、需要频繁进行范围查询、业务上需要将相关数据放在一起。

哈希分片计算片键值的哈希值作为分片依据,可以将数据均匀分布到所有分片上。哈希分片特别适合写入分散的场景,但代价是无法高效进行范围查询,因为相邻的哈希值不一定对应相邻的实际值。

// 哈希分片示例
sh.shardCollection("ecommerce.orders", { customer_id: "hashed" })

哈希分片适合以下场景:片键值单调递增或递减(如时间戳、ObjectId)、需要将写入分散到多个分片、数据分布需要高度均匀。

复合片键结合了两种策略的优点,通过组合高基数字段和低基数字段,在数据均匀分布和查询局部性之间取得平衡。

// 复合片键示例:用户ID哈希 + 时间范围
sh.shardCollection("analytics.events", { user_id: "hashed", event_time: 1 })

5.3 片键选择原则

片键选择是分片设计中最关键的决定,一旦选择就不能修改。选择片键时需要考虑以下原则:

高基数原则:片键应具有尽可能多的唯一值。如果片键的唯一值数量少于分片数量,某些分片将永远得不到数据。避免使用枚举值、状态码等低基数字段作为唯一片键。

避免热点原则:单调递增或递减的片键会导致所有新数据都写入同一个分片,造成写入热点。例如,使用当前时间戳作为片键是典型的错误设计。

// 错误示例:时间戳作为片键导致写入热点
sh.shardCollection("logs.events", { timestamp: 1 })

// 正确示例:结合用户ID分散写入
sh.shardCollection("logs.events", { user_id: "hashed", timestamp: 1 })

查询局部性原则:将经常一起查询的数据放在同一个分片上,可以减少跨分片查询,提高查询效率。

字段顺序原则:在复合片键中,字段顺序很重要。第一个字段决定数据如何在分片间分布,后续字段决定数据在分片内部的排序方式。

// 如果查询经常按user_id和timestamp进行
// 这个片键设计是正确的
sh.shardCollection("analytics.page_views", { user_id: 1, timestamp: -1 })

// 查询 { user_id: "123" } 可以定位到单个分片
// 查询 { user_id: "123", timestamp: { $gte: ... } } 可以利用分片内索引

5.4 分片集群架构设计

片键规划流程

  1. 分析业务查询模式,确定最常见的查询条件
  2. 评估数据写入模式,确定是否存在热点风险
  3. 测试不同片键设计,验证数据分布均匀性
  4. 制定数据迁移预案,为未来可能的调整做准备
// 使用analyzeShardKey分析片键分布(MongoDB 7.0+)
db.adminCommand({
  analyzeShardKey: "ecommerce.orders",
  key: { customer_id: 1, order_time: -1 }
})

**预分片(Pre-splitting)**是在数据导入之前就创建好数据块分布,避免初始数据集中写入单个分片。

// 在导入大量数据之前,预分片
sh.enableSharding("ecommerce")
sh.shardCollection("ecommerce.orders", { customer_id: "hashed" })

// 手动分裂数据块
sh.splitAt("ecommerce.orders", { customer_id: NumberLong(0) })
sh.splitAt("ecommerce.orders", { customer_id: NumberLong("9223372036854775807") })

Balancer配置管理数据块在分片间的迁移平衡。默认情况下,Balancer会自动运行,但可以在业务低峰期设置窗口。

// 设置Balancer活动窗口
db.settings.updateOne(
  { _id: "balancer" },
  { $set: { activeWindow: { start: "23:00", stop: "06:00" } } },
  { upsert: true }
)

// 查看Balancer状态
sh.getBalancerState()
sh.isBalancerRunning()

5.5 分布式事务处理

MongoDB 4.0引入了副本集内的多文档事务,4.2引入了分片集群的多文档事务支持。事务允许在多个分片上执行原子操作,保证数据一致性。

// Node.js中使用事务
const session = client.startSession();

try {
  await session.withTransaction(async () => {
    // 扣减库存
    await inventoryCollection.updateOne(
      { product_id: productId, quantity: { $gte: 1 } },
      { $inc: { quantity: -1 } },
      { session }
    );

    // 创建订单
    await ordersCollection.insertOne(
      {
        product_id: productId,
        customer_id: customerId,
        quantity: 1,
        status: "pending"
      },
      { session }
    );
  });
} catch (error) {
  // 事务自动回滚
  console.error("Transaction failed:", error);
} finally {
  await session.endSession();
}

分布式事务使用注意事项:事务会增加延迟开销,应避免在热路径上使用大事务;使用readConcern: "snapshot"writeConcern: "majority"保证一致性;事务超时时间不宜过长,避免锁定过多资源。

六、多机器环境设计考虑

6.1 副本集设计

副本集(Replica Set)是MongoDB实现高可用和数据冗余的基础架构。副本集由一个Primary节点和多个Secondary节点组成,通过OPLOG(操作日志)实现异步复制。

副本集成员角色

  • Primary:接收所有写操作,是副本集中唯一可以接受写操作的节点
  • Secondary:从Primary复制OPLOG并应用到本地数据集,默认不可读不可写
  • Arbiter:仅参与投票,不存储数据,用于解决副本集成员数为偶数时的投票问题
  • Priority-0节点:不会成为Primary的Secondary节点,适用于跨数据中心部署
  • Hidden节点:对应用程序不可见,常用于备份或报告查询
// 副本集配置示例
{
  _id: "rs0",
  members: [
    { _id: 0, host: "node1:27017", priority: 2 },      // Primary候选
    { _id: 1, host: "node2:27017", priority: 1 },      // Secondary
    { _id: 2, host: "node3:27017", arbiterOnly: true }, // Arbiter
    { _id: 3, host: "node4:27017", priority: 0, hidden: true } // Hidden
  ]
}

6.2 读写分离设计

MongoDB副本集支持Read Preferences功能,可以将读操作分发到Secondary节点,分担Primary的读压力。

Read Preference模式

  • primary(默认):所有读操作在Primary执行,保证数据一致性
  • primaryPreferred:优先Primary,如果Primary不可用则读Secondary
  • secondary:所有读操作在Secondary执行,可能读到旧数据
  • secondaryPreferred:优先Secondary,如果无可用Secondary则读Primary
  • nearest:选择网络延迟最低的节点(不考虑数据新鲜度)
// Node.js mongodb-driver配置读偏好
const { MongoClient, ReadPreference } = require("mongodb");

// 连接字符串方式
const client = new MongoClient("mongodb://node1:27017,node2:27017/?readPreference=secondaryPreferred");

// 代码方式配置
const collection = client.db("ecommerce").collection("orders", {
  readPreference: ReadPreference.SECONDARY_PREFERRED
});

// Mongoose配置读偏好
mongoose.connect("mongodb://node1:27017,node2:27017/ecommerce", {
  readPreference: "secondaryPreferred"
});

读写分离注意事项

  • 读写分离会增加数据延迟风险,可能读到过期数据
  • 对于需要读取自己刚写入数据的场景,必须使用Primary读
  • 写入操作只能路由到Primary,无法分散
  • Secondary复制延迟会影响查询结果准确性

6.3 数据一致性考虑

MongoDB提供了多种Read Concern和Write Concern级别,开发者可以根据业务需求在一致性和性能之间做出选择。

Read Concern控制读取操作的数据视图:

  • local(默认):返回本地节点最新的数据,不保证已复制到多数节点
  • majority:返回被多数节点确认的数据,不会读到回滚的数据
  • linearizable:返回线性一致性数据,适用于要求强一致性的场景
  • snapshot:返回快照数据,适用于多文档事务
// Node.js配置Read Concern
const collection = client.db("ecommerce").collection("orders", {
  readConcern: { level: "majority" }
});

// Mongoose配置Read Concern
mongoose.connect("mongodb://node1:27017/ecommerce", {
  readConcern: { level: "majority" }
});

Write Concern控制写操作的确认级别:

  • w: 1(默认):等待Primary确认写入
  • w: majority:等待多数节点确认写入
  • w: :等待指定数量的节点确认
  • journal: true:等待Primary写入日志后再确认
// Node.js配置Write Concern
await collection.insertOne(
  { customer_id: "C001", amount: 299 },
  { writeConcern: { w: "majority", j: true, wtimeout: 5000 } }
);

// Mongoose配置Write Concern
await Order.create(
  { customer_id: "C001", amount: 299 },
  { writeConcern: { w: "majority" } }
);

强一致性配置:对于金融交易、库存扣减等要求强一致性的场景,应同时配置readConcern: "majority"writeConcern: "majority"

// 强一致性会话配置
const session = client.startSession();
session.startTransaction({
  readConcern: { level: "snapshot" },
  writeConcern: { w: "majority" }
});

6.4 负载均衡策略

在MongoDB副本集和分片集群中,负载均衡主要通过客户端驱动和Mongos实现。

连接池管理是负载均衡的基础。MongoDB客户端驱动维护一个连接池,连接会被复用到不同节点。

// Node.js mongodb-driver连接池配置
const client = new MongoClient("mongodb://node1:27017,node2:27017", {
  maxPoolSize: 100,        // 最大连接数
  minPoolSize: 10,         // 最小连接数
  maxIdleTimeMS: 30000,    // 空闲连接超时
  waitQueueTimeoutMS: 30000 // 等待连接超时
});

Tag-based Routing允许根据节点标签进行更精细的路由控制,适用于多数据中心部署场景。

// 为分片设置标签
sh.addShardTag("shard0000", "region-east")
sh.addShardTag("shard0001", "region-west")

// 设置片键与标签的映射
sh.addTagRange(
  "ecommerce.orders",
  { region: "east", _id: MinKey },
  { region: "east", _id: MaxKey },
  "region-east"
)

// 应用程序读取近端数据
const collection = client.db("ecommerce").collection("orders", {
  readPreference: { mode: "nearest", tags: [{ region: "east" }] }
});

6.5 容灾与高可用设计

副本集节点数量规划:生产环境建议使用至少3个数据节点,确保可以容忍1个节点故障而不影响服务。对于关键业务,可以考虑5-7个节点,允许在维护期间有节点下线而不影响可用性。

跨数据中心部署是提高容灾能力的重要手段。典型的部署模式包括:

  • 两地三中心:主数据中心部署2个节点,灾备中心部署1个节点,仲裁节点可放置在第三方位置
  • 三地五中心:在三个地理位置各部署1-2个节点,通过 Paxos 协议保证强一致性
// 跨数据中心副本集配置示例
{
  _id: "rs0",
  members: [
    // 主数据中心 - 2个节点
    { _id: 0, host: "dc1-node1:27017", priority: 3, tags: { dc: "primary" } },
    { _id: 1, host: "dc1-node2:27017", priority: 2, tags: { dc: "primary" } },
    // 灾备数据中心 - 2个节点
    { _id: 2, host: "dc2-node1:27017", priority: 1, tags: { dc: "dr" } },
    { _id: 3, host: "dc2-node2:27017", priority: 0, hidden: true, tags: { dc: "dr" } },
    // 仲裁节点
    { _id: 4, host: "dc3-node1:27017", arbiterOnly: true }
  ]
}

故障切换处理:当Primary节点故障时,副本集会自动进行选举,选出新的Primary。应用程序的驱动会自动处理重连,但应该配置合理的重试逻辑。

// Node.js mongodb-driver自动故障切换配置
const client = new MongoClient("mongodb://node1:27017,node2:27017,node3:27017", {
  replicaSet: "rs0",
  retryWrites: true,              // 自动重试失败的写入
  retryReads: true,               // 自动重试失败的读取
  serverSelectionTimeoutMS: 30000, // 服务器选择超时
  connectTimeoutMS: 10000         // 连接超时
});

七、Node.js代码实现

7.1 Mongoose连接与模型定义

以下是一个完整的Mongoose项目结构,展示了现代Node.js应用如何优雅地使用MongoDB。

// config/database.js
const mongoose = require('mongoose');

// MongoDB连接配置
const connectDB = async () => {
  try {
    const conn = await mongoose.connect(process.env.MONGODB_URI, {
      // 新版mongoose不需要这些选项,但保留以兼容旧版本
      maxPoolSize: 10,
      serverSelectionTimeoutMS: 5000,
      socketTimeoutMS: 45000,
    });

    console.log(`MongoDB Connected: ${conn.connection.host}`);

    // 监听连接事件
    mongoose.connection.on('error', (err) => {
      console.error('MongoDB connection error:', err);
    });

    mongoose.connection.on('disconnected', () => {
      console.warn('MongoDB disconnected. Will attempt to reconnect...');
    });

    return conn;
  } catch (error) {
    console.error('MongoDB connection failed:', error);
    process.exit(1);
  }
};

module.exports = connectDB;
// models/User.js
const mongoose = require('mongoose');
const bcrypt = require('bcryptjs');

const userSchema = new mongoose.Schema({
  username: {
    type: String,
    required: true,
    unique: true,
    lowercase: true,
    trim: true,
    minlength: 3,
    maxlength: 30,
    index: true
  },
  email: {
    type: String,
    required: true,
    unique: true,
    lowercase: true,
    trim: true
  },
  password: {
    type: String,
    required: true,
    minlength: 6,
    select: false // 默认不返回密码字段
  },
  profile: {
    firstName: String,
    lastName: String,
    avatar: String,
    bio: String
  },
  roles: [{
    type: String,
    enum: ['user', 'moderator', 'admin'],
    default: ['user']
  }],
  status: {
    type: String,
    enum: ['active', 'inactive', 'suspended'],
    default: 'active',
    index: true
  },
  preferences: {
    language: { type: String, default: 'en' },
    notifications: { type: Boolean, default: true },
    theme: { type: String, enum: ['light', 'dark'], default: 'light' }
  },
  lastLogin: Date,
  createdAt: {
    type: Date,
    default: Date.now,
    index: true
  },
  updatedAt: Date
}, {
  timestamps: true, // 自动管理createdAt和updatedAt
  toJSON: { virtuals: true },
  toObject: { virtuals: true }
});

// 复合索引
userSchema.index({ status: 1, createdAt: -1 });
userSchema.index({ email: 1, status: 1 });

// 稀疏唯一索引(仅对有email的用户强制唯一)
userSchema.index({ email: 1 }, { unique: true, sparse: true });

// 密码保存前加密
userSchema.pre('save', async function(next) {
  if (!this.isModified('password')) return next();

  try {
    const salt = await bcrypt.genSalt(12);
    this.password = await bcrypt.hash(this.password, salt);
    next();
  } catch (error) {
    next(error);
  }
});

// 密码比对方法
userSchema.methods.comparePassword = async function(candidatePassword) {
  return bcrypt.compare(candidatePassword, this.password);
};

// 获取公开用户信息
userSchema.methods.toPublicJSON = function() {
  return {
    id: this._id,
    username: this.username,
    email: this.email,
    profile: this.profile,
    roles: this.roles,
    status: this.status,
    createdAt: this.createdAt
  };
};

module.exports = mongoose.model('User', userSchema);

7.2 CRUD操作完整示例

// services/userService.js
const User = require('../models/User');
const { NotFoundError, ValidationError } = require('../utils/errors');

class UserService {
  /**
   * 创建用户
   */
  async createUser(userData) {
    // 检查邮箱唯一性
    const existingUser = await User.findOne({ email: userData.email });
    if (existingUser) {
      throw new ValidationError('Email already registered');
    }

    const user = new User(userData);
    await user.save();
    return user.toPublicJSON();
  }

  /**
   * 根据ID获取用户
   */
  async getUserById(userId) {
    const user = await User.findById(userId);
    if (!user) {
      throw new NotFoundError('User not found');
    }
    return user.toPublicJSON();
  }

  /**
   * 分页查询用户列表
   */
  async listUsers(options = {}) {
    const {
      page = 1,
      limit = 20,
      status,
      role,
      sortBy = 'createdAt',
      sortOrder = 'desc'
    } = options;

    const query = {};

    // 动态构建查询条件
    if (status) {
      query.status = status;
    }
    if (role) {
      query.roles = role;
    }

    // 计算分页
    const skip = (page - 1) * limit;
    const sort = { [sortBy]: sortOrder === 'desc' ? -1 : 1 };

    // 执行查询
    const [users, total] = await Promise.all([
      User.find(query)
        .select('-password')
        .sort(sort)
        .skip(skip)
        .limit(limit)
        .lean(), // 使用lean()返回普通JS对象,提升性能
      User.countDocuments(query)
    ]);

    return {
      data: users,
      pagination: {
        page,
        limit,
        total,
        pages: Math.ceil(total / limit)
      }
    };
  }

  /**
   * 更新用户
   */
  async updateUser(userId, updateData) {
    // 不允许通过此方法修改密码和邮箱
    const { password, email, ...safeUpdateData } = updateData;

    const user = await User.findByIdAndUpdate(
      userId,
      { $set: safeUpdateData },
      { new: true, runValidators: true }
    );

    if (!user) {
      throw new NotFoundError('User not found');
    }

    return user.toPublicJSON();
  }

  /**
   * 更新用户个人资料
   */
  async updateProfile(userId, profileData) {
    const user = await User.findByIdAndUpdate(
      userId,
      { $set: { profile: profileData } },
      { new: true, runValidators: true }
    );

    if (!user) {
      throw new NotFoundError('User not found');
    }

    return user.toPublicJSON();
  }

  /**
   * 修改密码
   */
  async changePassword(userId, currentPassword, newPassword) {
    const user = await User.findById(userId).select('+password');

    if (!user) {
      throw new NotFoundError('User not found');
    }

    const isMatch = await user.comparePassword(currentPassword);
    if (!isMatch) {
      throw new ValidationError('Current password is incorrect');
    }

    user.password = newPassword;
    await user.save();

    return { message: 'Password changed successfully' };
  }

  /**
   * 删除用户(软删除)
   */
  async deleteUser(userId) {
    const user = await User.findByIdAndUpdate(
      userId,
      { $set: { status: 'inactive' } },
      { new: true }
    );

    if (!user) {
      throw new NotFoundError('User not found');
    }

    return { message: 'User deactivated successfully' };
  }

  /**
   * 强制删除用户(硬删除)
   */
  async forceDeleteUser(userId) {
    const result = await User.findByIdAndDelete(userId);

    if (!result) {
      throw new NotFoundError('User not found');
    }

    return { message: 'User deleted successfully' };
  }
}

module.exports = new UserService();

7.3 索引创建与管理

// scripts/createIndexes.js
/**
 * MongoDB索引创建脚本
 * 生产环境建议在应用启动时执行,或使用MongoDB Enterprise的自动索引管理
 */

const mongoose = require('mongoose');

async function createIndexes() {
  console.log('Starting index creation...');

  const db = mongoose.connection.db;

  // === 用户集合索引 ===
  console.log('Creating indexes for users collection...');

  // 单字段索引
  await db.collection('users').createIndex(
    { username: 1 },
    { unique: true, background: true, name: 'username_unique' }
  );

  await db.collection('users').createIndex(
    { email: 1 },
    { unique: true, sparse: true, background: true, name: 'email_unique_sparse' }
  );

  await db.collection('users').createIndex(
    { status: 1, createdAt: -1 },
    { background: true, name: 'status_createdAt' }
  );

  // 部分索引:只为VIP用户建立优先支持索引
  await db.collection('users').createIndex(
    { lastLogin: -1 },
    {
      partialFilterExpression: { roles: 'vip' },
      background: true,
      name: 'vip_lastLogin'
    }
  );

  // === 订单集合索引 ===
  console.log('Creating indexes for orders collection...');

  // 复合索引(支持多种查询模式)
  await db.collection('orders').createIndex(
    { customer_id: 1, status: 1, created_at: -1 },
    { background: true, name: 'customer_status_created' }
  );

  await db.collection('orders').createIndex(
    { status: 1, created_at: -1 },
    { background: true, name: 'status_created' }
  );

  // 文本索引(订单搜索)
  await db.collection('orders').createIndex(
    { order_number: 'text', notes: 'text' },
    {
      weights: { order_number: 10, notes: 5 },
      background: true,
      name: 'order_text_search'
    }
  );

  // 地理空间索引(配送地址)
  await db.collection('orders').createIndex(
    { 'shipping_address.location': '2dsphere' },
    { background: true, name: 'shipping_location_2dsphere' }
  );

  // === 商品集合索引 ===
  console.log('Creating indexes for products collection...');

  // 多键索引(标签搜索)
  await db.collection('products').createIndex(
    { tags: 1 },
    { background: true, name: 'tags_multikey' }
  );

  // 属性模式索引
  await db.collection('products').createIndex(
    { 'attributes.key': 1, 'attributes.value': 1 },
    { background: true, name: 'attributes_key_value' }
  );

  // 变体收索引(JWT搜索)
  await db.collection('products').createIndex(
    { name: 'text', description: 'text' },
    {
      weights: { name: 5, description: 1 },
      background: true,
      name: 'product_text_search'
    }
  );

  console.log('Index creation completed!');

  // 输出所有索引
  console.log('\nAll indexes in the database:');
  const collections = ['users', 'orders', 'products'];
  for (const coll of collections) {
    const indexes = await db.collection(coll).getIndexes();
    console.log(`\n${coll}:`, JSON.stringify(indexes, null, 2));
  }
}

// 运行索引创建
if (require.main === module) {
  mongoose.connect(process.env.MONGODB_URI)
    .then(() => createIndexes())
    .then(() => {
      console.log('\nDone!');
      process.exit(0);
    })
    .catch((err) => {
      console.error('Failed:', err);
      process.exit(1);
    });
}

module.exports = { createIndexes };

7.4 聚合查询实战

// services/analyticsService.js
/**
 * 聚合查询服务 - 展示MongoDB聚合管道的高级用法
 */

const Order = require('../models/Order');
const Product = require('../models/Product');
const mongoose = require('mongoose');

class AnalyticsService {
  /**
   * 销售日报统计
   */
  async getDailySalesReport(date) {
    const startOfDay = new Date(date);
    startOfDay.setHours(0, 0, 0, 0);

    const endOfDay = new Date(date);
    endOfDay.setHours(23, 59, 59, 999);

    return Order.aggregate([
      // 阶段1: 过滤指定日期的订单
      {
        $match: {
          created_at: { $gte: startOfDay, $lte: endOfDay },
          status: { $in: ['completed', 'shipped', 'delivered'] }
        }
      },

      // 阶段2: 展开订单商品
      { $unwind: '$items' },

      // 阶段3: 按小时分组统计
      {
        $group: {
          _id: {
            hour: { $hour: '$created_at' },
            category: '$items.category'
          },
          revenue: { $sum: { $multiply: ['$items.price', '$items.quantity'] } },
          orders: { $sum: 1 },
          quantity: { $sum: '$items.quantity' }
        }
      },

      // 阶段4: 进一步聚合按小时
      {
        $group: {
          _id: '$_id.hour',
          categories: {
            $push: {
              category: '$_id.category',
              revenue: '$revenue',
              quantity: '$quantity'
            }
          },
          totalRevenue: { $sum: '$revenue' },
          totalOrders: { $sum: '$orders' },
          totalQuantity: { $sum: '$quantity' }
        }
      },

      // 阶段5: 排序
      { $sort: { _id: 1 } },

      // 阶段6: 添加日终统计
      {
        $group: {
          _id: null,
          hourlyData: { $push: '$$ROOT' },
          totalRevenue: { $sum: '$totalRevenue' },
          totalOrders: { $sum: '$totalOrders' },
          totalQuantity: { $sum: '$totalQuantity' },
          avgOrderValue: { $avg: '$totalRevenue' }
        }
      },

      // 阶段7: 格式化输出
      {
        $project: {
          _id: 0,
          date: { $literal: date.toISOString().split('T')[0] },
          hourlyData: 1,
          summary: {
            totalRevenue: { $round: ['$totalRevenue', 2] },
            totalOrders: 1,
            totalQuantity: 1,
            avgOrderValue: { $round: ['$avgOrderValue', 2] }
          }
        }
      }
    ]);
  }

  /**
   * 用户购买行为分析
   */
  async getUserPurchaseAnalysis(customerId) {
    return Order.aggregate([
      // 过滤用户订单
      { $match: { customer_id: new mongoose.Types.ObjectId(customerId) } },

      // 计算用户订单统计
      {
        $group: {
          _id: '$customer_id',
          totalOrders: { $sum: 1 },
          totalSpent: { $sum: '$total_amount' },
          avgOrderValue: { $avg: '$total_amount' },
          firstOrderDate: { $min: '$created_at' },
          lastOrderDate: { $max: '$created_at' },
          favoriteCategory: { $push: '$items.category' }
        }
      },

      // 展开类别数组并统计
      { $unwind: '$favoriteCategory' },

      {
        $group: {
          _id: '$_id',
          totalOrders: { $first: '$totalOrders' },
          totalSpent: { $first: '$totalSpent' },
          avgOrderValue: { $first: '$avgOrderValue' },
          firstOrderDate: { $first: '$firstOrderDate' },
          lastOrderDate: { $first: '$lastOrderDate' },
          categoryCounts: {
            $push: {
              category: '$favoriteCategory',
              count: 1
            }
          }
        }
      },

      // 进一步聚合类别统计
      { $unwind: '$categoryCounts' },

      {
        $group: {
          _id: { customerId: '$_id', category: '$categoryCounts.category' },
          count: { $sum: '$categoryCounts.count' }
        }
      },

      {
        $group: {
          _id: '$_id.customerId',
          categoryDistribution: {
            $push: {
              category: '$_id.category',
              orderCount: '$count'
            }
          },
          totalOrders: { $first: '$totalOrders' },
          totalSpent: { $first: '$totalSpent' },
          avgOrderValue: { $first: '$avgOrderValue' },
          customerSince: { $first: '$firstOrderDate' },
          lastPurchaseDate: { $first: '$lastOrderDate' }
        }
      },

      // 排序类别分布
      {
        $project: {
          _id: 0,
          customerId: '$_id',
          totalOrders: 1,
          totalSpent: { $round: ['$totalSpent', 2] },
          avgOrderValue: { $round: ['$avgOrderValue', 2] },
          customerSince: { $dateToString: { format: '%Y-%m-%d', date: '$customerSince' } },
          lastPurchaseDate: { $dateToString: { format: '%Y-%m-%d', date: '$lastPurchaseDate' } },
          categoryDistribution: {
            $slice: [
              {
                $sortArray: {
                  input: '$categoryDistribution',
                  sortBy: { orderCount: -1 }
                }
              },
              5 // 只返回TOP 5类别
            ]
          }
        }
      }
    ]);
  }

  /**
   * 多集合关联查询:获取订单及关联用户信息
   * 展示$lookup的多种用法
   */
  async getOrdersWithCustomerInfo(orderIds) {
    return Order.aggregate([
      // 过滤指定订单
      { $match: { _id: { $in: orderIds } } },

      // 关联用户信息(新语法pipeline)
      {
        $lookup: {
          from: 'users',
          let: { customerId: '$customer_id' },
          pipeline: [
            {
              $match: {
                $expr: { $eq: ['$_id', '$$customerId'] }
              }
            },
            {
              $project: {
                username: 1,
                email: 1,
                profile: 1,
                _id: 0
              }
            }
          ],
          as: 'customer'
        }
      },

      // 展开用户数组
      { $unwind: { path: '$customer', preserveNullAndEmptyArrays: true } },

      // 关联商品信息
      {
        $lookup: {
          from: 'products',
          let: { productIds: '$items.product_id' },
          pipeline: [
            {
              $match: {
                $expr: { $in: ['$_id', '$$productIds'] }
              }
            },
            {
              $project: {
                name: 1,
                sku: 1,
                price: 1,
                _id: 1
              }
            }
          ],
          as: 'productDetails'
        }
      },

      // 重新构造items数组,添加商品详情
      {
        $addFields: {
          items: {
            $map: {
              input: '$items',
              as: 'item',
              in: {
                $mergeObjects: [
                  '$$item',
                  {
                    $arrayElemAt: [
                      {
                        $filter: {
                          input: '$productDetails',
                          as: 'p',
                          cond: { $eq: ['$$p._id', '$$item.product_id'] }
                        }
                      },
                      0
                    ]
                  }
                ]
              }
            }
          }
        }
      },

      // 删除临时字段
      { $project: { productDetails: 0 } }
    ]);
  }

  /**
   * 时间序列分析:按月统计趋势
   */
  async getMonthlyTrend(months = 12) {
    const startDate = new Date();
    startDate.setMonth(startDate.getMonth() - months);
    startDate.setDate(1);
    startDate.setHours(0, 0, 0, 0);

    return Order.aggregate([
      // 过滤时间范围内的订单
      {
        $match: {
          created_at: { $gte: startDate },
          status: { $in: ['completed', 'shipped', 'delivered'] }
        }
      },

      // 按年月分组
      {
        $group: {
          _id: {
            year: { $year: '$created_at' },
            month: { $month: '$created_at' }
          },
          revenue: { $sum: '$total_amount' },
          orders: { $sum: 1 },
          customers: { $addToSet: '$customer_id' },
          avgOrderValue: { $avg: '$total_amount' }
        }
      },

      // 计算唯一客户数
      {
        $addFields: {
          uniqueCustomers: { $size: '$customers' }
        }
      },

      // 删除customers数组(不再需要)
      { $project: { customers: 0 } },

      // 排序
      { $sort: { '_id.year': 1, '_id.month': 1 } },

      // 格式化输出
      {
        $project: {
          _id: 0,
          period: {
            $concat: [
              { $toString: '$_id.year' },
              '-',
              {
                $cond: [
                  { $lt: ['$_id.month', 10] },
                  { $concat: ['0', { $toString: '$_id.month' }] },
                  { $toString: '$_id.month' }
                ]
              }
            ]
          },
          revenue: { $round: ['$revenue', 2] },
          orders: 1,
          uniqueCustomers: 1,
          avgOrderValue: { $round: ['$avgOrderValue', 2] }
        }
      }
    ]);
  }
}

module.exports = new AnalyticsService();

7.5 分片集群配置示例

// scripts/setupSharding.js
/**
 * MongoDB分片集群配置脚本
 * 此脚本演示如何配置分片集合和设置片键
 */

const mongoose = require('mongoose');

async function setupSharding() {
  const adminDb = mongoose.connection.db.admin();

  console.log('=== MongoDB Sharding Setup ===\n');

  // 1. 启用数据库分片
  console.log('1. Enabling sharding for database...');
  await adminDb.command({ enableSharding: 'ecommerce' });
  console.log('   Sharding enabled for "ecommerce" database\n');

  // 2. 为大集合配置分片
  console.log('2. Sharding collections...\n');

  // 订单集合 - 使用哈希分片(高写入场景)
  console.log('   Sharding "orders" collection with hashed shard key...');
  await adminDb.command({
    shardCollection: 'ecommerce.orders',
    key: { customer_id: 'hashed' }
  });
  console.log('   orders collection sharded by customer_id (hashed)\n');

  // 用户集合 - 使用范围分片(需要按用户ID范围查询)
  console.log('   Sharding "users" collection with ranged shard key...');
  await adminDb.command({
    shardCollection: 'ecommerce.users',
    key: { _id: 1 }
  });
  console.log('   users collection sharded by _id (ranged)\n');

  // 日志集合 - 使用复合片键(用户+时间)
  console.log('   Sharding "logs" collection with compound shard key...');
  await adminDb.command({
    shardCollection: 'ecommerce.logs',
    key: { user_id: 'hashed', timestamp: -1 }
  });
  console.log('   logs collection sharded by user_id (hashed) + timestamp\n');

  // 3. 配置Tag-based Routing(可选)
  console.log('3. Configuring tag-based routing...\n');

  // 假设我们有shard0000(东部)和shard0001(西部)
  try {
    await adminDb.command({
      addShardTag: 'shard0000',
      tag: 'region-east'
    });
    await adminDb.command({
      addShardTag: 'shard0001',
      tag: 'region-west'
    });
    console.log('   Shard tags configured\n');
  } catch (error) {
    console.log('   Tag configuration skipped (may already exist)\n');
  }

  // 4. 查看分片状态
  console.log('4. Current sharding status...\n');
  const status = await adminDb.command({ shardCollection: 'ecommerce.orders' });
  console.log(JSON.stringify(status, null, 2));

  // 5. 预分片(对于哈希分片)
  console.log('\n5. Pre-splitting chunks for better distribution...\n');

  // 手动分裂数据块以加速初始数据导入
  const chunks = [
    { id: 'chunk-1', min: { customer_id: MinKey }, max: { customer_id: NumberLong('4611686018427387903') } },
    { id: 'chunk-2', min: { customer_id: NumberLong('4611686018427387903') }, max: { customer_id: NumberLong('9223372036854775806') } },
    { id: 'chunk-3', min: { customer_id: NumberLong('9223372036854775806') }, max: { customer_id: MaxKey } }
  ];

  for (const chunk of chunks) {
    try {
      await adminDb.command({
        split: 'ecommerce.orders',
        middle: chunk.min
      });
      console.log(`   Split created at ${JSON.stringify(chunk.min)}`);
    } catch (error) {
      // 分裂点可能已存在,忽略错误
    }
  }

  console.log('\n=== Sharding Setup Complete ===');
}

// 运行脚本
if (require.main === module) {
  const config = {
    replSet: process.env.REPLICA_SET ?
      `${process.env.MONGODB_URI}?replicaSet=${process.env.REPLICA_SET}` :
      process.env.MONGODB_URI
  };

  mongoose.connect(config.replSet || 'mongodb://localhost:27017/admin')
    .then(() => setupSharding())
    .then(() => {
      console.log('\nDone!');
      process.exit(0);
    })
    .catch((err) => {
      console.error('Failed:', err);
      process.exit(1);
    });
}

module.exports = { setupSharding };

7.6 副本集高可用配置

// config/replicaSet.js
const { MongoClient, ReadPreference, ReplSetOptions } = require('mongodb');

/**
 * 创建副本集连接客户端
 * 支持自动故障切换和读写分离
 */

const MONGODB_URI = process.env.MONGODB_URI ||
  'mongodb://node1:27017,node2:27017,node3:27017/?replicaSet=rs0';

// 客户端配置
const clientOptions = {
  // 副本集配置
  replicaSet: 'rs0',

  // 连接池配置
  maxPoolSize: 50,
  minPoolSize: 10,
  maxIdleTimeMS: 30000,

  // 超时配置
  connectTimeoutMS: 10000,
  socketTimeoutMS: 45000,
  serverSelectionTimeoutMS: 30000,
  localThresholdMS: 15, // 15ms内的节点被视为"最近"

  // 重试配置
  retryWrites: true,
  retryReads: true,

  // Write Concern
  writeConcern: {
    w: 'majority',
    j: true,
    wtimeout: 10000
  },

  // Read Concern
  readConcern: {
    level: 'majority'
  }
};

/**
 * 获取不同读偏好的集合
 */
function getCollections(db) {
  return {
    // 默认集合(强一致性读取)
    default: db.collection('orders'),

    // 优先Secondary(用于报表、分析等可容忍一定延迟的场景)
    reporting: db.collection('orders', {
      readPreference: ReadPreference.SECONDARY_PREFERRED
    }),

    // Nearest节点(低延迟但不一致)
    realtime: db.collection('orders', {
      readPreference: ReadPreference.NEAREST
    }),

    // 仅Primary(敏感操作)
    critical: db.collection('orders', {
      readPreference: ReadPreference.PRIMARY
    })
  };
}

/**
 * 创建客户端连接
 */
async function createReplSetClient() {
  const client = new MongoClient(MONGODB_URI, clientOptions);

  // 监听事件
  client.on('close', () => {
    console.log('MongoDB replica set connection closed');
  });

  client.on('serverHeartbeatSuccessful', (event) => {
    console.log(`Heartbeat succeeded to ${event.connectionId}`);
  });

  client.on('serverHeartbeatFailed', (event) => {
    console.error(`Heartbeat failed to ${event.connectionId}`);
  });

  // 连接到副本集
  await client.connect();

  // 验证副本集状态
  const admin = client.db('admin');
  const { ok, hosts } = await admin.command({ replSetGetStatus: 1 });
  console.log(`Connected to replica set. Members: ${hosts.join(', ')}`);

  return client;
}

/**
 * 事务执行帮助函数
 */
async function executeTransaction(client, callback) {
  const session = client.startSession();

  try {
    let result;
    await session.withTransaction(async () => {
      result = await callback(session);
    }, {
      readConcern: { level: 'snapshot' },
      writeConcern: { w: 'majority' },
      readPreference: ReadPreference.PRIMARY
    });
    return result;
  } finally {
    await session.endSession();
  }
}

module.exports = {
  createReplSetClient,
  getCollections,
  executeTransaction,
  MONGODB_URI
};

八、最佳实践与反模式对比

8.1 Schema设计最佳实践对比

场景反模式最佳实践理由
一对多(少量)使用引用模式,创建多个查询嵌入文档到主文档减少查询次数,提高性能
一对多(大量)无限嵌入数组使用桶模式或引用模式避免文档过大,控制数组长度
多对多关系创建中间集合使用ObjectId数组引用灵活且易于维护
频繁修改字段嵌入大对象使用引用模式减少文档移动和锁竞争
状态枚举查询无索引建立稀疏索引或部分索引减少索引开销

8.2 索引设计最佳实践对比

场景反模式最佳实践理由
多字段等值查询创建多个单字段索引创建复合索引,精确匹配字段放前面利用最左前缀原则
排序和过滤先排序后过滤先过滤后排序,过滤字段放在索引前面减少排序数据量
文本搜索使用正则表达式使用文本索引正则前导通配符无法使用索引
高选择字段单独建立索引与其他字段建立复合索引复合索引可同时优化多种查询
可选字段查询为所有值建立索引使用部分索引或稀疏索引减少索引存储和写入开销

8.3 查询优化最佳实践对比

场景反模式最佳实践理由
分页查询使用skip深度分页使用游标分页或基于ID的分页skip需要扫描并丢弃大量数据
聚合统计先查询再程序端聚合使用聚合管道,利用$group等减少网络传输,充分利用数据库计算能力
关联查询多次查询应用层关联使用$lookup(带pipeline)减少数据库往返,利用索引
大数据导出一次性返回所有数据使用游标分批处理或allowDiskUse避免内存溢出
模糊搜索使用$regex全表扫描使用文本索引或Elasticsearch全文索引专为搜索优化

九、结论与展望

9.1 核心要点总结

本博客系统性地探讨了MongoDB 7.x/8.x版本在表设计、索引优化、查询优化、分布式架构和高可用设计等方面的最新实践。

表设计方面,MongoDB的文档模型为数据建模提供了极大的灵活性,但开发者需要深刻理解嵌入文档与引用文档的适用场景,并善于运用属性模式、桶模式、异常值模式等成熟设计模式来应对复杂业务场景。

索引优化方面,合理设计复合索引、利用部分索引和稀疏索引的特性、确保查询覆盖索引是提升查询性能的关键。定期审查索引使用情况、清理无效索引是保持系统高性能的必要工作。

查询优化方面,explain()方法是诊断查询性能问题的首要工具,聚合管道的优化需要遵循"早期过滤"原则,而对深分页等常见陷阱的规避需要开发者在架构层面就有清晰的认知。

分布式架构方面,片键选择是分片设计中最关键的决策,需要综合考虑数据分布均匀性、写入分散性和查询局部性。副本集的高可用设计需要关注节点数量、跨数据中心部署和数据一致性配置。

9.2 MongoDB 8.0展望

MongoDB 8.0带来的性能提升和创新功能为开发者打开了新的可能性。32%的读取吞吐量提升和56%的批量写入提升意味着相同的硬件配置可以支撑更大的业务规模。200%的时间序列数据聚合处理速度提升使得MongoDB在物联网和实时分析场景更具竞争力。

可查询加密功能的扩展是安全领域的重要突破,允许在不牺牲数据可用性的前提下保护敏感信息。这对于金融、医疗等强监管行业的应用开发具有重大意义。

Atlas Vector Search与量化向量的结合使得MongoDB在AI应用领域占据了有利位置,开发者可以在同一个数据库平台上完成传统业务数据管理和向量语义搜索。

展望未来,MongoDB将持续在性能、安全性和开发者体验方面进行创新。分布式SQL、多云部署和自动化运维将是MongoDB未来发展的重要方向。

参考资料

[1] MongoDB 8.0发布:企业级数据库的全新突破与应用前景 - 详细介绍了MongoDB 8.0的性能提升和新功能

[2] MongoDB 7.0新特性_云数据库 MongoDB 版 - 阿里云官方文档,MongoDB 7.0新特性权威说明

[3] MongoDB开发规范与数据建模详解 - 技术博客,MongoDB开发规范和数据建模最佳实践

[4] MongoDB分片策略与片键选择 - 技术问答平台,MongoDB分片策略实践指南

[5] MongoDB查询计划分析详解 - 知乎技术文章,MongoDB explain方法详细解析

[6] MongoDB聚合管道优化指南 - 掘金技术社区,聚合管道优化实践

[7] MongoDB部分索引与稀疏索引 - MongoDB官方文档,索引类型详细说明

[8] MongoDB副本集读写分离设计 - 天翼云技术社区,副本集读写分离实践

[9] Mongoose官方文档 - Mongoose ODM官方文档,Node.js MongoDB开发权威指南

[10] MongoDB Node.js Driver官方文档 - MongoDB官方Node.js驱动文档