使用 MongoDB 作为任务队列：场景分析与实践方案在大规模数据查询的场景中，任务队列常被用来管理任务的分发与状态记录

在大规模数据查询的场景中，任务队列常被用来管理任务的分发与状态记录。常见方案包括 Redis 和 Kafka，但这些方案在特定需求下存在局限性。本文将探讨如何使用 MongoDB 构建任务队列管理系统，并基于实际案例展示其实现与优化。

应用场景

场景描述

某企业需要对大量企业的工商基本信息进行批量查询，以支持风控评估和信用分析。这种任务通常具有以下特点：

任务分发：需要高效地将任务分发给不同的处理器，避免重复查询。
任务状态管理：需要记录任务的处理状态（待处理、处理中、完成等），便于实时监控任务进展。
灵活任务清理：可能需要按企业名称、查询批次、创建时间等条件清理或调整任务。
复杂任务查询：任务状态、企业基本信息质量等都需要支持灵活查询与修改。

为什么选择 MongoDB

1. 灵活查询支持

MongoDB 支持多条件查询和全文索引，可以轻松实现按企业名称、状态、批次等条件的任务查询和清理。

2. 数据记录灵活性

MongoDB 文档模型允许将任务的详细信息（如企业名称、查询状态、批次等）存储在同一个文档中，而 Redis 则需要对这些信息进行拆分存储，逻辑复杂。

3. 性能满足需求

在批量数据查询场景下，MongoDB 的查询和更新性能能够满足任务队列的处理需求，同时支持更复杂的查询和索引设计。

4. 简化开发逻辑

相比 Redis 的队列操作，MongoDB 更适合需要频繁修改、查询任务的场景，无需额外的缓存与逻辑拆分。

任务并发与原子性问题

在并发场景中，可能出现任务被重复处理或未及时更新的问题。为此，可以采用以下方法解决：

方法 1：文件锁方式

利用 MongoDB 的 findAndModify 方法实现任务分发的原子性：

查询并更新任务：

db.tasks.findOneAndUpdate(
    { status: "pending" }, // 查询待处理任务
    { $set: { status: "processing", updated_at: new Date() } }, // 更新状态为处理中
    { sort: { priority: -1, created_at: 1 } } // 优先分配优先级高且创建时间早的任务
);

完成任务后更新状态：

db.tasks.updateOne(
    { _id: task_id },
    { $set: { status: "done", updated_at: new Date(), result: "查询完成" } }
);

方法 2：任务派发模式

通过后端专用进程负责任务分发和状态更新：

后端进程定时从 MongoDB 查询未完成的任务，并将任务分配给查询服务。
查询服务处理任务后，调用接口更新任务状态为完成或失败。

MongoDB 任务队列的设计方案

任务集合设计

以下设计专注于企业信息查询任务的场景，任务集合包含如下字段：

{
  "_id": "唯一任务标识",
  "enterprise_name": "企业名称",
  "query_status": "pending/processing/done",
  "batch_id": "查询批次",
  "priority": 1,
  "created_at": "任务创建时间",
  "updated_at": "最后更新时间",
  "result": "查询结果或备注信息"
}

_id：唯一标识任务，防止重复。
enterprise_name：企业名称，支持按名称查询任务。
query_status：任务状态字段，标记任务的进度。
batch_id：查询批次，用于标记任务的来源和组织。
priority：任务优先级，便于优先处理重要任务。
created_at 和 updated_at：记录任务创建和最后更新的时间。
result：存储查询的结果或备注信息。

任务管理的实现

1. 添加任务

新任务可以通过批量插入方式加入队列：

db.tasks.insertMany([
    { 
        enterprise_name: "企业A",
        query_status: "pending",
        batch_id: "batch_001",
        priority: 1,
        created_at: new Date(),
        updated_at: new Date()
    },
    { 
        enterprise_name: "企业B",
        query_status: "pending",
        batch_id: "batch_001",
        priority: 2,
        created_at: new Date(),
        updated_at: new Date()
    }
]);

2. 查询任务

按条件查询待处理任务，例如查询批次为 batch_001 的待处理任务：

db.tasks.find({ batch_id: "batch_001", query_status: "pending" });

3. 删除任务

根据企业名称或批次条件清理任务，例如删除批次为 batch_001 且已完成的任务：

db.tasks.deleteMany({ batch_id: "batch_001", query_status: "done" });

4. 更新任务

支持修改任务状态和结果：

db.tasks.updateOne(
    { _id: task_id },
    { 
        $set: { 
            query_status: "done", 
            updated_at: new Date(),
            result: "查询成功" 
        } 
    }
);

性能优化建议

索引设计：为高频查询字段（如 query_status、enterprise_name、batch_id）创建复合索引，提升查询效率：
```
db.tasks.createIndex({ query_status: 1, batch_id: 1, priority: -1 });
```

任务归档：定期将完成的任务归档至历史集合，减少主任务集合的体积：

db.tasks.aggregate([
    { $match: { query_status: "done", updated_at: { $lt: new Date(ISODate().getTime() - 7*24*60*60*1000) } } },
    { $out: "archived_tasks" }
]);
db.tasks.deleteMany({ query_status: "done" });

优先级调度：在任务分发时优先处理高优先级任务：

db.tasks.findOneAndUpdate(
    { query_status: "pending" },
    { $set: { query_status: "processing", updated_at: new Date() } },
    { sort: { priority: -1, created_at: 1 } }
);

总结

在大规模企业信息查询场景中，MongoDB 提供了高效、灵活的任务管理能力。相比 Redis 等传统消息队列，MongoDB 更适合需要复杂查询和灵活状态管理的任务队列场景。通过合理设计任务集合、操作逻辑以及索引优化，可以有效提高任务处理效率，并避免重复处理问题。

MongoDB 的文档模型和强大的查询功能，使其在复杂任务管理中具有显著优势。如果您的任务队列需求涉及批量操作、状态查询或清理管理，MongoDB 是一个值得尝试的解决方案。

参考资料: