Django QuerySet 懒加载与缓存机制源码级拆解文档

10 阅读2分钟

Django QuerySet 懒加载与缓存机制源码级拆解文档
(基于 Django 4.2.7 + CPython 3.11)


1 阅读指引

  • 目标:彻底讲清“为什么第一次 for article in articles: 才会真正发 SQL”
  • 深度:从 Python for 字节码 → Django 源码 → 数据库驱动调用栈
  • 用法:可复制到内部 Wiki 或直接发博客,代码块均可运行

2 一句话结论

QuerySet 只在第一次被迭代时才会拼 SQL、访问数据库;
之后无论再 forlen()bool()list() 都直接读内存缓存。
这是通过“Python 迭代协议 → QuerySet.iter() → _fetch_all()”链式触发实现的。


3 总览时序图

for article in articles
    ├─ articles.__iter__()          # QuerySet 级别
    │   ├─ self._fetch_all()        # 懒加载闸门
    │   │   ├─ self._result_cache = list(self.iterator())
    │   │   │   └─ self.iterator()  # 拼 SQL + 调驱动
    │   │   │       ├─ compiler.as_sql()
    │   │   │       └─ cursor.execute(sql, params)
    │   │   └─ 行→Model 实例
    │   └─ 返回 iter(self._result_cache)
    └─ next() 拿实例

( gates:只有 _fetch_all()self._result_cache is None 才会走数据库)


4 环境准备

git clone https://github.com/django/django.git
cd django && git checkout 4.2.7
pip install -e .

5 源码拆解

5.1 入口:QuerySet.iter
文件:django/db/models/query.py #L394

class QuerySet:
    def __iter__(self):
        self._fetch_all()           # ① 保证数据已加载
        return iter(self._result_cache)  # ② 返回列表迭代器

5.2 闸门:_fetch_all()
文件:同文件 #L1903

def _fetch_all(self):
    if self._result_cache is None:     # 仅第一次为 None
        self._result_cache = list(self.iterator())
  • 之后无论 len()bool()list() 都直接读 self._result_cache
  • list(self.iterator()) 会一次性把数据库行读进内存

5.3 真正拼 SQL:iterator()
文件:同文件 #L368

def iterator(self, chunk_size=2000):
    compiler = self.query.get_compiler(using=self.db)
    for row in compiler.results_iter(chunk_size=chunk_size):
        yield self.model.from_db(self.db, self.model._meta.fields, row)
  • compiler.results_iter()cursor.execute(sql, params) # 见下节

5.4 数据库调用点
文件:django/db/models/sql/compiler.py #L1511

def results_iter(self, chunk_size=None):
    cursor = self.connection.cursor()
    cursor.execute(sql, params)          # ← 真正发 SQL
    for rows in self.cursor_iter(cursor, chunk_size):
        for row in rows:
            yield row

6 Python 层:for 怎么调到 iter

CPython 字节码

GET_ITER        # 等价于 iter(obj) → obj.__iter__()
FOR_ITER        # 不断 next(it)

GET_ITER 源码 (Python/ceval.c) 固定走 PyObject_GetIter → tp_iter → __iter__
因此任何可迭代对象只要实现 __iter__ 就会被 for 触发;
QuerySet 正是利用这一点把“迭代”挂钩到 _fetch_all()


7 缓存验证实验

from django import db
from blog.models import Article

articles = Article.objects.filter(status='published')
print(articles._result_cache)   # None

for a in articles:              # 第一次迭代
    pass
print(len(db.connection.queries))  # 1 条 SQL
print(articles._result_cache)   # [<Article:...>, ...]

for a in articles:              # 第二次迭代
    print(a.title)              # 不再发 SQL
print(len(db.connection.queries))  # 仍是 1 条

8 常见误区速查表

操作是否立即查库备注
Article.objects.all()只创建 QuerySet
qs.filter(...)返回新 QuerySet
qs.order_by(...)同上
qs[10]切片会触发 _fetch_all
bool(qs)会调用 __bool__→_fetch_all
len(qs)会调用 __len__→_fetch_all
list(qs)直接 list() 会迭代
for x in qs:第一次迭代
再次 for x in qs:用缓存

9 小结口诀

QuerySet 是“惰性链表”——
链上每一步都只是“记录条件”,
直到第一次迭代才把整个链编译成 SQL 拉进内存
拉完后结果装进 _result_cache
往后任何姿势的遍历都不再打扰数据库