被 “第 100 万页查询” 问懵？这篇 MySQL 优化干货，从超时 10s 到 0.01s！MySQL 第 100 万页查询优化，我踩遍坑总结的终极方案

面试时回答 “第 100 万页数据怎么查”，核心逻辑是：先点透底层本质→按 “技术优化 + 业务落地” 分层给方案→补充版本特性 + 落地权衡，既体现原理认知，又展示实战思维，还能暴露深度。以下是可直接套用的答题框架（带口语化表达，自然不生硬）：

一、先破题：点出问题本质（让面试官知道你懂底层）

“面试官您好，首先我想明确：MySQL 中直接用limit 1000000, 10查第 100 万页会很慢，核心原因是 MySQL 的分页机制是‘扫描 + 丢弃’—— 它会先扫描前 1000010 条数据，丢掉前 100 万条，只返回最后 10 条，页码越靠后，无意义扫描越多，性能呈指数级下降。所以优化的核心目标是：避免大范围无效扫描，同时结合业务场景降低查询压力。”

二、核心方案：先给技术优化（落地性强，优先说大厂常用方案）

我会按 “优先级 + 适用场景” 排序，从常用到灵活依次说明：

1. 首选：游标式分页（cursor-based pagination）—— 大厂 API 主流方案

“最推荐的是游标分页，也是很多大厂 APP / 接口的默认方案，核心思路是‘以上一页最后一条数据的索引字段为锚点，替代 offset’。比如订单表按created_at排序，要查第 100 万页（实际是‘上一页之后的 10 条’），SQL 会这么写：

select * from orders where created_at > '上一页最后一条的created_at' and id > '上一页最后一条的id' order by created_at asc, id asc limit 10;

这里加id是为了避免created_at重复导致的数据漏查（比如同一秒有多个订单）。原理：利用created_at+id的复合索引，直接定位到锚点之后的数据，无需扫描前面的 100 万条，性能最优。适用场景：移动端下拉刷新、无限滚动（只需要上 / 下一页，不需要随机跳页），完全适配‘第 100 万页’这种超大分页场景。”

2. 备选：索引定位起点（适合支持简单跳页的场景）

“如果业务需要支持少量跳页（比如 PC 端后台），可以用‘索引定位’替代 offset。比如按主键 id 排序，已知第 999999 页的最后一条 id 是 1000000，查第 100 万页直接写：

select * from orders where id > 1000000 limit 10;

原理：主键 id 是聚簇索引，MySQL 能直接通过索引定位到 id>1000000 的起点，跳过前面的无效数据，比直接 limit 快一个量级。注意：需要分页字段（如 id、created_at）有索引，且排序规则固定（正序 / 倒序）；如果是多字段排序（如‘金额 + 创建时间’），需要建对应的复合索引（比如index (amount, created_at)）。”

3. 补充：延迟关联（子查询 + join）—— 需要返回多字段时用

“如果分页需要查询表中所有字段（不止主键），且排序字段不是主键，可用延迟关联，核心是‘先查索引字段（主键），再回表查完整数据’，减少回表范围。示例 SQL：

select o.* from orders o join ( -- 子查询只走索引（created_at+id），快速获取目标数据的主键 select id from orders where created_at >= '2023-01-01' order by created_at asc, id asc limit 1000000, 10 ) t on o.id = t.id;

原理：子查询仅扫描索引页，不需要回表，执行速度快；主查询只关联 10 条主键，回表成本极低，比直接select * limit 1000000,10快几十倍。适用场景：多字段查询、排序字段非主键，但不支持超大数据量的随机跳页（子查询的 limit 仍会扫描索引，但比全表扫描好）。”

三、进阶：业务层面优化（跳出纯技术，体现综合思维）

“技术优化是基础，但实际场景中，‘用户真的需要翻到第 100 万页’的概率极低，所以结合业务优化能从根源降低压力，这也是我会优先考虑的：

限制最大分页：直接在系统中设置分页上限（比如最多允许查前 100 页），超过后提示‘请通过筛选条件缩小范围’—— 多数用户不会翻到 100 页以后，100 万页完全是极端场景；
引导搜索 + 过滤：在分页功能前增加筛选条件（比如时间范围、订单状态、用户 ID），让用户先缩小数据范围（比如查 2023 年的订单，再分页），此时即使查第 100 万页，实际数据量也已大幅减少；
前端交互优化：用‘无限滚动 + 下拉刷新’替代传统分页（比如 PC 端也做成滚动加载），用户感知不到‘页码’，自然不会去翻 100 万页，同时分散数据库查询压力。”

四、加分项：MySQL 8.x 专属特性（体现版本熟悉度）

“如果数据库是 MySQL 8.x，还可以用一些新特性优化，写法更灵活：

窗口函数：用row_number()给结果集编号，直接取 1000000-1000010 的区间：

select * from ( select *, row_number() over(order by created_at asc, id asc) as rn from orders where created_at >= '2023-01-01' ) t where rn between 1000000 and 1000010;

注意：性能不一定比游标分页快（需扫描符合条件的全量数据并编号），但适合需要‘精准页码’且数据范围已缩小的场景；2. CTE（公用表表达式）：把分页逻辑拆成 CTE，可读性更强，便于调试：

with page_data as ( select id from orders where created_at >= '2023-01-01' order by created_at asc, id asc limit 1000000, 10 ) select o.* from orders o join page_data t on o.id = t.id;

另外，MySQL 8.x 对 InnoDB 的主键分页做了原生优化，升级版本也能小幅提升分页性能。”

五、收尾：落地权衡与注意事项（体现实战经验，不踩坑）

“最后，实际落地时还要注意几个点，避免出现问题：

方案选型：如果是移动端 / 接口，优先游标分页（性能最优）；如果是 PC 后台需要跳页，用索引定位 + 业务限制；
索引设计：所有分页方案都依赖索引，排序字段 + 唯一字段（如 created_at+id）的复合索引是关键，避免索引失效；
分库分表场景：如果订单表是分库分表（比如按用户 ID 分表），直接单表分页会漏数据，需要用分库分表中间件（如 Sharding-JDBC）的‘分布式分页’，但要注意中间件的跨表扫描问题，此时更依赖‘筛选条件 + 分表键’缩小范围；
数据一致性：分页过程中如果数据被删除 / 新增，可能出现重复或漏数据，可通过‘快照读’（如select ... for share）或业务层面接受‘最终一致性’解决。”

总结：答题逻辑闭环

整个回答遵循 “本质→技术→业务→特性→权衡” 的逻辑，既覆盖了面试官想考察的 “底层原理”“SQL 优化”，又体现了 “业务落地”“版本适配”“避坑能力”，层次分明，既有深度又有实用性，不会让面试官觉得你只背八股。