浏览器预加载扫描器的词法分析器实现这篇文章深入讲解浏览器内部在预加载（Preload Scanner）阶段是如何通过一个

这篇文章深入讲解浏览器内部在预加载（Preload Scanner）阶段是如何通过一个轻量级的词法分析器（Lexer） ，以超快速度提取 <link>、<script>、<img> 等关键资源标签，从而在主解析器尚未运行前，就完成资源提取和请求调度的秘密机制。

✳️ 为什么需要一个“预加载扫描器”？

浏览器加载网页的关键瓶颈之一在于：

DOM 的构建和资源的加载是串行的，而不是并行的。

通常情况下，浏览器必须依赖主线程的 HTML 解析器（HTMLParser）把内容构造成 DOM，遇到标签 <script>、<link> 才知道要加载资源。但这意味着资源的请求必须等待主线程解析走到那一行，显然太慢了。

于是浏览器引入了一个“副线程解析器”——Preload Scanner（预加载扫描器） 。

它的职责：

独立于主解析器运行；
基于流式输入提前识别关键资源标签；
即时触发异步下载（并不构建 DOM） ；
跳过非关键标签、跳过标签属性解析细节；
不处理脚本，不关心语义，只要知道哪里有资源即可。

这就需要一个更轻量的词法分析器：快，但不准；能识别资源标签，不追求完整语法。

🧠 预加载扫描器 vs 主解析器：两者差别

特性	主解析器	预加载扫描器
工作线程	主线程	单独线程（或并发）
精度	100%，符合 HTML5 规范	容错、高速、简化
输出结果	DOM 树、事件、脚本执行	preload queue（资源请求列表）
标签处理	完整处理所有标签	仅识别资源类标签
JS 执行	执行	忽略
CSS 解析	是	否

🔬 词法分析器实现：核心逻辑

我们可以将其视作一个精简版的 HTML 流式 Lexer，它关注的只有以下几个标签：

<link rel="stylesheet" href="...">
<script src="...">
<img src="...">
<source srcset="...">
<video> <audio> 中的 <source> 标签
以及 <iframe>, <object> 等

基本设计

enum TokenType {
  TAG_OPEN,
  TAG_NAME,
  ATTRIBUTE_NAME,
  ATTRIBUTE_VALUE,
  TAG_CLOSE,
  TEXT
}

它按如下状态流解析：

Start → '<' → TAG_OPEN → TAG_NAME → [属性名] → '=' → [属性值] → ... → '/>' or '>' → Start

示例流程（输入片段）：

<link rel="stylesheet" href="/main.css">

词法分析器的目标不是构建 DOM，而是：

检测标签 <link>
提取 rel=stylesheet
找到 href 的值：/main.css

然后触发一次异步的资源请求。

⚙️ 简化规则：为何能“糙快猛”

预加载扫描器不是标准 HTML 解析器。它可容忍很多不规范写法，甚至连属性顺序都不在意。它按如下策略快速判断：

匹配 <link 开头
读取一段有限长度（如 1024 字节）
只提取 rel 和 href 两个属性值
如果 rel=stylesheet 且 href 存在，立即触发下载

因此，哪怕写成下面这种奇怪结构，它也能识别：

<link
  href="/main.css"
  rel="stylesheet"
  disabled
>

甚至支持容错写法：

<link rel=stylesheet href=/main.css>

🚀 实现中的优化技巧

✴️ 快速跳过无关标签

扫描器会优先识别第一个 <，读取之后立即匹配是否是 <link, <script, <img 开头。其它全部跳过，无需进一步 token 解析。

✴️ 属性值提取策略

不使用完整属性状态机（不像 HTMLParser 那样支持多种转义），而是使用：

const attrRegex = /(\w+)=["']?([^"' >]+)["']?/g;

直接提取 key=value 对，并建立一个属性字典。如果发现：

tagName = link 且 rel=stylesheet 且 href 存在
tagName = script 且 src 存在
tagName = img 且 src 存在

就可触发 preload 动作。

✴️ 最大化并行请求

一旦资源位置被识别，就立即进入网络请求队列，优先级比主解析器要早，从而提升页面的「First Byte to First Paint」时间窗口效率。

💡 冷知识：预加载扫描器是如何被中断的？

如果 <script> 是同步脚本，主解析器会停止，Preload Scanner 也暂停。
若碰到 document.write()，由于可能写入新资源，必须暂停 Scanner，等待主解析器恢复。
现代浏览器已通过 defer/async/模块化脚本规避这些阻断，大大提升 scanner 效率。

📈 性能效果对比

对比传统纯主线程资源解析，开启 Preload Scanner 后：

指标	传统模型	启用 Scanner
首屏 CSS 资源下载时间	~300ms 延迟	几乎 0ms
`<script>` 开始解析时间	等待 DOM 构建	提前进入 queue
LCP 元素图片下载时间	滞后于 DOM 解析	并行提取资源
首屏渲染速度提升	✖️	✅ 明显提升

📚 浏览器源码参考

以下是浏览器源码中预加载词法分析器实现的实际位置：

Chromium：
- PreloadScanner.cpp
- HTMLPreloadScannerToken.h
- TokenizerStateMachine.h

可见它并未使用 full DOM 解析器，而是自定义了简化状态机。

🔧 应用建议：开发者如何配合 Preload Scanner

保证资源标签靠前（特别是 <link rel="stylesheet">）
不要用 JS 动态写入关键资源路径（Scanner 无法提前解析）
避免阻塞型脚本插入
利用 as=style / as=image 等提升优先级提示

✍️ 总结

浏览器的预加载扫描器通过一个高度简化的词法分析器，在 HTML 还未完全解析时，提前提取关键资源标签，大幅度提升了首屏渲染性能。而这个词法器不像传统编译器要求“精度” ，而是设计为“足够快、足够准”的 compromise 工具。

它代表了浏览器内部性能优化中的一个哲学原则：

比完美更重要的是及时。