手把手教你实现webpack核心功能（四）：构建依赖图与代码生成掌握依赖图构建算法与代码生成技术，深入理解webpack

二、核心概念：什么是依赖图？

在计算机科学中，图是一种由顶点和边组成的数据结构。在 Webpack 中：

顶点 (Vertex)：即每个模块（JS、CSS、图片等）。每个模块包含其源代码、转换后的代码以及唯一的 ID（通常是文件路径）。
有向边 (Directed Edge)：代表 import 或 require 语句。如果 A 导入了 B，就有一条从 A 指向 B 的边。

为什么需要构建依赖图？

确定加载顺序：你必须先加载被依赖的模块，才能运行依赖它的模块。
死代码消除 (Tree Shaking)：通过图遍历，我们可以发现哪些模块从未被引用过，从而在打包时将其剔除。
按需加载 (Code Splitting)：基于图的拓扑结构，我们可以将图拆分成多个子图，实现代码的延迟加载。

三、算法选型：深度优先还是广度优先？

要遍历一个图，我们有两种经典的算法：深度优先搜索 (DFS) 和 广度优先搜索 (BFS)。

DFS (Depth-First Search)：沿着一条路径一直钻到底，然后再回头走另一条路。
BFS (Breadth-First Search)：先处理当前节点的所有直接依赖，再处理依赖的依赖。

在 Webpack 构建依赖图的过程中，广度优先搜索 (BFS) 通常更加直观。我们可以维护一个队列（Queue），初始时放入入口模块，然后不断取出模块解析其依赖，并将新发现的依赖加入队列末尾，直到队列为空。

四、核心实战：构建依赖图 (Dependency Graph)

在这一节中，我们将实现一个功能强大的 buildGraph 函数。

1. 模块解析函数 `createAsset`

首先，我们需要一个函数来解析单个模块。它会读取文件内容，利用 Babel 转换为 AST，并找出所有的依赖路径。

// Parser.js
const fs = require('fs');
const path = require('path');
const babylon = require('@babel/parser');
const traverse = require('@babel/traverse').default;
const { transformFromAst } = require('@babel/core');

let ID = 0; // 为每个模块分配一个唯一的数字 ID

function createAsset(filename) {
  // 1. 读取文件内容
  const content = fs.readFileSync(filename, 'utf-8');

  // 2. 将源码转换为 AST
  const ast = babylon.parse(content, {
    sourceType: 'module',
  });

  // 3. 存储该模块依赖的所有子模块路径
  const dependencies = [];

  // 4. 遍历 AST，寻找 import 语句
  traverse(ast, {
    ImportDeclaration: ({ node }) => {
      // 提取 import './utils' 中的 './utils'
      dependencies.push(node.source.value);
    },
  });

  // 5. 将 AST 转换为浏览器可执行的代码（ES6 -> ES5）
  const { code } = transformFromAst(ast, null, {
    presets: ['@babel/preset-env'],
  });

  // 6. 返回模块信息
  return {
    id: ID++,
    filename,
    dependencies,
    code,
  };
}

2. 图构建函数 `createGraph`

有了单模块解析能力后，我们就可以通过循环来实现 BFS，构建出完整的图。

// Graph.js
function createGraph(entry) {
  // 初始队列，包含入口模块
  const mainAsset = createAsset(entry);
  const queue = [mainAsset];

  // 遍历队列（BFS）
  for (const asset of queue) {
    const dirname = path.dirname(asset.filename);

    // 存储当前模块与其依赖模块 ID 的映射关系
    asset.mapping = {};

    asset.dependencies.forEach((relativePath) => {
      // 核心步骤：将相对路径转换为绝对路径
      const absolutePath = path.join(dirname, relativePath);

      // 解析子模块并加入队列
      const child = createAsset(absolutePath);
      
      // 记录映射关系，方便后续代码生成
      asset.mapping[relativePath] = child.id;
      
      queue.push(child);
    });
  }

  return queue; // 这个数组就是我们的依赖图
}

五、代码生成：为什么需要「代码模板」？

现在我们手中有一个包含了所有模块信息的数组（依赖图），但浏览器依然无法直接运行它。

核心难点：

模块隔离：每个模块中的变量不能互相污染。
require 实现：浏览器环境没有 require 函数，我们需要自己模拟一个。
exports 实现：我们需要一个机制来收集每个模块导出的内容。

解决方案：IIFE (立即执行函数)

Webpack 的打包结果本质上是一个巨大的 IIFE。我们将依赖图转换为一个对象，键是模块 ID，值是一个包含模块代码的函数。

// Bundle.js
function bundle(graph) {
  let modules = '';

  // 1. 构建模块映射对象字符串
  graph.forEach((mod) => {
    modules += `${mod.id}: [
      function (require, module, exports) {
        ${mod.code}
      },
      ${JSON.stringify(mod.mapping)},
    ],`;
  });

  // 2. 生成最终的自执行函数
  const result = `
    (function(modules) {
      function require(id) {
        const [fn, mapping] = modules[id];

        function localRequire(name) {
          return require(mapping[name]);
        }

        const module = { exports : {} };

        fn(localRequire, module, module.exports);

        return module.exports;
      }

      require(0); // 从入口模块开始执行
    })({${modules}})
  `;

  return result;
}

深度拆解模板逻辑：

modules 对象：将每个模块包裹在一个函数作用域内，解决变量冲突。
localRequire：这是最精妙的地方。它利用闭包将源码中的相对路径（如 ./utils）通过 mapping 映射到真实的模块 ID。
module.exports：通过引用传递，模块内部对 exports 的修改会被外部捕获。

六、进阶：处理路径解析与循环依赖

在构建大型项目时，我们会遇到一些更复杂的问题。

1. 完善路径解析 (Resolver)

在之前的 createGraph 中，我们简单地使用了 path.join。但在实际 Webpack 中，路径解析要复杂得多：

别名 (Alias)：如何处理 @/components/Button？
扩展名补全：如果导入时没写 .js 或 .jsx 怎么办？
第三方库 (Node Modules)：如何定位 lodash 的入口文件？

我们可以实现一个简单的 resolve 函数来增强能力：

function resolve(relativePath, dirname) {
  // 1. 处理别名
  if (relativePath.startsWith('@/')) {
    return path.join(process.cwd(), 'src', relativePath.slice(2));
  }

  // 2. 尝试补全扩展名
  const absolutePath = path.join(dirname, relativePath);
  const extensions = ['', '.js', '.jsx', '.json'];
  
  for (const ext of extensions) {
    if (fs.existsSync(absolutePath + ext)) {
      return absolutePath + ext;
    }
  }

  // 3. 处理 node_modules
  // ... 此处逻辑略去，通常需要读取 package.json 的 main 字段 ...
  
  return absolutePath;
}

2. 破解循环依赖 (Circular Dependencies)

如果 A 依赖 B，B 又依赖 A，我们的 BFS 算法会陷入死循环吗？

答案是：会！ 如果我们不加干预，队列会不断膨获。

解决方案：缓存 (Cache)。我们维护一个 Map，记录已经解析过的模块路径。

const cache = new Map();

function createGraph(entry) {
  const queue = [];
  
  function getAsset(filename) {
    if (cache.has(filename)) {
      return cache.get(filename);
    }
    const asset = createAsset(filename);
    cache.set(filename, asset);
    return asset;
  }

  const mainAsset = getAsset(entry);
  queue.push(mainAsset);

  for (const asset of queue) {
    // ... 解析依赖时，使用 getAsset 而不是 createAsset ...
  }
}

3. 处理不同类型的模块

在实际开发中，我们不仅有 JS 模块，还有 CSS、Less、图片等。依赖图如何容纳它们？

这就引出了 Loader。当 createAsset 遇到非 JS 文件时，它会先调用对应的 Loader 将其转换为 JS 字符串。

function createAsset(filename) {
  let content = fs.readFileSync(filename, 'utf-8');

  // 模拟 CSS Loader
  if (filename.endsWith('.css')) {
    content = `
      const style = document.createElement('style');
      style.innerText = ${JSON.stringify(content)};
      document.head.appendChild(style);
    `;
  }

  const ast = babylon.parse(content, { sourceType: 'module' });
  // ... 后续逻辑不变 ...
}

通过这种方式，依赖图可以将 Web 世界的一切资源都视为「模块」，从而实现真正的「万物皆可打包」。

七、深度拆解：IIFE 模板的运行机制

Webpack 的 Runtime 代码虽然简短，但却非常精妙。让我们逐行分析：

(function(modules) {
  // 1. 缓存已加载的模块，避免重复执行
  const cache = {};

  function require(id) {
    // 2. 如果缓存中有，直接返回
    if (cache[id]) return cache[id].exports;

    // 3. 获取模块函数和映射表
    const [fn, mapping] = modules[id];

    // 4. 定义 localRequire，将源码中的路径转换为模块 ID
    function localRequire(name) {
      return require(mapping[name]);
    }

    // 5. 创建 module 对象并存入缓存
    const module = { exports : {} };
    cache[id] = module;

    // 6. 执行模块代码
    // 传入 localRequire, module, exports 三个参数
    fn(localRequire, module, module.exports);

    // 7. 返回导出的内容
    return module.exports;
  }

  // 8. 启动：加载入口模块 (ID 为 0)
  require(0);
})({
  // 9. 这里是注入的 modules 对象
  0: [function(require, module, exports) { /* 代码 */ }, { './utils': 1 }],
  1: [function(require, module, exports) { /* 代码 */ }, {}],
})

为什么这种设计如此高效？

零全局污染：所有的逻辑都在 IIFE 内部，不会影响外部环境。
模块独立性：每个模块都在自己的函数作用域内运行，变量互不干扰。
按需执行：只有当模块被 require 时，它的代码才会真正运行。

扩展：Bundle 的多种格式 (CJS vs ESM vs IIFE)

虽然我们在示例中使用了 IIFE 格式，但在现代工程中，你可能需要生成多种格式：

ESM (ECMAScript Modules)：利用浏览器原生的 import/export。Webpack 5 已经支持输出原生 ESM 格式，这对于现代浏览器的 Tree Shaking 非常有利。
CJS (CommonJS)：主要用于 Node.js 环境。
UMD (Universal Module Definition)：一种兼容 CJS、AMD 和全局变量的万能格式。

通过配置 output.libraryTarget，Webpack 可以轻松切换这些输出格式。

八、实战：一个真实的依赖图案例

让我们看看一个简单的 React 项目构建出的依赖图长什么样：

index.js (Entry)
 ├── react (node_modules)
 ├── App.js
 │    ├── Header.js
 │    │    └── Header.css (Loader 处理)
 │    ├── Footer.js
 │    └── api.js
 └── utils.js

在这个结构中，react 被多个模块引用，但 Webpack 只会将其解析一次并缓存。Header.css 则会被 Loader 转换为 JS 代码，最终注入到 <style> 标签中。

九、开发者体验：如何调试与优化你的依赖图

1. 利用分析工具 (Analyzer)

你可以使用 webpack-bundle-analyzer 来可视化你的依赖图。它会生成一个交互式的矩形树图，让你一眼看出哪些包占用了最多的空间。

2. 避免重复打包

如果多个 Chunk 都引用了同一个库，Webpack 默认可能会把这个库打包多次。你可以利用 SplitChunksPlugin 提取公共模块。

3. 性能监控

依赖图构建是 Webpack 打包中最耗时的阶段之一。你可以使用 speed-measure-webpack-plugin 来分析构建耗时，找出慢在哪个模块。

4. 解决「重复打包」的终极方案

如果你发现某个基础库（如 moment）被重复打包进了多个 Chunk，除了 SplitChunksPlugin，你还可以考虑使用 ProvidePlugin 或直接在 HTML 中通过 CDN 引入，并在 Webpack 中配置 externals。

十、深度警惕：依赖图构建中的陷阱

1. 动态导入 (Dynamic Import)

当你写下 import('./module.js') 时，Webpack 无法在编译期确定它的内容。这会导致 Webpack 将其视为一个分割点（Split Point），并生成一个新的依赖图分支。

2. 庞大的 Node Modules

如果你的依赖图中包含了一个巨大的 node_modules 包，整个构建过程会变得异常缓慢。建议使用 externals 或 DLLPlugin 将这些不常变动的第三方库剥离出去。

3. 未转换的代码：如果你的主入口是 ES5，但你引用的某个依赖包是 ES6 且没有配置 Babel 转换，那么在生成 Bundle 后，旧版浏览器会因为无法识别 `const` 或 `arrow function` 而报错。

十一、最佳实践：如何保持依赖图的「健康」

按需加载：对于非首屏需要的模块，一律使用异步导入。
严格控制第三方库：在引入任何包之前，先去 bundlephobia.com 查一下它的体积。
保持模块精简：单一职责原则不仅适用于业务逻辑，同样适用于模块划分。一个包含 5000 行代码的模块会极大地拖慢 AST 解析速度。

十二、那些让你头秃的错误 (Troubleshooting)

1. `Module not found: Error: Can't resolve...`

通常是路径拼写错误、别名配置不正确或忘记安装依赖包。请检查 resolve 逻辑。

2. `Maximum call stack size exceeded`

极大概率是依赖图中出现了未经缓存的循环引用。请务必检查你的 Map 缓存逻辑。

3. `Unexpected token (at ...)`

Babel 无法解析当前的语法。可能是你使用了最新的提案（如 Optional Chaining）但没有安装对应的 Babel 插件。

十三、常见问题解答 (FAQ)

在处理成千上万个模块的项目时，简单的 BFS 可能会面临内存和 CPU 的巨大挑战。

1. 增量构建 (Incremental Build)

Webpack 监听模式的核心就是：只对发生变更的模块及其下游依赖进行重新解析。通过维护一张精密的「引用表」，Webpack 能够实现毫秒级的 HMR (热更新)。

2. 多线程解析 (Parallelism)

模块解析是一个典型的计算密集型任务。Webpack 5 引入了内部的多线程支持，允许同时开启多个工作线程（Worker）并发处理不同的模块，极大提升了构建效率。

3. 模块联邦 (Module Federation)

如果依赖图实在太庞大，我们可以将其拆分为多个独立的子图。Module Federation 允许一个应用在运行时动态地加载另一个应用的依赖图，从而打破了「全量构建」的瓶颈。

十四、深度进阶：模块 ID 的管理策略

在我们的简易实现中，我们使用了递增的数字 ID。但在实际的生产环境下，这会带来一些问题。

1. 为什么不推荐使用数字 ID？

如果你的项目有多个 Entry，或者使用了异步加载，数字 ID 的顺序可能会因为构建顺序的变化而改变。这会导致浏览器缓存失效（Content Hash 变化）。

2. 更好的方案：Named Modules

Webpack 4+ 推荐在开发环境使用 NamedModulesPlugin，直接使用文件路径作为 ID。这样代码更易读，调试也更方便。

3. 终极方案：Hashed Module IDs

在生产环境，建议使用模块内容的 Hash 值作为 ID。这样即使模块顺序改变，只要内容不变，ID 就保持不变。这对于实现「持久化缓存」至关重要。

九、警惕！依赖管理的「反模式」

作为一名资深前端，你应该避免以下几种导致依赖图臃肿的行为：

全量导入 (Full Import)：如果你只需要 lodash 的 cloneDeep，请不要 import _ from 'lodash'。这会导致整个库都被打包进依赖图。
循环引用 (Circular Dependency)：虽然 Webpack 能处理，但它通常意味着模块设计不合理。
隐式依赖 (Implicit Dependency)：避免通过全局变量在模块间传递数据，这会破坏依赖图的确定性。

十、实战清单：优化你的依赖图

想要减小打包体积？请对照以下清单进行操作：

检查并移除无用的 import 语句。
使用 externals 排除掉 CDN 已引入的库（如 jQuery, React）。
对于大库，使用 babel-plugin-import 实现按需加载。
确保在生产环境开启了 UglifyJS 或 Terser 进行代码混淆和压缩。

十一、常见问题解答 (FAQ)

Q1: 依赖图循环引用会造成死循环吗？

是的。如果没有缓存机制，递归或 BFS 会无限循环。Webpack 通过 Map 或对象缓存已解析的模块路径来解决这个问题。

Q2: 为什么 Webpack 5 引入了持久化缓存？

因为对于大型项目，每次全量构建依赖图非常耗时。Webpack 5 允许将构建好的依赖图缓存到磁盘，下次构建只需处理变更的部分。

Q3: 什么是「Tree Shaking」？

Tree Shaking（摇树优化）是基于 ES6 模块静态分析的特性。通过遍历依赖图，我们可以标记出哪些导出的函数或变量从未被引用，然后在生成 Bundle 时将其删除。

Q4: 为什么 IIFE 模板里需要 `localRequire`？

因为源代码中使用的是相对路径（如 ./utils），而 Bundle 中模块是被扁平化存储在对象里的。localRequire 的作用就是将这个相对路径通过 mapping 映射到正确的数字 ID。

Q5: Webpack 如何处理图片和字体？

通过 file-loader 或 url-loader。它们会将资源移动到输出目录，并返回该资源的最终访问路径（字符串）。这样在 JS 中 import img from './a.png' 得到的就是一个字符串路径。

Q6: 什么是 Side Effects？

有些模块虽然没有导出任何内容，但它们在被导入时会产生副作用（如修改全局变量、注入样式）。在依赖图遍历中，我们需要特别标记这些模块，防止它们被错误地 Tree Shake 掉。

手把手教你实现webpack核心功能（四）：构建依赖图与代码生成