引：在浏览器里，从地址栏输入URL到页面展示，这中间发生了什么？

Screenshot 2024-03-24 at 22.14.40.png

由图，整个过程需要各个进程之间的配合，回顾浏览器进程模型相关内容。

浏览器进程（Browser）浏览器的主进程（主控、协调）主要负责浏览器界面显示、用户交互（go forward/go back）、子进程管理、将Renderer进程的到的内存中的bitmap绘制到用户界面和文件存储等功能；
网络进程（Network）是面向渲染进程和浏览器进程等提供网络下载功能；
渲染进程（Renderer）浏览器内核。核心任务是页面渲染、脚本执行、事件处理。主要职责是把从网络下载的HTML、CSS、Javascript、图片等资源解析为可以显示和交互的页面。因为渲染进程所有的内容都是通过网络获取的，会存在一些恶意代码利用浏览器漏洞对系统进行攻击，所以运行在渲染进程中的代码是不被信任的。这也是为什么Chrome会让渲染进程运行在安全沙箱中的原因，就是为了保证系统的安全。

了解了各进程职责后，结合上图，其中几个核心的节点用蓝色背景标记出来了。大致如下：

首先，浏览器进程接收到用户输入的URL请求，浏览器进程便将该URL转发给网络进程；
在网络进程中发起真正的URL请求；
接着网络进程接收到响应头数据，便解析响应头数据，并将数据转发给浏览器进程；
浏览器进程接收到网络进程的响应头数据之后，发送“提交导航(CommitNavigation)”消息到渲染进程；
渲染进程接收到“提交导航”的消息后，便开始准备接收HTML数据，接收数据的方式是直接和网络进程建立数据管道；
渲染进程会向浏览器进程“确认提交”，告诉浏览器进程“已经主准备好接受和解析页面数据了”
浏览器进程接收到渲染进程“提交文档”的消息后，便开始移除之前旧的文档，更新浏览器进程中的页面状态。

这其中，用户发出URL请求到页面开始解析的这个过程，就叫做导航。

从输入URL到页面展示

1. 用户输入

当用户在地址栏键入查询关键字时，浏览器会判断输入的关键字是搜索内容，还是请求的URL。

如果是搜索内容，地址栏会使用浏览器默认的搜索引擎，来合成新的带搜索关键字的URL。
如果输入内容符合URL规则（如time.geekbang.org）那么地址栏会根据规则，把这段内容加上协议，合成为完整的URL(time.geekbang.org) [实际依赖于服务端重定向]

当用户输入关键字并键入回车之后，这意味着当前页面即将要被替换成新的页面，不过在这个流程继续之前，浏览器还给了当前页面一次执行beforeunload事件的机会，beforeunload事件允许页面在退出之前执行一些数据清理工作，还可以询问用户是否要离开当前页面，比如当前页面可能有未提交完成的表单等情况，因此用户可以通过beforeunload事件来取消导航，让浏览器不再执行任何后续工作。[Safari 页面内跳转有弹窗提示用户，地址栏跳转或者location.href跳转不生效（更符合逻辑）；Chrome不管是页面内跳转还是其他方式都会有弹窗提示]

当前页面没有监听beforeunload事件或者同意了继续后续流程，那么浏览器便进入了下图的状态：

Screenshot 2024-03-24 at 23.03.10.png

由图，当浏览器刚开始加载一个地址之后，标签页上面的图标便进入了加载状态。但此时途中页面显示的依然是之前打开的页面内容，并没有立即替换为新页面。因为需要等待提交文档阶段，页面内容才会被替换。

2.URL请求过程

接下来进入页面资源请求过程。此时，浏览器进程会通过IPC把URL请求发送到网络进程，网络进程接收到URL请求后，会在这里发起真正的URL请求流程。

首先，网络进程会查找本地缓存是否命中该资源。如果有缓存资源，那么直接返回资源给浏览器进程；否则，直接进入网络请求流程。请求前的第一步是要进行DNS解析，以获取请求域名的服务器IP地址。如果请求协议是HTTPS，那么还要建立TLS连接。

接下来就是利用IP地址和服务器建立TCP连接。连接建立之后，浏览器端会构建请求行、请求头等信息，并把和该域名相关的Cookie等数据附加到请求头中，然后向服务器发送构建的请求信息。

服务器接收到请求信息后，会根据请求信息生成响应数据（包含响应头、响应行和响应体等信息），并发送给网络进程。等网络进程接收了响应行和响应头之后，就开始解析响应头的内容了。

1）重定向

在接收到服务器返回的响应头后，网络进程开始解析响应头，如果发现返回的状态码是301（永久改变的资源位置）或者302（暂时改变的资源位置），那么说明服务器需要浏览器重定向到其他URL。这时网络进程会从响应头的Location字段里读取重定向的地址，然后再发起新的HTTP或者HTTPS请求，一切又重头开始了。

比如，我们在终端输入以下命令：

// -I 接收服务器返回的响应头的信息
curl -I http://time.geekbang.org/

执行结果如下：

Screenshot 2024-03-24 at 23.21.23.png

由图，极客时间服务器会通过重定向的方式把所有HTTP请求转换为HTTPS请求。也就是说你使用 HTTP 向极客时间服务器请求时，服务器会返回一个包含有 301 或者 302 状态码响应头，并把响应头的 Location 字段中填上 HTTPS 的地址，这就是告诉了浏览器要重新导航到新的地址上。

如果使用HTTPS协议对该地址发起请求，则结果如下：

curl -I https://time.geekbang.org/

Screenshot 2024-03-24 at 23.24.07.png

从图中看出，服务器返回的响应头的状态码是 200，这是告诉浏览器一切正常，可以继续往下处理该请求了。

2）响应数据类型处理

URL请求的数据类型，有时候是一个下载类型，有时候是正常的HTML页面，那么浏览器如何区分他们呢？

答案是 Content-Type。Content-Type是HTTP头中一个非常重要的字段，它告诉浏览器服务器返回的响应体数据是什么类型，然后浏览器会根据Content-Type的值来决定如何显示响应体的内容。

Screenshot 2024-03-24 at 23.29.10.png

如上图，极客时间官网返回的Content-Type是 text/html，这就是告诉浏览器，服务器返回的数据是HTML格式。

如果用curl来请求极客时间安装包的地址，则返回结果如下：

curl -I https://res001.geekbang.org/apps/geektime/android/2.3.1/official/geektime_2.3.1_20190527-2136_offical.apk

Screenshot 2024-03-24 at 23.31.05.png

其Content-Type的值是 application/octet-stream，显示数据是字节流类型的，通常情况下，浏览器会按照下载类型来处理该请求。

需要注意的是，如果服务器配置Content-Type不正确，比如将text/html类型配置成 application/octet-stream 类型，那么浏览器可能会曲解文件内容，将一个本来用来展示的页面，变成了一个下载文件。

所以，不同Content-Type 的后续处理流程也截然不同。如果 Content-Type 字段的值被浏览器判断为下载类型，那么该请求会被提交给浏览器的下载管理器，同时该 URL 请求的导航流程就此结束。但如果是 HTML，那么浏览器则会继续进行导航流程。由于 Chrome 的页面渲染是运行在渲染进程中的，所以接下来就需要准备渲染进程了。

3.准备渲染进程

默认情况下，Chrome 会为每个页面分配一个渲染进程，也就是说，每打开一个新页面就会配套创建一个新的渲染进程。但是，也有一些例外，在某些情况下，浏览器会让多个页面直接运行在同一个渲染进程中。

比如从极客时间的首页里面打开了另外一个页面——算法训练营，我们看下图的 Chrome 的任务管理器截图：

Screenshot 2024-03-24 at 23.46.48.png

如图，打开的这三个页面都是运行在同一个渲染进程中。

那什么情况下多个页面会同时运行在一个渲染进程中呢？

首先需要先了解什么是同一站点(same-site)。具体地讲，我们将“同一站点”定义为根域名（例如，geekbang.org）加上协议（例如，https:// 或者 http://），还包含了该根域名下的所有子域名和不同的端口，比如下面这三个：

https://time.geekbang.org
https://www.geekbang.org
https://www.geekbang.org:8080

它们都是属于同一站点，因为协议都是HTTPS，切根域名都是geekbang.org。

Chrome的默认策略是，每个标签对应一个渲染进程。但如果从一个页面打开了另一个新页面，而新页面和当前页面属于同一站点的话，那么新页面会复用父页面的渲染进程。官方把这个默认策略叫 process-per-site-instance。

如果几个页面共用一个渲染进程，那么在一个页面中写一个死循环，是否会影响其他页面？

是的，多个页面共用一个渲染进程，就意味着多个页面共用一个主线程，所有页面的任务都是在同一个主线程上执行（这些任务包括渲染流程、JS执行、用户交互的事件响应等），如果一个页面内执行一个死循环，意味着该JS代码会一直霸占主线程，导致其他的页面无法使用主线程，从而失去响应

那若新页面和当前页面不属于同一站点，情况又会发生什么样的变化呢？比如我通过极客邦页面里的链接打开 InfoQ 的官网（www.infoq.cn/ ），因为 infoq.cn 和 geekbang.org 不属于同一站点，所以 infoq.cn 会使用一个新的渲染进程。

总结来说，打开一个新页面采用的渲染进程策略就是：

通常，打开新的页面都会使用单独的渲染进程；
如果从A页面打开了B页面，且A和B属于同一站点的话，那么B页面会复用A页面的渲染进程；

渲染进程准备好之后，还不能立即进入文档解析状态，因为此时的文档数据还在网络进程中，并没有提交给渲染进程，所以下一步就进入了提交文档阶段。

4.提交文档

所谓提交文档，就是指浏览器进程将网络进程接收到的HTML数据提交给渲染进程，具体流程如下：

首先，当浏览器进程接收到网络进程的响应头数据之后，便向渲染进程发起“提交文档”的消息；
渲染进程接收到“提交文档”消息后，会和网络进程建立传输数据的“管道”；
等文档数据传输完成之后，渲染进程会返回“确认提交”的消息给浏览器进程；
浏览器进程在收到“确认提交”消息后，会更新浏览器的界面状态，包括了安全状态、地址栏的URL、前进后退的历史状态、并更新Web页面。

其中，当渲染进程 确认提交 之后，更新内容如下图所示：

Screenshot 2024-03-24 at 23.41.09.png

这也就解释了为什么在浏览器的地址栏里面输入了一个地址后，之前的页面没有立马消失，而是要加载一会儿才会更新页面。

至此，一个完整的导航流程就走完了，之后就要进入渲染阶段了。

5.渲染阶段

一旦文档被提交，渲染进程便开始页面解析和子资源加载了。关于渲染阶段的完整流程，详见学习浏览器 - 渲染流程。

一旦页面生成完成，渲染进程会发送一个消息给浏览器进程，浏览器接收到消息后，会停止标签图标上的加载动画。

Screenshot 2024-03-24 at 23.45.36.png

总结：

在浏览器里，从地址栏输入URL到页面展示，这中间发生了什么？

用户输入URL并回车；
- 1.1 如果没有监听onbeforeunload事件，进入流程2
- 1.2 如果有监听onbeforeunlaod事件，则执行其内部逻辑，若用户同意此次导航，进入流程2，若拒绝直接返回。
浏览器进程解析输入内容：
- 2.1 如果识别输入的是一个URL，就尝试请求该URL
- 2.2 否则视为搜索关键字，浏览器尝试将关键字发送给默认的搜索引擎（合成新的URL并请求）
URL请求过程，浏览器进程通过进程间通信（IPC）把URL请求发送给网络进程，网络进程接收到URL请求后，检查本地缓存是否命中该请求资源：
- 3.1 如果命中，则将该缓存资源直接返回给浏览器进程，进入流程6
- 3.2 如果没有命中，进入流程4
网络进程向web服务器发起HTTP请求，请求流程如下：
- 4.1 进行DNS解析，获取服务器IP地址和端口
- 4.2 利用IP地址和服务器建立TCP连接
- 4.3 构建请求行、请求头（请求体）信息，附加Cookie
- 4.4 发送请求信息，服务器根据浏览器的请求信息准备相应的内容（响应行、响应头和响应体）发送给网络进程
网络进程接收并解析响应数据：
- 5.1 服务器返回响应行（协议版本和状态码）
- 5.2 检查状态码，如果是301/302(301永久重定向：将原始请求的缓存标记为永久失效，立即更新缓存，再次遇到此请求，直接打到重定向之后的URL，不会再经过重定向流程，302临时重定向：将原始请求的缓存标记为临时失效，浏览器会更新缓存，但仍保留原始请求的缓存标识)，则需要重定向，从Location字段中读取地址，重新进行流程3，如果是200，则继续处理请求。
- 5.3 检查响应类型Content-Type，如果是字节流类型，则将该请求提交给下载管理器，该导航流程结束，不再进行后续的渲染，如果是text/html，则通知浏览器进程 准备渲染进程（准备进行渲染）。
准备渲染进程
- 6.1 网络进程读取响应头数据，将其转发给浏览器进程，浏览器接收到网络进程的响应头数据后，携带响应头等基本信息发送CommitNavigation到渲染进程，让其准备接收数据（此时文档数据还在网络进程中）；
提交文档阶段
- 7.1 浏览器进程将网络进程接收到的响应头数据提交给渲染进程（提交文档消息），渲染进程收到消息后和网络进程建立传输数据的“管道”
- 7.2 渲染进程接收完数据后，向浏览器进程返回“确认提交”消息
- 7.3 浏览器进程接收到“确认提交”消息后，更新浏览器界面状态（包含安全状态、地址栏URL、前进后退的历史状态）并更新web页面。
渲染阶段
- 解析HTML、CSS、Javascript数据，和子资源加载，将页面数据交给浏览器进程，完成页面显示。

浏览器 - 导航详细流程