04 | 导航流程:从输入URL到页面展示,这中间发生了什么?

250 阅读9分钟

image.png 浏览器进程、渲染进程和网络进程的主要职责:

  • 浏览器进程主要负责用户交互、子进程管理和文件储存等功能。
  • 网络进程是面向渲染进程和浏览器进程等提供网络下载功能。
  • 渲染进程的主要职责是把从网络下载的 HTML、JavaScript、CSS、图片等资源解析为可 以显示和交互的页面。因为渲染进程所有的内容都是通过网络获取的,会存在一些恶意代码利用浏览器漏洞对系统进行攻击,所以运行在渲染进程里面的代码是不被信任的。这也是为什么 Chrome 会让渲染进程运行在安全沙箱里,就是为了保证系统的安全。

流程:

  1. 用户从浏览器进程里输入请求信息;
  2. 网络进程发起 URL 请求;
  3. 服务器响应 URL 请求之后,浏览器进程就又要开始准备渲染进程了;
  4. 渲染进程准备好之后,需要先向渲染进程提交页面数据,我们称之为提交文档阶段;
  5. 渲染进程接收完文档信息之后,便开始解析页面和加载子资源,完成页面的渲染。 用户发出 URL 请求到页面开始解析的这个过程,就叫做导航。

从输入 URL 到页面展示

1. 用户输入

当用户在地址栏中输入一个查询关键字时,地址栏会判断输入的关键字是搜索内容,还是请求的 URL。

  • 如果是搜索内容,地址栏会使用浏览器默认的搜索引擎,来合成新的带搜索关键字的URL。
  • 如果判断输入内容符合 URL 规则,比如输入的是 time.geekbang.org,那么地址栏会根据规则,把这段内容加上协议,合成为完整的 URL,如 time.geekbang.org。 当用户输入关键字并键入回车之后,浏览器便进入下图的状态:

image.png 从图中可以看出,当浏览器刚开始加载一个地址之后,标签页上的图标便进入了加载状态。但此时图中页面显示的依然是之前打开的页面内容,并没立即替换为极客时间的页面。因为需要等待提交文档阶段,页面内容才会被替换。

2. URL 请求过程

接下来,便进入了页面资源请求过程。这时,浏览器进程会通过进程间通信(IPC)把 URL 请求发送至网络进程,网络进程接收到 URL 请求后,会在这里发起真正的 URL 请求流程。

首先,网络进程会查找本地缓存是否缓存了该资源。如果有缓存资源,那么直接返回资源给 浏览器进程;如果在缓存中没有查找到资源,那么直接进入网络请求流程。这请求前的第一 步是要进行 DNS 解析,以获取请求域名的服务器 IP 地址。如果请求协议是 HTTPS,那么 还需要建立 TLS 连接。

接下来就是利用 IP 地址和服务器建立 TCP 连接。连接建立之后,浏览器端会构建请求行、 请求头等信息,并把和该域名相关的 Cookie 等数据附加到请求头中,然后向服务器发送构 建的请求信息。

服务器接收到请求信息后,会根据请求信息生成响应数据(包括响应行、响应头和响应体等 信息),并发给网络进程。等网络进程接收了响应行和响应头之后,就开始解析响应头的内 容了。(为了方便讲述,下面我将服务器返回的响应头和响应行统称为响应头。)

(1)重定向

在接收到服务器返回的响应头后,网络进程开始解析响应头,如果发现返回的状态码是 301 或者 302,那么说明服务器需要浏览器重定向到其他 URL。这时网络进程会从响应头 的 Location 字段里面读取重定向的地址,然后再发起新的 HTTP 或者 HTTPS 请求,一切 又重头开始了。

比如,我们在终端里输入以下命令:

1 curl -I http://time.geekbang.org/

curl -I + URL的命令是接收服务器返回的响应头的信息。执行命令后,我们看到服务器返回的响应头信息如下:

image.png 从图中可以看出,极客时间服务器会通过重定向的方式把所有 HTTP 请求转换为 HTTPS 请 求。也就是说你使用 HTTP 向极客时间服务器请求时,服务器会返回一个包含有 301 或者 302 状态码响应头,并把响应头的 Location 字段中填上 HTTPS 的地址,这就是告诉了浏 览器要重新导航到新的地址上。

下面我们再使用 HTTPS 协议对极客时间发起请求,看看服务器的响应头信息是什么样子的。

1 curl -I https://time.geekbang.org/

我们看到服务器返回如下信息:

image.png 从图中可以看出,服务器返回的响应头的状态码是 200,这是告诉浏览器一切正常,可以继续往下处理该请求了。

在导航过程中,如果服务器响应行的 状态码包含了 301、302 一类的跳转信息,浏览器会跳转到新的地址继续导航;如果响应 行是 200,那么表示浏览器可以继续处理该请求

(2)响应数据类型处理

URL 请求的数据类型,有时候是一个下载类型,有时候是正常的 HTML 页面,那么浏览器是如何区分它们呢?

答案是 Content-Type。Content-Type 是 HTTP 头中一个非常重要的字段, 它告诉浏览器服务器返回的响应体数据是什么类型,然后浏览器会根据 Content-Type 的值来决定如何显示响应体的内容。

  1. 响应头中的 Content-type 字段的值是 text/html,这就是告诉浏览器, 服务器返回的数据是HTML 格式。

  2. Content-Type 的值是 application/octet-stream,显示数 据是字节流类型的,通常情况下,浏览器会按照下载类型来处理该请求。

如果 Content-Type 字段的值被浏览器判断为下载类型,那么该请求会被提交给浏览器的下载管理器,同时该 URL 请求的导航流程就此结束。但如果是HTML,那么浏览器则会继续进行导航流程。

3. 准备渲染进程

默认情况下,Chrome 会为每个页面分配一个渲染进程,也就是说,每打开一个新页面就会配套创建一个新的渲染进程。但是,也有一些例外,在某些情况下,浏览器会让多个页面直接运行在同一个渲染进程中。

什么情况下多个页面会同时运行在一个渲染进程中呢?

要解决这个问题,我们就需要先了解下什么是同一站点(same-site)。具体地讲,我们将“同一站点”定义为根域名(例如,geekbang.org)加上协议(例如,https:// 或者http://) ,还包含了该根域名下的所有子域名和不同的端口,比如下面这三个:

1 https://time.geekbang.org
2 https://www.geekbang.org
3 https://www.geekbang.org:8080

它们都是属于同一站点,因为它们的协议都是 HTTPS,而且根域名也都是geekbang.org。

Chrome 的默认策略是,每个标签对应一个渲染进程。但如果从一个页面打开了另一个新 页面,而新页面和当前页面属于同一站点的话,那么新页面会复用父页面的渲染进程。 官方 把这个默认策略叫 process-per-site-instance。

那若新页面和当前页面不属于同一站点会使用一个新的渲染进程

总结来说,打开一个新页面采用的渲染进程策略就是:

  • 通常情况下,打开新的页面都会使用单独的渲染进程;
  • 如果从 A 页面打开 B 页面,且 A 和 B 都属于同一站点的话,那么 B 页面复用 A 页面的渲染进程;如果是其他情况,浏览器进程则会为 B 创建一个新的渲染进程。

渲染进程准备好之后,还不能立即进入文档解析状态,因为此时的文档数据还在网络进程中,并没有提交给渲染进程,所以下一步就进入了提交文档阶段。

4. 提交文档

这里的“文档”是指 URL 请求的响应体数据。

“提交文档”的消息是由浏览器进程发出的,渲染进程接收到“提交文档”的消息后,会 和网络进程建立传输数据的“管道”。

等文档数据传输完成之后,渲染进程会返回“确认提交”的消息给浏览器进程。

浏览器进程在收到“确认提交”的消息后,会更新浏览器界面状态,包括了安全状态、 址栏的 URL、前进后退的历史状态,并更新 Web 页面。

image.png 这也就解释了为什么在浏览器的地址栏里面输入了一个地址后,之前的页面没有立马消失,而是要加载一会儿才会更新页面。

到这里,一个完整的导航流程就“走”完了,之后进入渲染阶段。

5. 渲染阶段

一旦文档被提交,渲染进程便开始页面解析和子资源加载了,解一旦页面生成完成,渲染进程会发送一个消息给浏览器进程,浏览器接收到消息后,会停止标签图标上的加载动画。

总结

服务器可以根据响应头来控制浏览器的行为,如跳转、网络数据类型判断。

Chrome 默认采用每个标签对应一个渲染进程,但是如果两个页面属于同一站点,那这 两个标签会使用同一个渲染进程。

浏览器的导航过程涵盖了从用户发起请求到提交文档给渲染进程的中间所有阶段。

从输入 URL 到页面展示,这中间发生了什么?