04-导航流程

117 阅读9分钟

导航流程

这一节的问题就是:从输入URL到页面展示这中间发生了什么?

从输入URL到页面展示完整流程示意图:

导航流程.png

可以看出,这是由几个进程相互配合才能完成的工作:

  • 浏览器进程:主要负责用户交互、子进程管理和文件存储功能
  • 网络进程:面向渲染进程和浏览器进程等提供网络下载功能
  • 渲染进程:将从网络下载下来的JS等资源解析为可以显式和交互的页面,由于渲染经常的所有内容都是通过网络获取的,所以可能存在一些恶意代码对系统进行攻击,所以渲染进程里面的代码是不被信任的,这也是为什么Chrome会让渲染进程运行在安全沙箱里,就是为了保证系统安全

除了三个进程外,还有几个主要的核心节点需要我们着重了解:

  • 用户输入:用户从浏览器进程中输入的请求信息
  • 发起URL请求:网络警察发起URL请求
  • 准备渲染进程:服务器响应URL请求之后,浏览器进程就可以准备渲染进程了
  • 提交文档:渲染进程准备好后,需要先向渲染进程提交页面数据
  • 页面解析和子资源加载:渲染进程接受完文档信息后,就可以开始解析页面和加载子资源,完成页面渲染

用户发出URL请求到页面解析的这个过程,叫做导航,接下来详细分析一下上述的步骤

从输入URL到页面展示

用户输入

当用户在地址栏中输入一个查询关键字时,地址栏会判断输入的关键字是搜索内容,还是请求的URL

  • 如果是搜索内容,地址栏会使用浏览器默认的搜索引擎,来合成带搜索关键字的URL
  • 如果符合URL规则,那么地址栏就会根据规则,把这段内容加上协议,合成完整的URL

输入查询关键字并回车之后会发生:当浏览器刚开始加载一个地址之后,标签页上的图标便进入了加载状态,但此时图中页面显示的依然是之前打开的页面内容,并没立即替换为新页面,因为需要等待提交文档阶段,页面内容才会被替换

URL请求过程

浏览器进程会通过进程间通信(IPC)把URL请求发送至网络进程,网络进程接收到URL请求后,会在这里发起真正的URL请求流程

具体的流程:

  • 首先,网络进程会查找本地缓存是否缓存了该资源,如果有则直接返回资源给浏览器进程,如果没有则直接进入网络请求流程,进入网络请求前要进行DNS解析,以获取请求域名的服务器IP地址
  • 接下来,利用IP地址和服务器建立TCP连接。连接建立之后,浏览器端会构建请求行、请求头等信息,并把和该域名相关的Cookie等数据附加到请求头中,然后向服务器发送构建的请求信息
  • 服务器接收到请求信息后,会根据请求信息生成响应数据(包括响应行、响应头和响应体等信息),并发给网络进程。等网络进程接收了响应行和响应头之后,就开始解析响应头的内容

从此处开始,后面将服务器返回的响应头和响应行统称为响应头

重定向

在接收到服务器返回的响应头后,网络进程开始解析响应头,如果发现返回的状态码是301或者302,那么说明服务器需要浏览器重定向到其他URL

这时网络进程会从响应头的Location字段里面读取重定向的地址,然后再发起新的HTTP或者HTTPS请求

所以,在导航过程中,如果服务器响应行的状态码包含了301、302一类的跳转信息,浏览器会跳转到新的地址继续导航;如果响应行是200,那么表示浏览器可以继续处理该请求

响应数据类型处理

URL请求的数据类型,有时候是一个下载类型,有时候是正常的HTML页面,那么浏览器是如何区分它们呢?

答案是Content-Type

Content-Type是HTTP头中一个非常重要的字段, 它告诉浏览器服务器返回的响应体数据是什么类型然后浏览器会根据Content-Type的值来决定如何显示响应体的内容

如果响应头中的Content-type字段的值是text/html,这就是告诉浏览器,服务器返回的数据是HTML格式

如果Content-Type的值是application/octet-stream,显示数据是字节流类型的,通常情况下,浏览器会按照下载类型来处理该请求

并且,不同Content-Type的后续处理流程也截然不同,如果是下载类型,则该请求则提交给浏览器的下载管理器,如果是HTML,那么浏览器则会继续进行导航流程,并且由于Chrome的页面渲染是运行在渲染进程中的,所以接下来需要准备渲染进程了

准备渲染进程

默认情况下,Chrome会为每个页面分配一个渲染进程

但是,在某些情况下,浏览器会让多个页面直接运行在同一个渲染进程中

多个页面同一个进程.png 可以看到,三个掘金都在同一个渲染进程中,进程ID是15892

那么什么情况下多个页面在同一个渲染进程中

首先,我们先来了解一下同一站点:具体地讲,我们将“同一站点”定义为根域名(例如,geekbang.org)加上协议(例如,https:// 或者http://),还包含了该根域名下的所有子域名和不同的端口,如:

 https://time.geekbang.org
 https://www.geekbang.org
 https://www.geekbang.org:8080

Chrome的默认策略是,每个标签对应一个渲染进程。但如果从一个页面打开了另一个新页面,而新页面和当前页面属于同一站点的话那么新页面会复用父页面的渲染进程。官方把这个默认策略叫process-per-site-instance。

新页面和当前页面不属于同一站点,那就会使用一个新的渲染进程

渲染进程准备好后,还不能立即进入文档解析状态,因为此时的文档数据还在网络进程中,并没有提交给渲染进程,所以下一步就进入提交文档阶段

提交文档

此处的文档是指URL请求的响应体数据

  • “提交文档”的消息是由浏览器进程发出的渲染进程接收到“提交文档”的消息后,会和网络进程建立传输数据的“管道”
  • 文档数据传输完成之后,渲染进程会返回“确认提交”的消息给浏览器进程
  • 浏览器进程在收到“确认提交”的消息后,会更新浏览器界面状态,包括了安全状态、地址栏的URL、前进后退的历史状态,并更新Web页面

提交文档更新内容.png

这也就解释了为什么在浏览器的地址栏里面输入了一个地址后,之前的页面没有立马消失,而是要加载一会儿才会更新页面

此时,一个完整的导航流程就“走”完了,这之后就要进入渲染阶段了

渲染阶段

一旦文档被提交,渲染进程便开始页面解析和子资源加载

此部分在下一节介绍,这里只需要了解一旦页面生成完成,渲染进程会发送一个消息给浏览器进程,浏览器接收到消息后,会停止标签图标上的加载动画

解决问题

上述的过程已经回答了一开始的问题,这里做一个总结:

  • 用户输入url并回车

  • 浏览器进程检查url,组装协议,构成完整的url

  • 浏览器进程通过进程间通信(IPC)把url请求发送给网络进程

  • 网络进程接收到url请求后检查本地缓存是否缓存了该请求资源,如果有则将该资源返回给浏览器进程

  • 如果没有,网络进程向web服务器发起http请求(网络请求),请求流程如下:

    • 进行DNS解析,获取服务器ip地址,端口(端口是通过dns解析获取的吗?这里有个疑问)
    • 利用ip地址和服务器建立tcp连接
    • 构建请求头信息
    • 发送请求头信息
    • 服务器响应后,网络进程接收响应头和响应信息,并解析响应内容
  • 网络进程解析响应流程

    • 检查状态码,如果是301/302,则需要重定向,从Location自动中读取地址,重新进行第4步 (301/302跳转也会读取本地缓存吗?这里有个疑问),如果是200,则继续处理请求。
    • 200响应处理:检查响应类型Content-Type,如果是字节流类型,则将该请求提交给下载管理器,该导航流程结束,不再进行后续的渲染,如果是html则通知浏览器进程准备渲染进程准备进行渲染。
  • 准备渲染进程

    • 浏览器进程检查当前url是否和之前打开的渲染进程根域名是否相同,如果相同,则复用原来的进程,如果不同,则开启新的渲染进程
  • 传输数据、更新状态

    • 渲染进程准备好后,浏览器向渲染进程发起“提交文档”的消息,渲染进程接收到消息和网络进程建立传输数据的“管道”
    • 渲染进程接收完数据后,向浏览器发送“确认提交”
    • 浏览器进程接收到确认消息后更新浏览器界面状态:安全、地址栏url、前进后退的历史状态、更新web页面