导航流程
这一节的问题就是:从输入URL到页面展示这中间发生了什么?
从输入URL到页面展示完整流程示意图:
可以看出,这是由几个进程相互配合才能完成的工作:
- 浏览器进程:主要负责用户交互、子进程管理和文件存储功能
- 网络进程:面向渲染进程和浏览器进程等提供网络下载功能
- 渲染进程:将从网络下载下来的JS等资源解析为可以显式和交互的页面,由于渲染经常的所有内容都是通过网络获取的,所以可能存在一些恶意代码对系统进行攻击,所以渲染进程里面的代码是不被信任的,这也是为什么Chrome会让渲染进程运行在安全沙箱里,就是为了保证系统安全
除了三个进程外,还有几个主要的核心节点需要我们着重了解:
- 用户输入:用户从浏览器进程中输入的请求信息
- 发起URL请求:网络警察发起URL请求
- 准备渲染进程:服务器响应URL请求之后,浏览器进程就可以准备渲染进程了
- 提交文档:渲染进程准备好后,需要先向渲染进程提交页面数据
- 页面解析和子资源加载:渲染进程接受完文档信息后,就可以开始解析页面和加载子资源,完成页面渲染
用户发出URL请求到页面解析的这个过程,叫做导航,接下来详细分析一下上述的步骤
从输入URL到页面展示
用户输入
当用户在地址栏中输入一个查询关键字时,地址栏会判断输入的关键字是搜索内容,还是请求的URL
- 如果是搜索内容,地址栏会使用浏览器默认的搜索引擎,来合成带搜索关键字的URL
- 如果符合URL规则,那么地址栏就会根据规则,把这段内容加上协议,合成完整的URL
输入查询关键字并回车之后会发生:当浏览器刚开始加载一个地址之后,标签页上的图标便进入了加载状态,但此时图中页面显示的依然是之前打开的页面内容,并没立即替换为新页面,因为需要等待提交文档阶段,页面内容才会被替换
URL请求过程
浏览器进程会通过进程间通信(IPC)把URL请求发送至网络进程,网络进程接收到URL请求后,会在这里发起真正的URL请求流程
具体的流程:
- 首先,网络进程会查找本地缓存是否缓存了该资源,如果有则直接返回资源给浏览器进程,如果没有则直接进入网络请求流程,进入网络请求前要进行DNS解析,以获取请求域名的服务器IP地址
- 接下来,利用IP地址和服务器建立TCP连接。连接建立之后,浏览器端会构建请求行、请求头等信息,并把和该域名相关的Cookie等数据附加到请求头中,然后向服务器发送构建的请求信息
- 服务器接收到请求信息后,会根据请求信息生成响应数据(包括响应行、响应头和响应体等信息),并发给网络进程。等网络进程接收了响应行和响应头之后,就开始解析响应头的内容了
从此处开始,后面将服务器返回的响应头和响应行统称为响应头
重定向
在接收到服务器返回的响应头后,网络进程开始解析响应头,如果发现返回的状态码是301或者302,那么说明服务器需要浏览器重定向到其他URL
这时网络进程会从响应头的Location字段里面读取重定向的地址,然后再发起新的HTTP或者HTTPS请求
所以,在导航过程中,如果服务器响应行的状态码包含了301、302一类的跳转信息,浏览器会跳转到新的地址继续导航;如果响应行是200,那么表示浏览器可以继续处理该请求
响应数据类型处理
URL请求的数据类型,有时候是一个下载类型,有时候是正常的HTML页面,那么浏览器是如何区分它们呢?
答案是Content-Type
Content-Type是HTTP头中一个非常重要的字段, 它告诉浏览器服务器返回的响应体数据是什么类型,然后浏览器会根据Content-Type的值来决定如何显示响应体的内容
如果响应头中的Content-type字段的值是text/html,这就是告诉浏览器,服务器返回的数据是HTML格式
如果Content-Type的值是application/octet-stream,显示数据是字节流类型的,通常情况下,浏览器会按照下载类型来处理该请求
并且,不同Content-Type的后续处理流程也截然不同,如果是下载类型,则该请求则提交给浏览器的下载管理器,如果是HTML,那么浏览器则会继续进行导航流程,并且由于Chrome的页面渲染是运行在渲染进程中的,所以接下来需要准备渲染进程了
准备渲染进程
默认情况下,Chrome会为每个页面分配一个渲染进程
但是,在某些情况下,浏览器会让多个页面直接运行在同一个渲染进程中
可以看到,三个掘金都在同一个渲染进程中,进程ID是15892
那么什么情况下多个页面在同一个渲染进程中?
首先,我们先来了解一下同一站点:具体地讲,我们将“同一站点”定义为根域名(例如,geekbang.org)加上协议(例如,https:// 或者http://),还包含了该根域名下的所有子域名和不同的端口,如:
https://time.geekbang.org
https://www.geekbang.org
https://www.geekbang.org:8080
Chrome的默认策略是,每个标签对应一个渲染进程。但如果从一个页面打开了另一个新页面,而新页面和当前页面属于同一站点的话,那么新页面会复用父页面的渲染进程。官方把这个默认策略叫process-per-site-instance。
若新页面和当前页面不属于同一站点,那就会使用一个新的渲染进程
渲染进程准备好后,还不能立即进入文档解析状态,因为此时的文档数据还在网络进程中,并没有提交给渲染进程,所以下一步就进入提交文档阶段
提交文档
此处的文档是指URL请求的响应体数据
- “提交文档”的消息是由浏览器进程发出的,渲染进程接收到“提交文档”的消息后,会和网络进程建立传输数据的“管道”
- 等文档数据传输完成之后,渲染进程会返回“确认提交”的消息给浏览器进程
- 浏览器进程在收到“确认提交”的消息后,会更新浏览器界面状态,包括了安全状态、地址栏的URL、前进后退的历史状态,并更新Web页面
这也就解释了为什么在浏览器的地址栏里面输入了一个地址后,之前的页面没有立马消失,而是要加载一会儿才会更新页面
此时,一个完整的导航流程就“走”完了,这之后就要进入渲染阶段了
渲染阶段
一旦文档被提交,渲染进程便开始页面解析和子资源加载了
此部分在下一节介绍,这里只需要了解一旦页面生成完成,渲染进程会发送一个消息给浏览器进程,浏览器接收到消息后,会停止标签图标上的加载动画
解决问题
上述的过程已经回答了一开始的问题,这里做一个总结:
-
用户输入url并回车
-
浏览器进程检查url,组装协议,构成完整的url
-
浏览器进程通过进程间通信(IPC)把url请求发送给网络进程
-
网络进程接收到url请求后检查本地缓存是否缓存了该请求资源,如果有则将该资源返回给浏览器进程
-
如果没有,网络进程向web服务器发起http请求(网络请求),请求流程如下:
- 进行DNS解析,获取服务器ip地址,端口(端口是通过dns解析获取的吗?这里有个疑问)
- 利用ip地址和服务器建立tcp连接
- 构建请求头信息
- 发送请求头信息
- 服务器响应后,网络进程接收响应头和响应信息,并解析响应内容
-
网络进程解析响应流程
- 检查状态码,如果是301/302,则需要重定向,从Location自动中读取地址,重新进行第4步 (301/302跳转也会读取本地缓存吗?这里有个疑问),如果是200,则继续处理请求。
- 200响应处理:检查响应类型Content-Type,如果是字节流类型,则将该请求提交给下载管理器,该导航流程结束,不再进行后续的渲染,如果是html则通知浏览器进程准备渲染进程准备进行渲染。
-
准备渲染进程
- 浏览器进程检查当前url是否和之前打开的渲染进程根域名是否相同,如果相同,则复用原来的进程,如果不同,则开启新的渲染进程
-
传输数据、更新状态
- 渲染进程准备好后,浏览器向渲染进程发起“提交文档”的消息,渲染进程接收到消息和网络进程建立传输数据的“管道”
- 渲染进程接收完数据后,向浏览器发送“确认提交”
- 浏览器进程接收到确认消息后更新浏览器界面状态:安全、地址栏url、前进后退的历史状态、更新web页面