导航流程

这一节的问题就是：从输入URL到页面展示这中间发生了什么？

从输入URL到页面展示完整流程示意图：

导航流程.png

可以看出，这是由几个进程相互配合才能完成的工作：

浏览器进程：主要负责用户交互、子进程管理和文件存储功能
网络进程：面向渲染进程和浏览器进程等提供网络下载功能
渲染进程：将从网络下载下来的JS等资源解析为可以显式和交互的页面，由于渲染经常的所有内容都是通过网络获取的，所以可能存在一些恶意代码对系统进行攻击，所以渲染进程里面的代码是不被信任的，这也是为什么Chrome会让渲染进程运行在安全沙箱里，就是为了保证系统安全

除了三个进程外，还有几个主要的核心节点需要我们着重了解：

用户输入：用户从浏览器进程中输入的请求信息
发起URL请求：网络警察发起URL请求
准备渲染进程：服务器响应URL请求之后，浏览器进程就可以准备渲染进程了
提交文档：渲染进程准备好后，需要先向渲染进程提交页面数据
页面解析和子资源加载：渲染进程接受完文档信息后，就可以开始解析页面和加载子资源，完成页面渲染

用户发出URL请求到页面解析的这个过程，叫做导航，接下来详细分析一下上述的步骤

从输入URL到页面展示

用户输入

当用户在地址栏中输入一个查询关键字时，地址栏会判断输入的关键字是搜索内容，还是请求的URL

如果是搜索内容，地址栏会使用浏览器默认的搜索引擎，来合成带搜索关键字的URL
如果符合URL规则，那么地址栏就会根据规则，把这段内容加上协议，合成完整的URL

输入查询关键字并回车之后会发生：当浏览器刚开始加载一个地址之后，标签页上的图标便进入了加载状态，但此时图中页面显示的依然是之前打开的页面内容，并没立即替换为新页面，因为需要等待提交文档阶段，页面内容才会被替换

URL请求过程

浏览器进程会通过进程间通信（IPC）把URL请求发送至网络进程，网络进程接收到URL请求后，会在这里发起真正的URL请求流程

具体的流程：

首先，网络进程会查找本地缓存是否缓存了该资源，如果有则直接返回资源给浏览器进程，如果没有则直接进入网络请求流程，进入网络请求前要进行DNS解析，以获取请求域名的服务器IP地址
接下来，利用IP地址和服务器建立TCP连接。连接建立之后，浏览器端会构建请求行、请求头等信息，并把和该域名相关的Cookie等数据附加到请求头中，然后向服务器发送构建的请求信息
服务器接收到请求信息后，会根据请求信息生成响应数据（包括响应行、响应头和响应体等信息），并发给网络进程。等网络进程接收了响应行和响应头之后，就开始解析响应头的内容了

从此处开始，后面将服务器返回的响应头和响应行统称为响应头

重定向

在接收到服务器返回的响应头后，网络进程开始解析响应头，如果发现返回的状态码是301或者302，那么说明服务器需要浏览器重定向到其他URL

这时网络进程会从响应头的Location字段里面读取重定向的地址，然后再发起新的HTTP或者HTTPS请求

所以，在导航过程中，如果服务器响应行的状态码包含了301、302一类的跳转信息，浏览器会跳转到新的地址继续导航；如果响应行是200，那么表示浏览器可以继续处理该请求

响应数据类型处理

URL请求的数据类型，有时候是一个下载类型，有时候是正常的HTML页面，那么浏览器是如何区分它们呢？

答案是Content-Type

Content-Type是HTTP头中一个非常重要的字段，它告诉浏览器服务器返回的响应体数据是什么类型，然后浏览器会根据Content-Type的值来决定如何显示响应体的内容

如果响应头中的Content-type字段的值是text/html，这就是告诉浏览器，服务器返回的数据是HTML格式

如果Content-Type的值是application/octet-stream，显示数据是字节流类型的，通常情况下，浏览器会按照下载类型来处理该请求

并且，不同Content-Type的后续处理流程也截然不同，如果是下载类型，则该请求则提交给浏览器的下载管理器，如果是HTML，那么浏览器则会继续进行导航流程，并且由于Chrome的页面渲染是运行在渲染进程中的，所以接下来需要准备渲染进程了

准备渲染进程

默认情况下，Chrome会为每个页面分配一个渲染进程

但是，在某些情况下，浏览器会让多个页面直接运行在同一个渲染进程中

多个页面同一个进程.png 可以看到，三个掘金都在同一个渲染进程中，进程ID是15892

那么什么情况下多个页面在同一个渲染进程中？

首先，我们先来了解一下同一站点：具体地讲，我们将“同一站点”定义为根域名（例如，geekbang.org）加上协议（例如，https:// 或者http://），还包含了该根域名下的所有子域名和不同的端口，如：

 https://time.geekbang.org
 https://www.geekbang.org
 https://www.geekbang.org:8080

Chrome的默认策略是，每个标签对应一个渲染进程。但如果从一个页面打开了另一个新页面，而新页面和当前页面属于同一站点的话，那么新页面会复用父页面的渲染进程。官方把这个默认策略叫process-per-site-instance。

若新页面和当前页面不属于同一站点，那就会使用一个新的渲染进程

渲染进程准备好后，还不能立即进入文档解析状态，因为此时的文档数据还在网络进程中，并没有提交给渲染进程，所以下一步就进入提交文档阶段

提交文档

此处的文档是指URL请求的响应体数据

“提交文档”的消息是由浏览器进程发出的，渲染进程接收到“提交文档”的消息后，会和网络进程建立传输数据的“管道”
等文档数据传输完成之后，渲染进程会返回“确认提交”的消息给浏览器进程
浏览器进程在收到“确认提交”的消息后，会更新浏览器界面状态，包括了安全状态、地址栏的URL、前进后退的历史状态，并更新Web页面

提交文档更新内容.png

这也就解释了为什么在浏览器的地址栏里面输入了一个地址后，之前的页面没有立马消失，而是要加载一会儿才会更新页面

此时，一个完整的导航流程就“走”完了，这之后就要进入渲染阶段了

渲染阶段

一旦文档被提交，渲染进程便开始页面解析和子资源加载了

此部分在下一节介绍，这里只需要了解一旦页面生成完成，渲染进程会发送一个消息给浏览器进程，浏览器接收到消息后，会停止标签图标上的加载动画

解决问题

上述的过程已经回答了一开始的问题，这里做一个总结：

用户输入url并回车
浏览器进程检查url，组装协议，构成完整的url
浏览器进程通过进程间通信（IPC）把url请求发送给网络进程
网络进程接收到url请求后检查本地缓存是否缓存了该请求资源，如果有则将该资源返回给浏览器进程
如果没有，网络进程向web服务器发起http请求（网络请求），请求流程如下：
- 进行DNS解析，获取服务器ip地址，端口（端口是通过dns解析获取的吗？这里有个疑问）
- 利用ip地址和服务器建立tcp连接
- 构建请求头信息
- 发送请求头信息
- 服务器响应后，网络进程接收响应头和响应信息，并解析响应内容
网络进程解析响应流程
- 检查状态码，如果是301/302，则需要重定向，从Location自动中读取地址，重新进行第4步（301/302跳转也会读取本地缓存吗？这里有个疑问），如果是200，则继续处理请求。
- 200响应处理：检查响应类型Content-Type，如果是字节流类型，则将该请求提交给下载管理器，该导航流程结束，不再进行后续的渲染，如果是html则通知浏览器进程准备渲染进程准备进行渲染。
准备渲染进程
- 浏览器进程检查当前url是否和之前打开的渲染进程根域名是否相同，如果相同，则复用原来的进程，如果不同，则开启新的渲染进程
传输数据、更新状态
- 渲染进程准备好后，浏览器向渲染进程发起“提交文档”的消息，渲染进程接收到消息和网络进程建立传输数据的“管道”
- 渲染进程接收完数据后，向浏览器发送“确认提交”
- 浏览器进程接收到确认消息后更新浏览器界面状态：安全、地址栏url、前进后退的历史状态、更新web页面

04-导航流程