浅析 HTTP 协议

698 阅读6分钟

前言

在这之前,可以看看我之前的文章,也是关于协议的。

TCP/IP 协议详解

UDP是个什么鬼

我们在打开一个网页的时候通常都会注意到网址的前面有一个统一的标识http://(或https://),这代表的就是本次访问使用 HTTP 协议进行通信。

那么问题来了:为什么我们在通信的时候要用到这个协议呢?

简单来讲,所谓协议其实就是一个规范、一个标准,大家共同遵守。通信双方通过使用统一的规范,能够有效地将信息结构化,让相应的信息各归其位,正是“上帝的归上帝,凯撒的归凯撒”。这样一来就可以大大地降低信息传输的成本。

假设一下,如果我们在因特网上传输信息的时候不遵守某个协议,会出现什么情况呢?最直接的影响就是鸡同鸭讲。

概念

HTTP,全称“超文本传输协议(HyperText Transfer Protocol)”,是构建我们今天所熟知的万维网的基础,也是我们在访问互联网时最常见的一种协议类型。

image-20210827173938365

协议

在生活中,我们也能随处可见「协议」,例如:找房子时会签一个「租房协议」

生活中的协议,本质上与计算机中的协议是相同的,协议的特点:

  • 」字,代表的意思是必须有两个以上的参与者。租房协议里的参与者有两个:你和房东。
  • 」字,代表的意思是对参与者的一种行为约定和规范。租房协议里规定租期期限、每月租金金额、违约如何处理等。

针对 HTTP 协议,我们可以这么理解。

HTTP 是一个用在计算机世界里的协议。它使用计算机能够理解的语言确立了一种计算机之间交流通信的规范(两个以上的参与者),以及相关的各种控制和错误处理方式(行为约定和规范)。

传输

所谓的「传输」,很好理解,就是把一堆东西从 A 点搬到 B 点,或者从 B 点 搬到 A 点。

别轻视了这个简单的动作,它至少包含两项重要的信息。

HTTP 协议是一个双向协议

我们在上网冲浪时,浏览器是请求方 A ,百度网站就是应答方 B。双方约定用 HTTP 协议来通信,于是浏览器把请求数据发送给网站,网站再把一些数据返回给浏览器,最后由浏览器渲染在屏幕,就可以看到图片、视频了。

image-20210827175005300

数据虽然是在 A 和 B 之间传输,但允许中间有中转或接力

就好像第一排的同学想穿递纸条给最后一排的同学,那么传递的过程中就需要经过好多个同学(中间人),这样的传输方式就从「A < --- > B」,变成了「A <-> N <-> M <-> B」。

而在 HTTP 里,需要中间人遵从 HTTP 协议,只要不打扰基本的数据传输,就可以添加任意额外的东西。

针对传输,我们可以进一步理解了 HTTP。

HTTP 是一个在计算机世界里专门用来在两点之间传输数据的约定和规范。

超文本

文本:在互联网早期的时候只是简单的字符文字,但现在「文本」的涵义已经可以扩展为图片、视频、压缩包等,在 HTTP 眼里这些都算做「文本」。

超文本:它就是超越了普通文本的文本,它是文字、图片、视频等的混合体最关键有超链接,能从一个超文本跳转到另外一个超文本。

HTML 就是最常见的超文本了,它本身只是纯文字文件,但内部用很多标签定义了图片、视频等的链接,在经过浏览器的解释,呈现给我们的就是一个文字、有画面的网页了。

HTTP 是一个在计算机世界里专门在「两点」之间「传输」文字、图片、音频、视频等「超文本」数据的「约定和规范」。

HTTP 协议的格式

我们将整个协议划分为两个大类:请求,响应。

HTTP 请求

一般地,HTTP 协议格式主要分成四个部分:起始行消息头空行消息体;如图所示。

image-20210827184000299

其中,起始行又包含三个信息:方法URIHTTP 协议版本

方法:指的是本次请求要执行的操作,有时也称“HTTP 谓词”或“HTTP 动词”。常见的方法是GETPOST这两个:GET表示客户端要从服务器获取资源;而POST则表示客户端要想服务器传输一些表单数据。

URI:一般来说会是一个绝对路径,末尾可以跟上一个问号“?”和查询字符串;当使用代理时,就会是一个完整的 URL。

HTTP 协议版本:就是字面意思,告知对方自己使用的 HTTP 协议是哪个版本,以免混乱。

起始行最常见的形式类似于下面这样:

GET /user/3940246036953293 HTTP/1.1

当使用代理时则会变成(该 URL 为虚构):

GET https://juejin.cn/user/3940246036953293 HTTP/1.1

消息头:包含一些对消息的描述信息,格式是<field>:<value>。具体地,各种消息头又被分为四大类:通用头、请求头、响应头(用于响应消息)和实体头。

空行:起到的作用是提示消息头结束、消息体开始,不需要再花费笔墨。

消息体:也就是一条 HTTP 消息要传输的主体。然而稍稍有些尴尬的是,对于有的方法而言并不需要传输其他信息,只需要有起始行和消息头就足够了(比如GET方法),因此这个部分不仅不一定是最长的,甚至可能是空的。

HTTP 响应

与请求消息比较类似,HTTP 响应消息也分为四个部分:状态行消息头空行消息体,如图所示:

image-20210827184052605

其中后三个部分与 HTTP 请求消息基本一致,因此着重看状态行

状态行也由三个部分组成:HTTP 协议版本状态码状态文本。其中 HTTP 协议版本无需赘言。

状态码:其实我们很熟悉。最典型的一个就是每当我们访问的某个 URL 不存在时,就会得到一个404的状态码。因此状态码实际上是用来标识请求成功与否的数字。除了404,典型的状态码还有200(请求成功)、301(资源被永久移动)、302(资源被临时移动)等。

根据第一位数字,状态码大概可以分为 5 种:

状态文本:则是一条简短、纯粹的信息,描述的是状态码代表的实际状态,是为了便于人机交互。

因此一个典型的状态行可能长成这样:

HTTP/1.1 404 Not Found

当客户端使用GET方法向服务器请求了一个网页,此时如果请求成功,服务器的 HTTP 响应消息的消息体就会包含该网页的 HTML 文本。

总结

本文只是简单的介绍了一下 HTTP 协议,粗浅地了解了与之相关的一些知识。后面的文章我们会更加深入的了解HTTP的知识。关注我,一个专注分享Java知识的新时代农民工