初识HTTP协议 | 青训营

550 阅读13分钟

什么是HTTP?

HTTP(Hypertext Transfer Protocol) 是一种用于传输超文本的应用层协议。它是在万维网中用于在客户端和服务器之间进行通信的基础协议之一。HTTP允许客户端(通常是浏览器)向服务器请求数据,然后服务器将数据作为响应返回给客户端。这种请求-响应模式使得在Web上浏览、检索和传输信息变得可能。

8307.jpg

HTTP的主要特点包括:

  1. 无连接: HTTP是一种无连接协议,每个请求和响应之间都是独立的,服务器不会保持与客户端的持久连接。这意味着每个请求都是独立处理的,服务器不会记住之前的请求状态。
  2. 无状态: HTTP是一种无状态协议,服务器不会保存客户端请求的状态。这意味着每个请求都是相互独立的,服务器不会跟踪客户端的状态或会话信息。
  3. 基于文本: HTTP的消息是文本形式的,消息内容以ASCII码传输,这使得它容易被人类阅读和理解。
  4. 支持方法: HTTP定义了不同的请求方法,如GET、POST、PUT、DELETE等,用于执行不同的操作。其中,GET用于获取资源,POST用于提交数据,PUT用于更新资源,DELETE用于删除资源等。
  5. 可扩展性: HTTP是一个可扩展的协议,可以通过添加自定义的头部字段(Header)来实现额外的功能或信息传递。
  6. 状态码: HTTP使用状态码来表示请求的处理结果,如200表示成功,404表示未找到资源,500表示服务器内部错误等。

HTTP协议是现代互联网和Web应用的基础,它使得浏览器能够请求并获取网页、图片、视频等资源,实现了无数网站的运行和用户的互动。随着互联网的发展,HTTP也在不断演进,例如,HTTP/1.1、HTTP/2、HTTP/3等版本都引入了新的特性和优化,以提高性能和安全性。

协议分析

  1. HTTP/0.9: 最早的HTTP版本,于1991年发布。它非常简单,仅支持GET请求,只能传输HTML文本,并且没有Header等概念。
  2. HTTP/1.0: 于1996年发布,引入了更多的请求方法(如POST、HEAD等)、Header、状态码、多媒体传输等特性。此版本支持多种内容类型的传输。
  3. HTTP/1.1: 于1999年发布,是目前应用最广泛的版本。它引入了持久连接、管道化请求、分块传输编码、虚拟主机、缓存控制、安全性等重要特性,大大提高了性能和效率。
  4. SPDY: 谷歌于2012年推出的协议,旨在减少Web页面加载时间。SPDY在HTTP/1.1基础上引入了多路复用、头部压缩等特性,后来部分特性被整合到HTTP/2中。
  5. HTTP/2: 于2015年发布,基于SPDY协议,并取代了HTTP/1.1。HTTP/2引入了二进制帧、多路复用、头部压缩、服务器推送等特性,从而提高了性能和效率。
  6. HTTP/3: 于2020年发布,是由QUIC(Quick UDP Internet Connections)协议衍生而来。HTTP/3在UDP协议上构建,旨在解决TCP的一些问题,如连接建立的延迟。它引入了TLS 1.3加密、多路复用、0-RTT连接等特性,以提供更好的性能。

报文

HTTP协议通信通过请求和响应两种报文来完成,这些报文由请求行、首部、可选的报文体组成。

HTTP请求报文示例:

GET /index.html HTTP/1.1
Host: www.example.com
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
  • 请求行: 请求行由三部分组成:请求方法(GET)、请求URI(/index.html)和HTTP协议版本(HTTP/1.1)。
  • 首部: 首部包含了多行键值对,用于描述请求的一些额外信息。例如,Host 首部指定了请求的目标主机,User-Agent 首部表示客户端的用户代理。
  • 报文体: 在这个GET请求中,没有报文体,因为GET请求一般不包含数据。

HTTP响应报文示例:

HTTP/1.1 200 OK
Date: Fri, 10 Apr 2022 15:30:00 GMT
Server: Apache/2.4.41 (Unix)
Content-Length: 1234
Content-Type: text/html; charset=UTF-8

<!DOCTYPE html>
<html>
<head>
  <title>Welcome to Example.com</title>
</head>
<body>
  <h1>Hello, World!</h1>
</body>
</html>
  • 状态行: 状态行由三部分组成:HTTP协议版本(HTTP/1.1)、状态码(200 OK)和状态消息(OK)。
  • 首部: 首部包含了多行键值对,用于描述响应的一些额外信息。例如,Date 首部表示响应的日期,Content-Length 首部表示响应体的长度。
  • 报文体: 报文体包含了实际的响应内容,这里是一个简单的HTML页面。

Method

HTTP协议定义了一组请求方法(也称为HTTP动词或HTTP谓词),用于指定客户端希望在服务器上执行的操作。每个请求方法都具有不同的语义和目的,服务器可以根据收到的请求方法来决定如何处理请求。以下是常见的HTTP请求方法的详细介绍:

HTTP方法用途特点示例
GET获取指定资源的数据请求中不包含请求体,参数通过URL的查询字符串传递获取网页、图片、文档等资源
POST向服务器提交数据,创建新资源或处理操作请求中包含请求体,通常用于表单提交、上传文件等提交表单、发布博文、上传文件
PUT向服务器更新或创建指定的资源类似于POST,要求完整的资源数据更新用户信息、更新文章内容
DELETE删除指定的资源请求中可能包含数据,取决于是否需要传递要删除的资源标识删除用户、删除评论
PATCH部分更新指定的资源请求中包含需要更新的部分数据,服务器进行局部更新修改用户密码、更新文章部分内容
HEAD与GET类似,但只返回资源的头部信息主要用于获取资源的元数据,不返回实际数据检查资源是否存在、获取资源信息
OPTIONS获取服务器对指定资源支持的HTTP方法和其他信息用于查看服务器的功能支持情况查看资源支持的请求方法
CONNECT用于建立与目标资源的网络连接用于HTTP代理服务器的连接功能,建立隧道连接用于建立安全隧道
TRACE用于追踪服务器和客户端之间的通信路径不常用,可能导致安全问题,现代浏览器通常禁用用于调试和故障排查

状态码

HTTP协议中的状态码是服务器用来向客户端传达请求处理结果的数字代码。每个状态码都表示一种特定的含义,帮助客户端了解请求的处理状态。以下是常见的HTTP状态码及其代表的内容:

  • 1xx - Informational(信息性状态码): 表示请求已被接受,但还需要进一步处理。

    • 100 Continue:服务器已接收部分请求,客户端应继续发送其余部分。
  • 2xx - Successful(成功状态码): 表示请求已成功被服务器接受、理解和处理。

    • 200 OK:请求成功,响应包含所请求的数据。
    • 201 Created:请求成功并创建了新资源。
    • 204 No Content:请求成功,但响应没有数据,通常用于更新或删除操作。
  • 3xx - Redirection(重定向状态码): 表示客户端需要采取进一步的操作来完成请求。

    • 301 Moved Permanently:请求的资源已永久移动到新位置。
    • 302 Found / 303 See Other:请求的资源已暂时移动到新位置。
    • 304 Not Modified:资源未修改,可以使用缓存的版本。
    • 307 Temporary Redirect:请求的资源已暂时移动到新位置,客户端应继续使用原始请求的方法。
  • 4xx - Client Error(客户端错误状态码): 表示客户端发出的请求有误。

    • 400 Bad Request:请求语法错误或无法理解。
    • 401 Unauthorized:需要用户验证。
    • 403 Forbidden:服务器理解请求,但拒绝执行。
    • 404 Not Found:请求的资源不存在。
    • 405 Method Not Allowed:请求方法不被允许。
    • 429 Too Many Requests:请求过多,服务器拒绝响应。
  • 5xx - Server Error(服务器错误状态码): 表示服务器无法完成有效请求。

    • 500 Internal Server Error:服务器内部错误。
    • 501 Not Implemented:服务器不支持请求的功能。
    • 503 Service Unavailable:服务器暂时不可用,通常是因为过载或维护。
    • 504 Gateway Timeout:服务器作为网关或代理,但未及时从上游服务器接收响应。

常用请求头

HTTP协议中的请求头部(Request Headers)是在HTTP请求中包含的元数据信息,用于向服务器传递关于请求的额外信息。以下是HTTP协议中常用的请求头部及其含义:

  1. User-Agent:

    • 含义:标识发起请求的用户代理(通常是浏览器)的信息。
    • 示例:User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36
  2. Accept:

    • 含义:告诉服务器客户端可以接受的响应内容类型。
    • 示例:Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
  3. Host:

    • 含义:指定请求的目标主机和端口号。
    • 示例:Host: www.example.com
  4. Referer:

    • 含义:告诉服务器请求是从哪个URL发起的,常用于防止CSRF攻击和统计分析。
    • 示例:Referer: https://www.example.com/page1
  5. Authorization:

    • 含义:提供客户端的身份验证凭据,通常用于HTTP Basic认证或Bearer Token认证。
    • 示例(Basic认证):Authorization: Basic base64EncodedCredentials
    • 示例(Bearer Token认证):Authorization: Bearer accessToken
  6. Content-Type:

    • 含义:指定请求体的媒体类型,用于POST、PUT等请求中传递数据。
    • 示例:Content-Type: application/json
  7. Content-Length:

    • 含义:指定请求体的字节长度,用于指示服务器从请求体中读取数据的长度。
    • 示例:Content-Length: 123
  8. Cookie:

    • 含义:向服务器传递之前存储在客户端的Cookie信息。
    • 示例:Cookie: sessionId=abcdef12345
  9. If-Modified-Since:

    • 含义:用于条件GET请求,告诉服务器只有在某个日期之后资源被修改过才返回资源。
    • 示例:If-Modified-Since: Tue, 15 Jun 2021 08:00:00 GMT
  10. Cache-Control:

    • 含义:控制请求和响应的缓存机制,例如是否使用缓存、缓存时间等。
    • 示例:Cache-Control: no-cache, max-age=3600

常用响应头

HTTP协议中的响应头部(Response Headers)是服务器在HTTP响应中返回的元数据信息,用于向客户端传递关于响应的额外信息。以下是HTTP协议中常用的响应头部及其含义:

  1. Content-Type:

    • 含义:指定响应体的媒体类型,告诉客户端返回数据的格式。
    • 示例:Content-Type: text/html; charset=UTF-8
  2. Content-Length:

    • 含义:指定响应体的字节长度,用于告诉客户端实际返回数据的长度。
    • 示例:Content-Length: 1234
  3. Location:

    • 含义:用于重定向响应,告诉客户端新的资源位置。
    • 示例:Location: https://www.example.com/new-location
  4. Cache-Control:

    • 含义:控制响应的缓存机制,告诉客户端如何处理响应的缓存。
    • 示例:Cache-Control: no-cache, max-age=3600
  5. Set-Cookie:

    • 含义:向客户端设置Cookie,用于在浏览器中存储状态信息。
    • 示例:Set-Cookie: sessionId=abcdef12345; HttpOnly; Secure; SameSite=Strict
  6. ETag:

    • 含义:表示资源的唯一标识符,用于缓存控制和条件请求。
    • 示例:ETag: "abcdef12345"
  7. Last-Modified:

    • 含义:表示资源的最后修改时间,用于缓存控制和条件请求。
    • 示例:Last-Modified: Tue, 15 Jun 2021 08:00:00 GMT
  8. Access-Control-Allow-Origin:

    • 含义:用于CORS(跨源资源共享)策略,指定允许访问响应的源。
    • 示例:Access-Control-Allow-Origin: https://www.example.com
  9. WWW-Authenticate:

    • 含义:用于HTTP身份验证,告诉客户端需要提供的身份验证方式。
    • 示例:WWW-Authenticate: Basic realm="Example Realm"
  10. Server:

    • 含义:表示服务器的软件和版本信息。
    • 示例:Server: Apache/2.4.41 (Unix)

缓存

HTTP协议中的缓存机制允许客户端和服务器之间缓存资源,从而减少重复的网络请求,提高性能和响应速度。缓存可以有效地减少网络流量和服务器负载,但同时需要注意如何管理缓存,以确保数据的实时性和一致性。

HTTP缓存主要分为两个层次:客户端缓存和代理服务器缓存。以下是HTTP缓存的详细介绍:

客户端缓存:

  1. 浏览器缓存: 浏览器可以缓存已访问过的资源,如HTML、CSS、JavaScript、图片等。常见的浏览器缓存策略包括:

    • 强缓存(Cache-Control和Expires): 服务器通过响应头部设置Cache-ControlExpires来控制资源的缓存时间。浏览器在有效期内直接使用缓存,而无需发送请求到服务器。
    • 协商缓存(ETag和Last-Modified): 如果资源的缓存过期或需要重新验证,浏览器会发送一个条件请求,服务器根据资源的ETagLast-Modified来判断是否需要返回新数据。如果资源没有改变,服务器返回304 Not Modified,浏览器使用缓存。

代理服务器缓存:

  1. 反向代理缓存: 在服务器和客户端之间有反向代理服务器时,它可以缓存服务器返回的响应,从而避免频繁地请求真实服务器。常见的反向代理缓存软件包括Nginx和Varnish。
  2. CDN缓存: 内容分发网络(CDN)通过分布在全球多个节点的缓存服务器来加速内容传输,减少延迟,提供高可用性,并减轻源服务器的负载。

缓存控制策略:

在HTTP头部中,常见的用于控制缓存的字段包括:

  • Cache-Control:指定缓存行为,如public(允许任何地方的缓存)和private(只允许客户端缓存)等。
  • Expires:指定资源的过期时间,使用绝对时间。
  • ETag:指定资源的唯一标识符,用于协商缓存。
  • Last-Modified:指定资源的最后修改时间,用于协商缓存。

注意事项:

  • 缓存需要根据资源类型和实际需求来配置,不同类型的资源可能需要不同的缓存策略。
  • 需要在资源发生变化时更新ETagLast-Modified,以确保协商缓存能够正常工作。
  • 使用合适的缓存策略可以显著提升性能,但过长或过短的缓存时间都可能会影响用户体验。