HTTP协议

243 阅读9分钟

HTTP 超文本传输协议

相关概念

  • 互联网:是网络,是所有类型网络的母集。

  • 因特网:世界上最大的互联网网络。即因特网概念从属于互联网概念。习惯上,大家把连接在因特网上的计算机都成为主机。

  • 万维网:WWW(world wide web)万维网并非某种特殊的计算机网络,是一个大规模的、联机式的信息贮藏库,使用链接的方法能非常方便地从因特网上的一个站点访问另一个站点(超链技术),具有提供分布式服务的特点。万维网是一个分布式的超媒体系统,是超文本系统的扩充,基于B/S架构实现

  • URL:万维网使用统一资源定位符(Uniform Resource Locator)来标志万维网上的各种文档,并使每个文档在整个因特网的范围内具有唯一的标识符URL。

  • HTTP:超文本传送协议,HTTP是处于应用层的协议,使用TCP传输层协议进行可靠的传送。因此,需要特别提醒的是,万维网是基于因特网的一种广泛因特网应用系统,且万维网采用的是HTTP(80/TCP)和 HTTPS(443/TCP)的传输协议,但因特网还有其他的网络应用系统(如:FTP、SMTP等等)。

  • HTML:超文本标记语言(HyperText Markup Language),使得万维网页面的设计者可以很方便地用链接从页面的某处链接到因特网的任何一个万维网页面,并且能够在自己的主机品目上将这些页面显示出来。HTML与txt一样,仅仅是是一种文档,不同之处在于,这种文档专供于浏览器上为浏览器用户提供统一的界面呈现的统一规约。且具备结构化的特征,这是txt所不具备的强制规定。

HTTP相关技术

WEB 开发语言
http:应用层协议,默认端口: 80/tcp

WEB前端开发语言:

  • html
    超文本标记语言,编程语言,主要负责实现页面的结构

  • css
    定义如何显示(装扮) HTML 元素

  • javascript
    实现网页的动画效果,但是属于静态资源

URL

  • URI:统一资源标识,分为 URL 和 URN

    • URN:统一资源命名
    • URL:统一资源定位符,用于描述某服务器某特定资源位置

URL组成

<scheme>://<user>:<password>@<host>:<port>/<path>;<params>?<query>#<frag>

scheme:方案,访问服务器以获取资源时要使用哪种协议
user:用户,某些方案访问资源时需要的用户名
password:密码,用户对应的密码,中间用:分隔
Host:主机,资源宿主服务器的主机名或IP地址
port:端口,资源宿主服务器正在监听的端口号,很多方案有默认端口号
path:路径,服务器资源的本地名,由一个/将其与前面的URL组件分隔
params:参数,指定输入的参数,参数为名/值对,多个参数,用;分隔
query:查询,传递参数给程序,如数据库,用?分隔,多个查询用&分隔
frag:片段,一小片或一部分资源的名字,此组件在客户端使用,用#分隔

HTTP 工作机制

一次http事务包括:

  • http请求:http request
  • http响应:http response

Web资源:一个"Web 页面”通常不是单个资源,而是一组资源的集合
资源类型:

  • 静态文件:无需服务端做出额外处理,服务器端和客户端的文件内容相同

    文件后缀:.html, .txt, .jpg, .js, .css, .mp3, .avi
    
  • 动态文件:服务端执行程序,返回执行的结果,服务器端和客户端的文件内容不相同

    文件后缀:.php, .jsp ,.asp
    

提高HTTP连接性能

  • 并行连接:通过多条TCP连接发起并发的HTTP请求
  • 持久连接:keep-alive,重用TCP连接,以消除连接和关闭的时延,以事务个数和时间来决定是否关闭连接
  • 管道化连接:通过共享TCP连接,发起并发的HTTP请求
  • 复用的连接:交替传送请求和响应报文(实验阶段)

HTTP 协议版本

  • HTTP/0.9:只接受 GET 一种请求方法,没有在通讯中指定版本号,且不支持请求头。由于该版本不支持 POST 方法,所以客户端无法向服务器传递太多信息。

  • HTTP/1.0:这是第一个在通讯中指定版本号的 HTTP 协议版本,至今仍被广泛采用,特别是在代理服务器中。

  • HTTP/1.1:引入了持久连接,即TCP连接默认不关闭,可以被多个请求复用,能很好地配合代理服务器工作。还支持管道方式机制,即在同一个TCP连接里面,客户端可以同时发送多个请求,以便降低线路负载,提高传输速度。

  • HTTP/2.0:完全多路复用,在一个连接里,客户端和浏览器都可以同时发送多个请求或回应,而且不用按照顺序一一对应。引入了头信息压缩机制,使用gzip或compress压缩后再发送。支持服务端推送,允许服务器未经请求,主动向客户端发送资源。

HTML方法

HTTP方法描述
GET对服务器资源获取的简单请求
PUT向服务器提交数据,以修改数据
POST用于发送包含用户提交数据的请求
DELETE删除服务器上的某些资源
HEAD请求页面的首部,获取资源的元信息CONNECT用于ssl隧道的基于代理的请求
OPTIONS返回所有可用的方法,常用于跨域TRACE追踪 请求--响应的传输路径

HTTP 请求处理过程

  1. 建立连接
  2. 接收请求
  3. 处理请求
  4. 访问资源
  5. 构建响应报文
  6. 发送响应报文
  7. 记录日志

HTTP 状态码

HTTP 状态码 是用以表示网页服务器 HTTP 响应状态的 3 位数字代码,当浏览器请求某一 URL 时, 服务器根据处理情况返回相应的处理状态。

状态码分类:

状态码首位已定义范围分类
1xx100-101信息提示
2xx200-206成功
3xx300-305重定向
4xx400-415客户端错误
5xx500-505服务器错误

HTTP 常见状态码:

状态码功能描述
200一切正常
301永久重定向
302临时重定向
401用户名或密码错误
403禁止访问(客户端IP地址被拒绝)
404请求的文件不存在
414请求URL头部过长
500服务器内部错误。比如脚本错误,编程语言语法错误
502无效网关
503当前服务不可用。web服务器不能处理HTTP请求,可能是临时超载或者是服务器进行停机维护。
504网关请求超时。程序执行时间过长导致响应超时,例如程序需要执行20秒,而nginx最大响应等待时间为10秒,这样就会出现超时。

产生502(无效网关)的原因:

1、数据包没有送到网卡,网络问题;

2、数据包送进去了(交换机能抓到包),但是网卡没收到,网卡问题或防火墙问题;

3、网卡接收到了,处理不了,服务问题。(比如服务器当前连接太多,响应太慢;页面素材太多,带宽不够。)

HTTP 访问过程

1、客户端通过域名进行访问,先进行DNS域名解析。

2、之后客户端请求与web服务器建立TCP连接(三次握手)。

3、建立连接后,客户端向web服务器发送一个HTTP请求。

4、服务器响应HTTP请求,客户端的浏览器得到HTML代码。

5、浏览器解析HTML代码,并请求HTML代码中的资源。(浏览器拿到HTML文件后,开始解析HTML代码,遇到静态资源时,就向服务器去请求下载。)

6、断开TCP连接(四次挥手),浏览器对页面进行渲染呈现给用户。

I/O 模型

I/O在计算机中指Input/Output,lOPS (Input/Output Per Second)即每秒的输入输出量(或读写次数),是衡量磁盘性能的主要指标之一。
IOPS是指单位时间内系统能处理的I/O请求数量,一般以每秒处理的IO请求数量为单位,I/O请求通常为读或写数据操作请求。

一次完整的I/O是用户空间的进程数据与内核空间的内核数据的报文的完整交换,但是由于内核空间与用户空间是严格隔离的,所以其数据交换过程中不能由用户空间的进程直接调用内核空间的内存数据,而是需要经历一次从内核空间中的内存数据copy到用户空间的进程内存当中,所以简单说I/O就是把数据从内核空间中的内存数据复制到用户空间中进程的内存当中。

  • 磁盘I/O: buff/cache 的区别
  • 网络I/O: 一切皆文件,本质为对socket文件的读写

相关概念

同步/异步(消息反馈机制):关注的是消息通信机制,即调用者在等待一件事情的处理结果时,被调用者是否提供完成状态的通知。

  • 同步:synchronous,被调用者并不提供事件的处理结果相关的通知消息,需要调用者主动询问事情是否处理完成
  • 异步:asynchronous,被调用者通过状态、通知或回调机制主动通知调用者被调用者的运行状态

阻塞/非阻塞:关注调用者在等待结果返回之前所处的状态

  • 阻塞:blocking,指IO操作需要彻底完成后才返回到用户空间,调用结果返回之前,调用者被挂起,干不了别的事情。
  • 非阻塞:nonblocking,指IO操作被调用后立即返回给用户一个状态值,而无需等到IO操作彻底完成,在最终的调用结果返回之前,调用者不会被挂起,可以去做别的事情。