HTTP初探

475 阅读4分钟

HTTP概述

HTTP是一种能够获取如HTML这样得网络资源的protocol(通讯协议)。它是在web上进行数据交换的基础,是一种client-server协议,也就是说,请求通常是由像浏览器这样的接受方发起的。一个完整的Web文档通常是由不同的子文档拼接而成的,如文本、布局描述、图片、视频、脚本等。

image.png 客户端和服务端通过交换各自的消息(与数据流刚好相反)进行交互,由像浏览器这样的客户端发出的消息叫做requests,被服务端响应的消息叫做responses.

image.png HTTP被设计于20世纪90年代初期,是一种可扩展的协议。他是应用层的协议,通过TCP,或者TLS加密的TCP连接来发送,理论上任何可靠的传输协议都可以使用。因为其良好的扩展性,至今它不仅被用来传输文本文档,还用来传输图片视频或者向服务器发送如HTML表单这样的信息。HTTP还可以根据网页需求,仅获取部分Web文档内容更新网页。

基于HTTP的组件系统

HTTP是一个client-server协议:请求通过一个实体被发出,实体也就是用户代理。大多数情况下,这个用户代理都是指浏览器,当然它也可能是任何东西,比如一个爬取网页生成维护搜索引擎引的机器爬虫。

每一个发送到服务器的请求,都会被服务器处理并返回一个消息,也就是response。在这个请求与相应之间,还有许多的被称为proxies的实体,他们的作用与表现各不相同,比如有些是网关,有些是caches等。

image.png 实际上,在一个浏览器和处理请求的服务器之间,还有路由器、调制解调器等许多计算,有雨Web的层次设计,那些在网络层和传输层的细节都被隐藏起来了。HTTP位于最上层的应用层。虽然底层对于分析网络问题非常重要,但是大多都跟对HTTP的描述不相干。

客户端 uise-agent

user-agent 就是任何能够为用户发起行为的工具。这个角色通常都是由浏览器来扮演。还有就是工程师使用的程序以及Web开发人员调试应用程序。

浏览器总是作为发起一个请求的实体,他永远不是服务器。要展示一个网页,浏览器首先发送一个请求来获取页面的HTML文档,再解析文档中的资源信息发送其他请求,获取可执行脚本活CSS样式来进行页面的布局渲染,以及一些其他页面资源(如图片或视频等)。然后浏览器将这些资源整合到一起,展示出一个完整的文档,即网页。浏览器执行的脚本可以在之后的阶段获取更多资源,并相应地更新网页。

一个网页就是一个超文本文档。也就是说,有一部分显示的文本可能是链接。鼠标点击时就可以获取一个新的网页,使用户可以控制客户端进行网上冲浪,浏览器负责发送HTTP请求,并进一步解析HTTP返回的消息,以向用户提供明确的响应。

Web服务端

在上述通信过程的另一端,是有Web Server来服务并提供客户端所请求的文档。Server只是虚拟意义上代表机:它可以是共享负载(负载均衡)的一组服务器组成的计算机集群,也可以是一种复杂的软件,通过向其他计算机(如缓存,数据库服务器,电子商务服务...)发起请求来获取部分或全部资源。

Server不一定是一台机器,但一个机器上可以装载众多Servers,在HTTP/1.1和Host头部中,他们甚至可以共享同一个IP。

代理(Proxies)

在浏览器和服务器之间,有许多计算机和其他设备转发了HTTP消息。由于Web栈层次结构的原因,他们大多都出现在传输层、网络层和物理层上,对于HTTP应用层而言就是透明的,虽然它们肯会对应用层性能有重用影响,还有一部分是表现在应用层上的,被称为代理(Proxies)。代理即可以表现的透明,又可以不透明,代理主要如下几种作用

  • 缓存(可以公开的也可以是私有的,像浏览器的缓存)
  • 过滤(像反病毒扫描,家长控制)
  • 负载均衡(让多个服务器服务不同的请求)
  • 认证(对不同资源进行权限管理)
  • 日志记录(运行存储历史信息)

更多