Web基础与HTTP协议

528 阅读16分钟

1.1.域名回顾:

域名的概念:

  • IP地址不易记忆

早期使用 Hosts 文件解析域名

  • 主机名称重复
  • 主机维护困难

NFS (Domain Name System 域名系统)

  • 分布式
  • 层次性

1.2.网页

  • 纯文本格式文件

  • 编写语言为HTML 俗称(H5)

  • 在用户的浏览器中被“翻译”成网页形式显示出来

网站

由一个一个页面构成的,是多个网页的结合体

主页

打开网站后出现的第一个网页称为网站主页(或首页)

2.1.HTML概述

HTML 由来. HTML的英文全称是 Hyper Text Markup Language,即超文本标记语言。. HTML是由Web的发明者 Tim Berners-Lee和同事 Daniel W. Connolly于1990年创立的一种标记语言,它是标准通用化标记语言SGML的应用。. 用HTML编写的超文本文档称为HTML文档,它能独立于各种操作系统平台 (如UNIX, Windows等)。. 使用HTML,将所需要表达的信息按某种规则写成HTML文件,通过专用的浏览器来识别,并将这些HTML文件“翻译”成可以识别的信息,即现在所见到的网页。

HTML文件可以使用任何能够生成txt文件的文本编辑器来编辑,生成超文本标记语言文件,只用修改文件名后缀为“.html”或“.htm”即可。

2.2.HTML 基本标签

2.3.HTML 语法规则

HTML标签采用双标记符的形式,前后标记符对应,分别表示标记开始和结束,标记符中间的内容被标签描述。前标记符由“< XXX>”表示,结尾标记符多了一个“/”,由“< /XXX>”表示。

2.4.HTML 文件结构

HTML文件最外层由< html> < /html>表示,说明该文件是用HTML语言描述的。在它里面是并列的头标签(< head>)和内容标签(< body>)。

HTML 文件结构如下:

 <html>
     <head>网页的内容描述信息</head>
     <body>网页显示的内容</body>
 </html>

头标签中常用标签:

标签含义
< title>定义了文档的标题
< base>定义了页面链接标签的默认链接地址
< link>定义了一个文档和外部资源之间的关系
< meta>定义了HTML文档中的元数据
< script>定义了客户端的脚本文件
< style>定义了HTML文档的样式文件

内容标签中常用标签:

标签含义
< table>定义一个表格
< tr>定义了表格中的一行
< td>定义了表格中某一行的一列
< img>定义了一个图像
< a>定义了一个超链接
< p>定义了一行
< br>定义了换行
< font>定义了字体
< hl >定义字体大小

3. 静态网页与动态网页

3.1. 静态网页

在网站设计中,纯粹HTML格式的网页通常被称为“静态网页”,静态网页是标准的HTML文件,它的文件扩展名是.htm、.html。静态网页是网站建设的基础,早期的网站一般都是由静态网页制作的。

静态网页也可以出现各种动态的效果,如.GIF格式的动画、FLASH、滚动字幕等。这些“动态效果”只是视觉上的,与下面将要介绍的动态网页是不同的概念。

静态网页只要不修改代码,是不会改变的,每天展示的内容是一样的。静态网页只使用html语言,不使用其他高级程序语言。

3.2. 动态网页

所谓的动态网页,是指跟静态网页相对的一种网页编程技术。静态网页,随着HTML代码的生成,页面的内容和显示效果就基本上不会发生变化了——除非是修改页面代码。而动态网页则不然,页面代码虽然没有变,但是显示的内容却是可以随着时间、环境或者数据库操作的结果而发生改变的。

动态网页URL的后缀不是.htm、.html、.shtml、.xml等静态网页的常见网页制作格式,而是以.aspx、.asp、.jsp、.php、.perl、.cgi等形式为后缀,并且在动态网页网址中有一个标志性的符号——“?”。

动态网页是基本的html语法规范与Java、PHP、C#等高级程序设计语言、数据库编程等多种技术的融合,以期实现对网站内容和风格的高效、动态和交互式的管理。因此,从这个意义上来讲,凡是结合了HTML以外的高级程序设计语言和数据库技术进行的网页编程技术生成的网页都是动态网页。

3.3. 动态网页语言

早期的动态网页主要采用通用网关接口 CGI(Common Gateway Interface)技术,虽然 CGI 技术已经发展成熟而且功能强大, 但由于编程困难、效率低下、修改复杂,所以有逐渐被新技术取代的趋势。

目前常用的动态网页编程语言如下:

  1. PHP

即Hypertext Preprocessor ( 超文本预处理器),它是当今Internet. 上 最为火热的脚本语言,其语法借鉴了C、 Java、PERL等语言,但只需要很少的编程知识你就能使用PHP建立一个真正交互的Web站点。

  1. JSP

即Java Server Pages (Java 服务器页面X,它是由Sun Microsystem 公司于1999年6月推出的新技术,是基于Java Servlet以及整个Java体系的web开发技术。

  1. Python

是一种面向对象、跨平台的动态类计算机程序设计语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越来越多被用于独立的大型项目开发。

注:Python支持的并发量不高,假设python写的脚本需要10台服务器支撑的话,Go语言只需要1台服务器。

  1. Ruby

是一种简单快捷的面向对象( 面向对象程序设计)脚本语言,在20世纪90年代由日本人松本行弘(Yukihiro Matsumoto) 开发,遵守GPL协议和Ruby License。 它的灵感与特性来自于Perl、 Smalltalk、 Eiffel、 Ada 以及Lisp语言。

4. HTTP协议

HTTP协议采用了请求/响应模型。客户端向服务器发送一个请求,请求头包含请求的方法、URL、协议版本、以及包含请求修饰符、客户信息和内容的类似于MIME的消息结构。服务器以一个状态行作为响应,响应的内容包括消息协议的版本,成功或者错误编码加上服务器信息、实体元信息以及可能的实体内容。

注意:客户端与服务器的角色不是固定的,一端充当客户端,也可能在某次请求中充当服务器。这取决与请求的发起端。HTTP协议属于应用层,建立在传输层协议TCP之上。客户端通过与服务器建立TCP连接,之后发送HTTP请求与接收HTTP响应都是通过访问Socket接口来调用TCP协议实现。

QQ截图20220920094503.png

HTTP 已经演化出了很多版本,它们中的大部分都是向下兼容的:

  • HTTP/0.9:已过时。只接受 GET 一种请求方法,没有在通讯中指定版本号,且不支持请求头。由于该版本不支持 POST 方法,所以客户端无法向服务器传递太多信息。

  • HTTP/1.0:这是第一个在通讯中指定版本号的 HTTP 协议版本,至今仍被广泛采用,特别是在代理服务器中。

  • HTTP/1.1:引入了持久连接,即TCP连接默认不关闭,可以被多个请求复用,能很好地配合代理服务器工作。还支持管道方式机制,即在同一个TCP连接里面,客户端可以同时发送多个请求,以便降低线路负载,提高传输速度。

  • HTTP/2.0:完全多路复用,在一个连接里,客户端和浏览器都可以同时发送多个请求或回应,而且不用按照顺序一一对应。引入了头信息压缩机制,使用gzip或compress压缩后再发送。支持服务端推送,允许服务器未经请求,主动向客户端发送资源。

4.1. HTTP 协议一共五大特点

  1. 支持客户/服务器模式。
  2. 简单快速:客户向服务器请求服务时,只需传送请求方法和路径。
  3. 灵活:HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type (Content-Type是HTTP包中用来表示内容类型的标识)加以标记。
  4. 无连接:无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求,并收到客户的应答后,即断开连接。采用这种方式可以节省传输时间。
  5. 无状态:无状态是指协议对于事务处理没有记忆能力,服务器不知道客户端是什么状态。即我们给服务器发送HTTP请求之后,服务器根据请求,会给我们发送数据过来,但是,发送完,不会记录任何信息。

4.2. HTTP访问的过程

1、客户端通过域名进行访问,先进行DNS域名解析。

2、之后客户端请求与web服务器建立TCP连接(三次握手)。

3、建立连接后,客户端向web服务器发送一个HTTP请求。

4、服务器响应HTTP请求,客户端的浏览器得到HTML代码。

5、浏览器解析HTML代码,并请求HTML代码中的资源。(浏览器拿到HTML文件后,开始解析HTML代码,遇到静态资源时,就向服务器去请求下载。)

6、断开TCP连接(四次挥手),浏览器对页面进行渲染呈现给用户。

微信图片_20220920095724.jpg

4.3. HTTP版本小结

1.0版本

相较以前版本可以支持POST、HEAD方法,支持HIML文件以外的其他类型,但不支持持久连接

1.1版本

支持持久连接,即在一个TcP连接里面完成多个http请求和响应,但是每个请求和响应是按照顺序一一对应的

2.0版本 (应用最多)

支持完全多路复用,即不光可以在在一个TC连接里面完成多个http请求和响应,而且请求和响应不用按照顺序一一对应

也支持压缩,服务端主动推送

3.0版本(目前没有广泛的应用)

基于UDP协议

QQ截图20220920100215.png

5. HTTP 方法

HTTP 支持几种不同的请求命令,这些命令被称为 HTTP 方法(HTTP method)。每条 HTTP 请求报文都包含一个方法, 告诉服务器要执行什么动作,包括:获取一个页面,运行一个网关程序,删除一个文件等。最常用的获取资源的方法是 GET、POST、PUT。

5.1. HTTP方法:

HTTP 方法描述
GET对服务器资源获取的简单请求
PUT向服务器提交数据,以修改数据
POST用于发送包含用户提交数据的请求
DELETE删除服务器上的某些资源
HEAD请求页面的首部,获取资源的元信息
CONNECT用于ssl隧道的基于代理的请求
OPTIONS返回所有可用的方法,常用于跨域
TRACE追踪 请求--响应的传输路径

5.2. HTTP方法介绍:

1、GET请求会向数据库发索取数据的请求,从而来获取信息,该请求不会产生副作用。无论进行多少次操作,结果都是一样的。

2、与GET不同的是,PUT请求是向服务器端发送数据的,从而改变信息,无论进行多少次PUT操作,其结果并没有不同。

3、POST请求同PUT请求类似,都是向服务器端发送数据的,但是该请求会改变数据的种类等资源,几乎目前所有的提交操作都是用POST请求的。

4、DELETE请求顾名思义,就是用来删除某一个资源的。

5.3. GET 和 POST 比较:

GET 方法

  • 从指定的服务器上获得数据
  • GET请求能被缓存
  • GET请求会保存在浏览器的浏览纪录里
  • GET请求有长度的限制
  • 主要用于获取数据
  • 查询的字符串会显示在URL后缀中,不安全

POST 方法

  • 提交数据给指定服务器处理
  • POST请求不能被缓存
  • POST请求不会保存在浏览器的浏览纪录里
  • POST请求没有长度限制
  • 查询的字符串不会显示在URL中,比较安全

6. HTTP 状态码

HTTP 状态码(HTTP Status Code)是用以表示网页服务器 HTTP 响应状态的 3 位数字代码,当浏览器请求某一 URL 时, 服务器根据处理情况返回相应的处理状态。

通常正常的状态码为2xx,3xx(如200),如果出现异常会返回4xx,5xx(如404)。

6.1. 状态码的分类:

状态码首位已定义范围分类
1xx100-101信息提示
2xx200-206成功
3xx300-305重定向
4xx400-415客户端错误
5xx500-505服务器错误

6.2. HTTP 常见状态码:

状态码功能描述
200一切正常
301永久重定向
302临时重定向
401用户名或密码错误
403禁止访问(客户端IP地址被拒绝)
404请求的文件不存在
414请求URL头部过长
500服务器内部错误。比如脚本错误,编程语言语法错误
502无效网关
503当前服务不可用。web服务器不能处理HTTP请求,可能是临时超载或者是服务器进行停机维护。
504网关请求超时。程序执行时间过长导致响应超时,例如程序需要执行20秒,而nginx最大响应等待时间为10秒,这样就会出现超时。

6.3. 502(无效网关)

解决思路:

简单来说,502是报错类型代码 bad gate way 错误的网关。 产生错误的原因是连接超时,我们向服务器发送请求,由于服务器当前 链接 太多,导致服务器方面无法给于正常的响应,产生此类报错。 最好的解决办法是在服务器上做,但是很难实现,可以选择在服务器上刷新。

7. HTTP 请求流程分析

用户在浏览器输入URL访问时,发起HTTP请求报文,请求中包括请求行、请求头、请求体,服务器收到请求后返回响应报文,包括状态行、响应头、响应体。

7.1. 请求报文

image.png 请求报文四部分:

  1. 请求行:请求行由请求方法、URL 以及协议版本三部分组成。

  2. 请求头:请求头为请求报文添加了一些附加信息,由“名/值”对组成,每行一对,名和值之间使用冒号分隔。

  3. 空行:请求头部的最后会有一个空行,表示请求头部结束,接下来为请求体,这一行非常重要,必不可少。

  4. 请求体:请求体是请求提交的参数,GET 方法已经在 URL 中指明了参数,所以提交时没有数据。POST 方法提交的参数在请求体中。

相应实例 微信图片_20220920110145.png

常用的请求头:

请求头描述
Host接受请求的服务器地址,可以是 IP:端口号 ,也可以是域名
User-Agent发送请求的应用程序名称
Connection指定与连接相关的属性,如Connection:Keep-Alive
Accept-Charset通知服务端可以发送的编码格式
Accept-Encoding通知服务端可以发送的数据压缩格式
Accept-Language通知服务端可以发送的语言

7.2 响应报文

image.png

响应报文四部分:

  1. 状态行:状态行由协议版本,状态码,状态码描述三部分组成。
  2. 响应头:响应头与请求头部类似,为响应报文添加了一些附加信息。
  3. 空行:响应头部的最后会有一个空行,表示响应头部结束。
  4. 响应体:服务器返回的相应 HTML 数据,浏览器对其解析后显示页面。

常见响应头:

响应头描述
Server服务器应用程序软件的名称和版本
Content-Type响应正文的类型(是图片还是二进制字符串)
Content-Length响应正文长度
Content-Charset响应正文使用的编码
Content-Encoding响应正文使用的数据压缩格式
Content-Language响应正文使用的语言

87935ddad052cee569e99d93d35d2b1.png

总结:

1.0版本

相较以前版本可以支持POST、HEAD方法,支持HIML文件以外的其他类型,但不支持持久连接

1.1版本

支持持久连接,即在一个TcP连接里面完成多个http请求和响应,但是每个请求和响应是按照顺序一一对应的

2.0版本 (应用最多)

支持完全多路复用,即不光可以在在一个TC连接里面完成多个http请求和响应,而且请求和响应不用按照顺序一一对应

也支持压缩,服务端主动推送

3.0版本(目前没有广泛的应用)

基于UDP协议

HTML 静态动态页面

静态页面 以 .html 或 .htm 为结尾的页面 ,文字 图片 动态图片 视频 下载文件等

动态页面
以 .php .jsp .asp 等为结尾的页面,内容是由PHP,PYTHON,PERL,JSP等高级语言开发结合数据库实现的页面,特点页面地址带有

HTTP 方法

GET      请求、查询、下载数据

PUT      提交修改数据

POST     提交上传数据

DELETE   删除数据

HEAD     请求页面头部信息,元信息

HTTP状态码

注意:带*号的应用广泛

1XX 信息提示

2XX 正常 200

3XX 重定向 301永久 302临时

4XX 客户端错误 401用户/密码错误 *403访问被拒绝 *404文件不存在

5XX 服务端错误 502服务器内部错误 *502无效网关 *504网关请求超时

如何尽量处理TIMEWAIT过多?

编辑内核文件/etc/sysctl.conf,加入以下内容:

net.ipv4.tcp_syncookies = 1 表示开启SYN Cookies。当出现SYN等待队列溢出时,启用cookies来处理,可防范少量SYN攻击,默认为0,表示关闭; net.ipv4.tcp_tw_reuse = 1 表示开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接,默认为0,表示关闭; net.ipv4.tcp_tw_recycle = 1 表示开启TCP连接中TIME-WAIT sockets的快速回收,默认为0,表示关闭。 net.ipv4.tcp_fin_timeout 修改系默认的 TIMEOUT 时间

然后执行 /sbin/sysctl -p 让参数生效.

/etc/sysctl.conf是一个允许改变正在运行中的Linux系统的接口,它包含一些TCP/IP堆栈和虚拟内存系统的高级选项,修改内核参数永久生效。

HTTP的请求流程
client ---->  域名访问,通过DNs角解析出服务端IP访问    server
              发起tcp 连接(三次握手)
              发送http 请求报文(请求行请求头请求体)
              服务端回复响应报文(状态行响应头响应体)    <------
              没有保持连接的情况下就会断开TCP连接(四次挥手)  <----