简述Web基础与HTTP协议

128 阅读13分钟

一、域名概述

1.1 域名的概念

  • 域名的概念
    • IP地址不易记忆
  • 早期使用Host文件解析域名
    • 主机名称重复
    • 主机维护困难
  • DNS(Domain Name System 域名系统)
    • 分布式
    • 层次性

1.2 域名空间结构

  • 根域

  • 顶级域

    • 组织域
    • 国家/地区域名
  • 二级域名

  • FQDN=主机名.DNS后缀

1.3 域名注册

  • 域名注册时Internet中用于解决地址对应问题的一种方法
  • 遵循先申请先注册原则
  • 域名注册步骤

image.png

二、网页概述

2.1 网页的概念

  • 网页

    • 纯文本格式文件
    • 编写语言为HTML(超文本传输标记语言)
    • 在用户的浏览器中被“翻译”成网页形式显示出来
  • 网站

    • 由一个一个页面构成的,是多个网页的结合体
  • 主页

    • 打开网站后出现的第一个网页称为网站主页(或首页)
  • 域名

    • 浏览网页时输入的网址
  • HTTP

    • 用来传输网页的通信协议
  • URL

    • 是一种万维网寻址系统

2.2 HTML概述

HTML叫做超文本标记语言,是一种规范,也是一种标准,它通过标记符号来标记要显示的网页中的各个部分。网页文件本身是一种文本文件,通过在文本文件中添加标记符,可以告诉浏览器如何显示其中的内容。 HTML命令可以说明文字,图形、动画、声音、表格、链接等。

HTML文件可以使用任何能够生成txt文件的文本编辑器来编辑,生成超文本标记语言文件,只需要修改文件名后缀为“.html”或“.htm”即可。

2.3 HTML的基本标签

1. HTML的语法规则

HTML标签采用双脚及符的形式,前后标记符对应,分别表示标记开始和结束,标记符中间的内容被标签描述。前标记符由“”,结果标记符多了一个“/”,由“”表示。

2. HTML的文件结构

HTML文件的最外层由表示,说明该文件是以html语言描述的。在他里面是并列的头标签与内容标签,最基本的HTML文件结构如下:

<html>
    <head>    #网页的内容描述信息
    </head>
    <body>    #网页显示的内容
    </body>
</html>   
  • 头标签中常用的标签
标签描述
<title>定义文档的标题
<base>定义页面链接标签的默认链接地址
<link>定义一个文档和外部资源之间的关系
<meta>定义HTML文档中的元数据
<script>定义了客户端的脚本文件
<style>定义HTML文档的样式文件
  • 内容标签中常用标签
标签描述
<table>定义一个表格
<tr>定义表格中的一行
<td>定义表格中某一行的某一列
<img>定义一个图像
<a>定义一个超链接
<p>定义一行
<br>定义换行
<font>定义字体

三、静态网页与动态网页

3.1 静态网页

  • 在网站设计中,纯粹HTML格式的网页通常被称为“静态网页”,静态网页是标准的HTML文件,它的文件扩展名是.htm、.html。静态网页是网站建设的基础,早期的网站一般都是由静态网页制作的。

  • 静态网页也可以出现各种动态的效果,如.GIF格式的动画、FLASH、滚动字幕等。这些“动态效果”只是视觉上的,与下面将要介绍的动态网页是不同的概念。 静态网页只要不修改代码,是不会改变的,每天展示的内容是一样的。静态网页只使用html语言,不使用其他高级程序语言。

3.2 动态网页

  • 所谓的动态网页,是指跟静态网页相对的一种网页编程技术。静态网页,随着HTML代码的生成,页面的内容和显示效果就基本上不会发生变化了——除非是修改页面代码。

  • 而动态网页则不然,页面代码虽然没有变,但是显示的内容却是可以随着时间、环境或者数据库操作的结果而发生改变的。

  • 动态网页URL的后缀不是.htm、.html、.shtml、.xml等静态网页的常见网页制作格式,而是以 .aspx 、 .asp 、.jsp 、.php 、 .perl 、 .cgi 等词缀作为后缀,并且在动态网页网址中有一个标志性的符号——“?”。

  • 动态网页是基本的html语法规范与Java、PHP、C#等高级程序设计语言、数据库编程等多种技术的融合,以期实现对网站内容和风格的高效、动态和交互式的管理。因此,从这个意义上来讲,凡是结合了HTML以外的高级程序设计语言和数据库技术进行的网页编程技术生成的网页都是动态网页。

3.3 动态网页语言

早期的动态网页主要采用通用网关接口CGI(Common Gateway Interface)技术,虽然CGI技术以及发展成熟而且功能强大,但是由于编程困难,效率低下,修改复杂,所以由逐渐被新技术取代的趋势。

目前常用的编程语言有以下几种

① PHP

PHP语言,即Hypertext Preprocessor ( 超文本预处理器),它是当今Internet. 上 最为火热的脚本语言,其语法借鉴了C、 Java、PERL等语言,但只需要很少的编程知识你就能使用PHP建立一个真正交互的Web站点。

② JSP

即Java Server Pages (Java 服务器页面X,它是由Sun Microsystem 公司于1999年6月推出的新技术,是基于Java Servlet以及整个Java体系的web开发技术。

③ Python

是一种面向对象、跨平台的动态类计算机程序设计语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越来越多被用于独立的大型项目开发。

④ Ruby

是一种简单快捷的面向对象( 面向对象程序设计)脚本语言,在20世纪90年代由日本人松本行弘(Yukihiro Matsumoto) 开发,遵守GPL协议和Ruby License。 它的灵感与特性来自于Perl、 Smalltalk、 Eiffel、 Ada 以及Lisp语言。

四、HTTP协议概述

4.1 HTTP简介

HTTP协议采用了请求/响应模型(即I/O模型)。客户端向服务器发送一个请求,请求头包含请求的方法、URL、 协议版本、以及包含请求修饰符、客户信息和内容的类似于MIME的消息结构。服务器以一个状态行作为响应,响应的内容包括消息协议的版本,成功或者错误编码加上服务器信息、实体元信息以及可能的实体内容。

image.png

4.2 HTTP版本区别

HTTP已经演化出了很多版本,它们中的大部分都是向下兼容的,以下有几个HTTP版本。

  • HTTP/0.9:已过时。只接受 GET 一种请求方法,没有在通讯中指定版本号,且不支持请求头。由于该版本不支持 POST 方法,所以客户端无法向服务器传递太多信息。

  • HTTP/1.0:这是第一个在通讯中指定版本号的 HTTP 协议版本,至今仍被广泛采用,特别是在代理服务器中。相较于以前的版本可以支持POST、HEAD方法,支持HTML文件以外的其他类型,但不支持持久连接。

  • HTTP/1.1:引入了持久连接(长连接),即TCP连接默认不关闭,可以被多个请求复用,能很好地配合代理服务器工作。还支持管道方式机制,即在同一个TCP连接里面,客户端可以同时发送多个请求,以便降低线路负载,提高传输速度。(HTTP1.1版本增加的持久连接是在一个TCP连接下,进行多次的请求-响应,必须一次请求一次响应后,再进行下一次请求与响应,才会进行下一次的请求响应操作)

image.png

  • HTTP/2.0:完全多路复用,在一个连接里,客户端和浏览器都可以同时发送多个请求或回应,而且不用按照顺序一一对应。引入了头信息压缩机制,使用gzip或compress压缩后再发送。支持服务端推送,允许服务器未经请求,主动向客户端发送资源。(HTTP2.0版本在1.1版本原有基础上可以并行发送请求与响应,响应不用按照顺序一一对应)

image.png

总结

  • HTTP 1.0 版本:相较以前版本可以支持POST、HEAD方法,支持HTML文件以外的其他类型,但不支持持久连接
  • HTTP 1.1 版本:支持持久连接,即在一个TCP连接中完成多个http请求和响应,但是每个请求的响应都要按照顺序一一对应。
  • HTTP 2.0 版本:支持完全多路复用,即不光可以在一个TCP连接里面完成多个http请求和响应,而且请求和响应不用按照顺序一一对应,也支持压缩,服务端主动推送
  • HHTP 3.0 版本:基于UDP协议,面向无连接协议,无需建立连接,还未广泛使用。

4.3 HTTP方法

1. HTTP方法与描述

HTTP方法描述
GET对服务器资源获取的简单请求
PUT向服务器提交数据,以修改数据
DELETE删除服务器上的某些资源
POST用于发送包含用户提交数据的请求
HEAD请求页面的首部,获取资源的元信息
  1. GET请求会向数据库发索取数据的请求,从而来获取信息,该请求就像数据库的select操作一样,只是用来查询一下数据,不会修改、增加数据,不会影响资源的内容,即该请求不会产生副作用。无论进行多少次操作,结果都是一样的。
  2. 与GET不同的是,PUT请求是向服务器端发送数据的,从而改变信息,该请求就像数据库的update操作一样,用来修改数据的内容,但是不会增加数据的种类,也就是说无论进行多少次PUT操作,其结果都没有不同。
  3. POST请求同PUT请求类似,都是向服务器端发送数据的,但是该请求会改变数据的种类等资源,就像数据库的insert操作一样吗,会创建新的内容。几乎目前所有的提交操作都是使用POST请求的。
  4. DELETE请求顾名思义,是用来删除某一个资源的,该请求就像数据库的delete操作。

2. GET和POST的区别

GET方法:从指定的服务器上获取数据

  • GET请求能被缓存
  • GET请求会保存在浏览器的浏览记录里
  • GET请求有长度的限制
  • GET请求主要用于获取数据,查询的字符串会显示再URL后主中,安全性较低

POST方法:提交数据给指定服务器处理

  • POST请求不能被缓存
  • POST请求不会保存至浏览器的记录中
  • POST请求没有长度限制

4.4 HTTP状态码

  • HTTP状态码(HTTP Status Code)是用以表示网页服务器HTTP响应状态的三位数字代码,当浏览器请求某一URL时,服务器根据处理情况返回响应的处理状态。
  • 通常正常的状态码为2**,3**(例如200,300)如果出现异常会返回4**,5**(例如404)
状态码首位已定义范围分类
1**100-101信息提示
2**200-206成功
3**300-305重定向
4**400-415客户端错误
5**500-505服务器错误
  • HTTP常见状态码 状态码 | 功能描述 | | --- | ---------------- | | 200 | 一切正常 | | 301 | 永久重定向 | | 302 | 用户名或密码错误 | | 401 | 用户名或密码错误 | | 403 | 禁止访问(客户端IP地址被拒绝) | | 404 | 请求的文件不存在 | | 414 | 请求URI头部过长 | | 500 | 服务器内部错误 | | 502 | 无效网关 | | 503 | 当前服务不可用 | | 504 | 网关请求超时|

4.5 HTTP请求协议

用户在浏览器输入URL访问时,发起HTTP请求报文,请求中包括请求行、请求头、请求体,服务器收到请求后返回响应报文,包括状态行、响应头、响应体。

① 请求报文

  • 请求行:请求行由请求方法、URL、以及协议版本三部分组成。
  • 请求头,请求头为请求报文添加一些附加信息,由“名/值”成对组成,每行一对,名和值之间使用冒号分隔。
  • 空行:请求头部的最后会有一个空行,表示请求头部结束,接下来为请求体,这一行非常重要,必不可少
  • 请求体:请求体时请求提交的参数,GET方法已经在URL中指明了参数,所以提交时没有数据,POST方法提交的参数在请求体中。

image.png

常用的请求头

请求头描述
Host接受请求的服务器地址,可以是IP+端口号,也可以是域名
User-Agent发送请求的应用程序名称
Connection指定与连接相关的属性,如Connection:Keep-Alive
Accept-Charset通知服务端可以发送的编码格式
Accept-Encoding通知服务端可以发送的数据压缩格式
Accept-Language通知服务端可以发送的语言

② 响应报文

  • 状态行:状态行由协议版本,状态码,状态码描述三个部分组成。
  • 响应头:响应头与请求头部类似,为响应报文添加了一些附加信息。
  • 空行:响应头部的最后会有一个空行,表示响应头部结束。
  • 响应体:服务器返回的相应HTML数据,浏览器对其解析后显示页面。

image.png

常见响应头

响应头描述
Server服务器应用程序软件的名称和版本
Content-Type相应正文的类型(是图片还是二进制字符串)
Content-Length响应正文长度
Content-Charset响应正文使用的编码
Content-Encoding响应正文使用的数据压缩格式
Content-Language响应正文使用的语言

③ http请求流程总结

http的请求流程:

  • 客户端访问服务器,首先通过域名进行访问,通过DNS解析出服务端IP访问
  • 找到对方服务器之后,客户端会发起一个TCP连接(三次握手),请求建立连接
  • 在服务器响应TCP连接并建立连接后,客户端会给服务器发送一个http请求报文(请求行、请求头、请求体)
  • 服务器会给客户端回复一个响应报文(状态行、响应头、响应体)
  • 在没有保持连接的情况下(短连接),服务器就会断开tcp连接(四次挥手)