WSGI的最终理解

1,470 阅读8分钟

写了几年 python web 开发,却还不知道WSGI是什么东西,是不是大有人在。说来也正常,因为作为开发者很少需要去了解wsgi是什么,也能把网站做出来。

但是如果你想自己写个web框架玩玩,就不得不去了解wsgi了。

回顾一下,我们在用python做web开发的时候,一般基于某个web框架来开发,django或者是flask等其它框架。业务开发完成后,就要部署到某台服务器中提供对外的访问。

这时候你去网上一搜,他们都会告诉你需要用 gunicorn或者是uwsgi 来部署。那么gunicorn、uwsgi 又是什么玩意。

看这个图你就明白了

70.png

这里的uwsgi或者gunicorn扮演的角色就是web服务器的角色,这里的服务器是软件层面的服务器,用于处理浏览器发过来的HTTP请求以及将响应结果返回给前端。而Web框架的主要任务就是处理业务逻辑生成结果给web服务器,再由web服务器返回给浏览器。

而web框架和web服务器之间的通信需要遵循一套规范,这个规范就是WSGI了。

为什么要搞这么一套规范出来?规范就是为了统一标准,方便大家所用

想象一下,我们手机充电的接口现在都是Type-c的,Type-c 就是一种规范, 手机厂商按照这个规范去生产手机, 充电器厂商按照Type-c的规范生产充电器,不同厂商的手机就可以和不同厂商的充电器搭配使用。而苹果却自成一套规范,最后导致Android充电器无法给苹果充电。

那如何写出一个符合 WSGI规范的应用(框架)程序和服务器呢?

DA.png

如上图所示,左边是web服务器,右边是web框架,或者说应用程序。

应用程序

WSGI规定应用程序必须是一个可调用对象(可调用对象可以是函数,也可以是类,还可以是实现了 __call__的实例对象),而且必须接受两个参数,该对象的返回值必须是可迭代对象。

我们可以写个最简单的应用程序的例子

HELLO_WORLD = "Hello world!"
 
def application(environ, start_response):
    status = '200 OK'
    response_headers = [('Content-type', 'text/plain')]
    start_response(status, response_headers)
    return [HELLO_WORLD]

application 是一个函数,肯定是可调用对象,然后接收两个参数,两个参数分别是:environ和start_response

  • environ是一个字典,里面储存了HTTP request相关的所有内容,比如header、请求参数等等

  • start_response是一个WSGI 服务器传递过来的函数,用于将response header,状态码传递给Server。

调用 start_response 函数负责将响应头、状态码传递给服务器, 响应体则由application函数返回给服务器, 一个完整的http response 就由这两个函数提供。

但凡是实现了wsgi的web框架都会有这样一个可调用对象

服务器

WSGI 服务器端做的事情就是每次接收HTTP请求,构建environ对象,然后调用application对象,最后将HTTP Response返回给浏览器。

下面就是一个完整的wsgi server 的代码

import socket
import sys
from io import StringIO


class WSGIServer(object):
    address_family = socket.AF_INET
    socket_type = socket.SOCK_STREAM
    request_queue_size = 1

    def __init__(self, server_address):
        # Create a listening socket
        self.listen_socket = listen_socket = socket.socket(
            self.address_family,
            self.socket_type
        )
        # Allow to reuse the same address
        listen_socket.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1)
        # Bind
        listen_socket.bind(server_address)
        # Activate
        listen_socket.listen(self.request_queue_size)
        # Get server host name and port
        host, port = self.listen_socket.getsockname()[:2]
        self.server_name = socket.getfqdn(host)
        self.server_port = port
        # Return headers set by Web framework/Web application
        self.headers_set = []

    def set_app(self, application):
        self.application = application

    def serve_forever(self):
        listen_socket = self.listen_socket
        while True:
            # New client connection
            self.client_connection, client_address = listen_socket.accept()
            # Handle one request and close the client connection. Then
            # loop over to wait for another client connection
            self.handle_one_request()

    def handle_one_request(self):
        self.request_data = request_data = self.client_connection.recv(1024)
        # Print formatted request data a la 'curl -v'
        print(''.join(
            '< {line}\n'.format(line=line)
            for line in request_data.splitlines()
        ))
        self.parse_request(request_data)
        # Construct environment dictionary using request data
        env = self.get_environ()
        # It's time to call our application callable and get
        # back a result that will become HTTP response body
        result = self.application(env, self.start_response)
        # Construct a response and send it back to the client
        self.finish_response(result)

    def parse_request(self, text):
        request_line = text.decode().splitlines()[0]
        request_line = request_line.rstrip('\r\n')
        # Break down the request line into components
        (self.request_method,  # GET
         self.path,  # /hello
         self.request_version  # HTTP/1.1
         ) = request_line.split()

    def get_environ(self):
        env = {}
        # The following code snippet does not follow PEP8 conventions
        # but it's formatted the way it is for demonstration purposes
        # to emphasize the required variables and their values
        #
        # Required WSGI variables
        env['wsgi.version'] = (1, 0)
        env['wsgi.url_scheme'] = 'http'
        env['wsgi.input'] = StringIO(self.request_data.decode())
        env['wsgi.errors'] = sys.stderr
        env['wsgi.multithread'] = False
        env['wsgi.multiprocess'] = False
        env['wsgi.run_once'] = False
        # Required CGI variables
        env['REQUEST_METHOD'] = self.request_method  # GET
        env['PATH_INFO'] = self.path  # /hello
        env['SERVER_NAME'] = self.server_name  # localhost
        env['SERVER_PORT'] = str(self.server_port)  # 8888
        return env

    def start_response(self, status, response_headers, exc_info=None):
        # Add necessary server headers
        server_headers = [
            ('Date', 'Tue, 31 Mar 2015 12:54:48 GMT'),
            ('Server', 'WSGIServer 0.2'),
        ]
        self.headers_set = [status, response_headers + server_headers]
        # To adhere to WSGI specification the start_response must return
        # a 'write' callable. We simplicity's sake we'll ignore that detail
        # for now.
        # return self.finish_response

    def finish_response(self, result):
        try:
            status, response_headers = self.headers_set
            response = 'HTTP/1.1 {status}\r\n'.format(status=status)
            for header in response_headers:
                response += '{0}: {1}\r\n'.format(*header)
            response += '\r\n'
            for data in result:
                response += data
            # Print formatted response data a la 'curl -v'
            print(''.join(
                '> {line}\n'.format(line=line)
                for line in response.splitlines()
            ))
            self.client_connection.sendall(response.encode())
        finally:
            self.client_connection.close()


SERVER_ADDRESS = (HOST, PORT) = 'localhost', 8080

def make_server(server_address, application):
    server = WSGIServer(server_address)
    server.set_app(application)
    return server

if __name__ == '__main__':
    httpd = make_server(SERVER_ADDRESS, application)
    print('WSGIServer: Serving HTTP on port {port} ...\n'.format(port=PORT))
    httpd.serve_forever()

当然,如果只是写个用于开发环境用的server,用不着这么麻烦自己造轮子,因为python内置模块中就提供有 wsgi server 的功能。

from wsgiref.simple_server import make_server
srv = make_server('localhost', 8080, application)
srv.serve_forever()

只要3行代码就可以提供wsgi服务器,是不是超级方便,最后来访问测试下浏览器发起一个请求的效果

A.png

以上就是关于wsgi的简介,深入了解wsgi可以熟悉下PEP333

自我理解

上面的整个过程很好的解释了,wsgi的全部的过程

核心概念

wsgi就是个协议:这个协议旨在解决众多 web 框架web server软件的兼容问题。有了WSGI,你不用再因为你使用的web 框架而去选择特定的 web server软件。WSGI规定了服务器怎么把请求信息告诉给应用,应用怎么把执行情况回传给服务器,这样的话,服务器与应用都按一个标准办事,只要实现了这个标准,服务器与应用随意搭配就可以,灵活度大大提高。

7.png

上图也可以看出一个HTTP请求的过程可以分为两个阶段,第一阶段是从客户端到WSGI Server,第二阶段是从WSGI Server 到WSGI Application。

常见的web应用框架有:Django,Flask,sanic等; 常用的web服务器软件有:uWSGI,Gunicorn,Gevent等。

web server要履行的任务:

  • 接收HTTP请求;
  • 解析HTTP请求;
  • 准备 environ请求参数;
  • 定义 start_response 函数;
  • 组装响应头和相应体返回给客户端。

web application要履行的责任:

  • 解析服务器发来的请求信息;

  • 根据请求信息,进行业务处理;

  • 返回所需要的数据。

WSGI 对于 application 对象有如下三点要求

  • 必须是一个可调用的对象;
  • 接收两个必选参数environ、start_response;
  • 返回值必须是可迭代对象,用来表示http body。

我们在后端经常编写的业务代码的部分就是application的部分

我们的网关server的部分其实就是,一个服务器,去处理客户端发过来的请求信息,包含请求头、请求体等

wsgi的作用就是规定两边交互的格式,server端将字节流请求信息处理成指定的信息结构发送给application,然后规定了application返回给server端,这样就实现了application和server端的解耦,不用开发application指定server的匹配,使得开发出来的application和server更具有通用性。

对上面的代码解析,上面的是一个简单的单线程(阻塞)的server和application,我们平时使用的web框架中都是多线程的构建方式,会在之后的笔记中进行分析。

make_server

  • 首先,使用make_server去构建WSGIServer服务端,这个地方主要是初始化,实际上就是创建一个socket对象,经过bind、listen等步骤,进行监听等待,同时对一些基础数据进行赋值

    image.png

  • 第二,挂载application,将我们的application放到server端,后面进行调用

    image.png

  • 第三、将这个server对象返回,比较简单

serve_forever

  • 首先、拿到socket对象,然后我们进入循环,listen_socket.accept()这个方法其实是个阻塞的方法,会一直等待着请求的到来

  • 当我们使用postman发送一条请求的时候,我们可以看到**listen_socket.accept()**被激活,得到了一个连接对象self.client_connection,然后进入handle_one_request区里请求的方法中

  • handle_one_request(),中最为关键的是self.request_data = self.client_connection.recv(1024) 从这个连接对象中拿到请求的数据,其实这个请求数据就是http协议的格式b'GET /waws HTTP/1.1\r\nUser-Agent: PostmanRuntime/7.26.8\r\nAccept: */*\r\nPostman-Token: 26a26e01-5939-4999-84e7-87399139c19c\r\nHost: 127.0.0.1:8080\r\nAccept-Encoding: gzip, deflate, br\r\nConnection: keep-alive\r\n\r\n',这里我们接收1024个字节数据,这个地方需要注意下,就收的数据都是二进制的,我们可以看下接收到的数据

    image.png

  • 调用parse_request,对接收到的数据进行解析,首先要decode解码,分割后拿到第一行数据,GET /waws HTTP/1.1,最终从数据中拿到请求方法、路径信息、http版本

    image.png

  • 然后我们需要构造env字典,这个是要发送到application中的数据之一,其中的信息就是常见的wsgi协议中规定的信息。

    image.png

  • server端调用application,result = self.application(env, self.start_response),wsgi协议中规定的用法,传入两个信息,一个是env字典,一个是start_response方法,我们可以看下start_response这个方法,实际上实现就是添加必要的服务端的headers等信息

    image.png

  • 我们看下进入application中,实际上就是我们的业务代码实现的部分,我们调用start_response,将需要的response的响应的信息和状态码等信息进行封装,然后在将返回的数据体部分进行返回。

    • 调用start_response,封装响应头、状态码信息
    • 真正return的是响应体信息(数据)

    image.png

  • 在调用完application之后,调用finish_response将数据和封装好的数据进行返回,按照的计算机网络中的http协议的格式拼接数据,最终得到的结果大概是这样'HTTP/1.1 200 OK\r\nContent-type: text/plain\r\nDate: Tue, 31 Mar 2015 12:54:48 GMT\r\nServer: WSGIServer 0.2\r\nHello world!',使用**self.client_connection.sendall(response.encode())**将数据发送给连接的客户端,也就是client,最后将连接关闭

    image.png

整个的过程就是一个简单的单线程的web框架的构建的过程,其中包含了application和server的构建过程。