工作这么久了,你应该知道的短链接架构设计

2,142 阅读6分钟

@TOC

短链接是什么

直接举个公众号的例子,看看这个又臭又长的url:

https://mp.weixin.qq.com/s?__biz=Mzg2MDIxNjAzNg==&mid=2247484466&idx=2&sn=b4407451946f6f8009b317d847e48046&chksm=ce288bb9f95f02af1716963a204e999c9a21902aa6efe87a6771be01bc9094eaf8fe8c0bfc3b&token=2136782546&lang=zh_CN#rd

上面的url其实就是这篇文章的地址面试必问 Redis数据结构底层原理String、List篇


如果我们在平时的沟通中发送个这么长的玩意你说它裂不裂开,所以市面上就有了很多短链接生成器应运而生。

在这里插入图片描述

看到没,直接把又臭又长的url,搞成了短小精悍型的。

在浏览器输入https://t.1yb.co/bo6a会跳转到上面的网页。

为什么使用短链接

说几个理由吧

  • 在浏览器输入url的时候,肯定需要越短越好啊
  • 如果需要在内存或者db中存储url,那肯定越短越好啊
  • url沟通传输中还可以隐藏了一部分参数,对不对

短链接如何实现

实现流程如下

  • 1.先是用户输入长连接去缩短链接,返回一个短链接给用户
  • 2.然后用户在浏览器地址输入短链时,根据短链接重定向跳转到长连接网址

在这里插入图片描述

即相应的设计2个接口:

  • 【缩短链接接口】/api/short?longurl=xxx
  • 【重定向接口】/{shorturl}

关键问题剖析

我们这里仅仅是拿在实现中,比较有难点或者争论的地方来阐述。

1. 缩短链接的算法

1、我首先想到的就是用UUID全局唯一特性来实现一一映射长连接。

效果如下

shorturllongurl
fc5bc4b050ec4b2a9cfb697786f6e9e8www.baidu.com/abcdefg?key…
fssdff83ikf8ec41239cfb69sdffeegakhjwww.baidu.com/abcdefg?key…

但是这个是32个字符,实现的短链效果如下:http://url.cn/fc5bc4b050ec4b2a9cfb697786f6e9e8,不是很理想啊。

2、然后就想着是不是可以使用数据库自增的id来实现。

效果如下:

shorturllongurl
1www.baidu.com/abcdefg?key…
......
100000000www.baidu.com/abcdefg?key…

实现的短链效果如下:http://url.cn/1,刚开始的时候是短,但是随着数据量的增加也容易裂开啊,例如:当有一亿映射的时候,地址就变成这样了http://url.cn/100000000,这种长度也很长,而且看起来怪怪的。

3、上面的问题是用10进制表示大数字比较长,那么我们可以改用熟悉的16进制来表示大数字,缩短长度啊

一亿10进制表示为:100000000,用16进制表示为:5f5e100

我们可以用:http://url.cn/5f5e100来代替:http://url.cn/100000000,这看起来可就美滋滋了

效果如下:

shorturllongurl
1www.baidu.com/abcdefg?key…
......
5f5e100www.baidu.com/abcdefg?key…

4、但是随着数据量的不断增大16进制字符串也会很长啊,治标不治本裂开。。。

例如:当数据到达200亿的时候,16进制为:4a817c800(9位)

我们知道16进制使用的字符有0、1、2、3、4、5、6、7、8、9、a、b、c、d、e、f这16个字符,那么我们能不能选用,进制位更多的32进制来表示呢?那么生成的短链接字符串位数就更短了不是吗?

当然可以了,32进制使用0-9、a-z,抛去 ilou4个字符,共32个字符来表示的,那么我们既然都走到这儿了,为什么不用更多的字符来表示呢,对不对。

我们直接使用常见的0-9、a-z、A-Z ,即10字符+26字符+26字符=62个字符的62进制来表示吧,这也是很多短链接生成器选择的算法

例如:还是200亿62进制表示为:lPvXDa(6位)

那么问题转换为只要实现 62进制和10进制的互转即可

private String ALPHABET = "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ";

    // 10进制转62进制
    private static String encoding(long num) {
        if(num < 1)
            throw new IllegalArgumentException("num must be greater than 0.");

        StringBuilder sb = new StringBuilder();
        for (; num > 0; num /= 62) {
            sb.append(ALPHABET.charAt((int) (num % 62)));
        }
        return sb.toString();
    }
    
    // 62进制转10进制
    private static long decoding(String str) {
        if(str==null || str.trim().length() == 0 ){
            throw new IllegalArgumentException("str must not be empty.");
        }
        long result = 0;
        for (int i = 0; i < str.length(); i++) {
            result += ALPHABET.indexOf(str.charAt(i)) * Math.pow(62, i);
        }
        return result;
    }

  • 细看下代码你就知道了,字符串的位置是可以随便调整的.
  • 那么又有人说了,我在加上字符串+-是不是就是64位了,那必须可以啊。。。

那么我们用这个62进制来看看效果,例如:我们想用最长6位字符来表示短链接,那么6位62进制是能容纳多少数据。

62^6
56 800 235 584

答案是:500多亿,这基本就够用了啊,如果还不够用,那么可以增加字符位数,例如8位,或者换更大的进制数。

2. 重定向方式

为什么会提到重定向方式呢,当然是写文章的时候看到别人的提出的问题了哈哈!

先看看官方解释:

重定向(Redirect)就是通过各种方法将各种网络请求重新定个方向转到其它位置(如:网页重定向、域名的重定向、路由选择的变化也是对数据报文经由路径的一种重定向)。

常用的重定向方式有:

  • 301 Moved Permanently

描述 状态码301表示永久重定向

场景 网址永久变更

  • 302 Moved Temporarily

描述 状态码302表示临时重定向

场景 网址(资源)临时变更,特别是在Oauth、单点登录等过程中,被大量使用

果然很官方,基本上就是介绍生硬的概念,看不懂哈哈,下面我来通过实践翻译一波这个鸟知识点。

我们常用的Servlet重定向api如下:

 httpServletResponse.sendRedirect(redirectUrl);

我用下面的代码测试下,看结果:

    @RequestMapping("/")
    public void redirect(HttpServletResponse httpServletResponse, String url) throws IOException {
        httpServletResponse.sendRedirect(url);
        System.out.println(url);
    }

浏览器访问:http://localhost:8080?url=https://www.baidu.com

浏览器访问3次结果如下:

https://www.baidu.com
https://www.baidu.com
https://www.baidu.com

我们可以看下重定向实现原理

org.apache.catalina.connector.Response 这个类的 sendRedirect(String location, int status)方法,有兴趣的可以去自己看看哦

    public static final int SC_FOUND = 302;  

    public void sendRedirect(String location) throws IOException {
        sendRedirect(location, SC_FOUND);
    }        
    public void sendRedirect(String location, int status) throws IOException {
         setStatus(status);
         setHeader("Location", locationUri);

即在http协议中,返回response header 中加入了:

 HTTP/1.1 301
 Location: https://www.baidu.com

那么我们来试试301重定向方式

代码如下:

    @RequestMapping("/")
    public void redirect(HttpServletResponse httpServletResponse, String url) throws IOException {
        httpServletResponse.setStatus(HttpServletResponse.SC_MOVED_PERMANENTLY); // SC_MOVED_PERMANENTLY = 301
        httpServletResponse.setHeader("Location", url);
        System.out.println(url);
    }

同理浏览器访问:http://localhost:8080?url=https://www.baidu.com

浏览器访问3次结果如下:

https://www.baidu.com

注意:只会出现一次,这是个什么情况?

Fiddler 抓包发现,浏览器只发送一次到服务器的redirect接口

在这里插入图片描述

只有我强制清除浏览器缓存的时候,再次请求,才会发送请求到我的那么这就很好理解了。

总结如下:

  • 对于GET请求, 301跳转会默认被浏览器cache,如果后续重定向地址发生变化,需要先清除浏览器缓存,才能生效。
  • 对于302跳转,除非在响应中通过 Cache-Control 或 Expires 暗示浏览器缓存,否则浏览器不会缓存

总结

  • url缩短算法的一步一步的进化,以及后面的可扩展性分析。
  • 重定向301、302方式的区别,虽然很基础,但是之前的确没有那么深入的研究。

加油欧力给!!!


QQ群【837324215】 关注我的公众号【Java大厂面试官】,回复:架构资源等关键词(更多关键词,关注后注意提示信息)获取更多免费资料。

公众号也会持续输出高质量文章,和大家共同进步。