@TOC
短链接是什么
直接举个公众号的例子,看看这个又臭又长的url:
https://mp.weixin.qq.com/s?__biz=Mzg2MDIxNjAzNg==&mid=2247484466&idx=2&sn=b4407451946f6f8009b317d847e48046&chksm=ce288bb9f95f02af1716963a204e999c9a21902aa6efe87a6771be01bc9094eaf8fe8c0bfc3b&token=2136782546&lang=zh_CN#rd
上面的url其实就是这篇文章的地址面试必问 Redis数据结构底层原理String、List篇
如果我们在平时的沟通中发送个这么长的玩意你说它裂不裂开,所以市面上就有了很多短链接生成器应运而生。
看到没,直接把又臭又长的url,搞成了短小精悍型的。
在浏览器输入https://t.1yb.co/bo6a会跳转到上面的网页。
为什么使用短链接
说几个理由吧
- 在浏览器输入url的时候,肯定需要越短越好啊
- 如果需要在内存或者db中存储url,那肯定越短越好啊
- url沟通传输中还可以隐藏了一部分参数,对不对
短链接如何实现
实现流程如下
- 1.先是用户输入长连接去缩短链接,返回一个短链接给用户
- 2.然后用户在浏览器地址输入短链时,根据短链接重定向跳转到长连接网址
即相应的设计2个接口:
- 【缩短链接接口】/api/short?longurl=xxx
- 【重定向接口】/{shorturl}
关键问题剖析
我们这里仅仅是拿在实现中,比较有难点或者争论的地方来阐述。
1. 缩短链接的算法
1、我首先想到的就是用UUID的全局唯一特性来实现一一映射长连接。
效果如下
| shorturl | longurl |
|---|---|
| fc5bc4b050ec4b2a9cfb697786f6e9e8 | www.baidu.com/abcdefg?key… |
| fssdff83ikf8ec41239cfb69sdffeegakhj | www.baidu.com/abcdefg?key… |
但是这个是32个字符,实现的短链效果如下:http://url.cn/fc5bc4b050ec4b2a9cfb697786f6e9e8,不是很理想啊。
2、然后就想着是不是可以使用数据库自增的id来实现。
效果如下:
| shorturl | longurl |
|---|---|
| 1 | www.baidu.com/abcdefg?key… |
| ... | ... |
| 100000000 | www.baidu.com/abcdefg?key… |
实现的短链效果如下:http://url.cn/1,刚开始的时候是短,但是随着数据量的增加也容易裂开啊,例如:当有一亿映射的时候,地址就变成这样了http://url.cn/100000000,这种长度也很长,而且看起来怪怪的。
3、上面的问题是用10进制表示大数字比较长,那么我们可以改用熟悉的16进制来表示大数字,缩短长度啊
一亿用10进制表示为:100000000,用16进制表示为:5f5e100
我们可以用:http://url.cn/5f5e100来代替:http://url.cn/100000000,这看起来可就美滋滋了
效果如下:
| shorturl | longurl |
|---|---|
| 1 | www.baidu.com/abcdefg?key… |
| ... | ... |
| 5f5e100 | www.baidu.com/abcdefg?key… |
4、但是随着数据量的不断增大16进制字符串也会很长啊,治标不治本裂开。。。
例如:当数据到达200亿的时候,16进制为:4a817c800(9位)
我们知道16进制使用的字符有0、1、2、3、4、5、6、7、8、9、a、b、c、d、e、f这16个字符,那么我们能不能选用,进制位更多的32进制来表示呢?那么生成的短链接字符串位数就更短了不是吗?
当然可以了,32进制使用0-9、a-z,抛去 ilou4个字符,共32个字符来表示的,那么我们既然都走到这儿了,为什么不用更多的字符来表示呢,对不对。
我们直接使用常见的0-9、a-z、A-Z ,即10字符+26字符+26字符=62个字符的62进制来表示吧,这也是很多短链接生成器选择的算法。
例如:还是200亿,62进制表示为:lPvXDa(6位)
那么问题转换为只要实现 62进制和10进制的互转即可
private String ALPHABET = "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ";
// 10进制转62进制
private static String encoding(long num) {
if(num < 1)
throw new IllegalArgumentException("num must be greater than 0.");
StringBuilder sb = new StringBuilder();
for (; num > 0; num /= 62) {
sb.append(ALPHABET.charAt((int) (num % 62)));
}
return sb.toString();
}
// 62进制转10进制
private static long decoding(String str) {
if(str==null || str.trim().length() == 0 ){
throw new IllegalArgumentException("str must not be empty.");
}
long result = 0;
for (int i = 0; i < str.length(); i++) {
result += ALPHABET.indexOf(str.charAt(i)) * Math.pow(62, i);
}
return result;
}
- 细看下代码你就知道了,字符串的位置是可以随便调整的.
- 那么又有人说了,我在加上字符串
+-是不是就是64位了,那必须可以啊。。。
那么我们用这个62进制来看看效果,例如:我们想用最长6位字符来表示短链接,那么6位的62进制是能容纳多少数据。
62^6
56 800 235 584
答案是:500多亿,这基本就够用了啊,如果还不够用,那么可以增加字符位数,例如8位,或者换更大的进制数。
2. 重定向方式
为什么会提到重定向方式呢,当然是写文章的时候看到别人的提出的问题了哈哈!
先看看官方解释:
重定向(Redirect)就是通过各种方法将各种网络请求重新定个方向转到其它位置(如:网页重定向、域名的重定向、路由选择的变化也是对数据报文经由路径的一种重定向)。
常用的重定向方式有:
- 301 Moved Permanently
描述 状态码301表示永久重定向
场景 网址永久变更
- 302 Moved Temporarily
描述 状态码302表示临时重定向
场景 网址(资源)临时变更,特别是在Oauth、单点登录等过程中,被大量使用
果然很官方,基本上就是介绍生硬的概念,看不懂哈哈,下面我来通过实践翻译一波这个鸟知识点。
我们常用的Servlet重定向api如下:
httpServletResponse.sendRedirect(redirectUrl);
我用下面的代码测试下,看结果:
@RequestMapping("/")
public void redirect(HttpServletResponse httpServletResponse, String url) throws IOException {
httpServletResponse.sendRedirect(url);
System.out.println(url);
}
浏览器访问:http://localhost:8080?url=https://www.baidu.com
浏览器访问3次结果如下:
https://www.baidu.com
https://www.baidu.com
https://www.baidu.com
我们可以看下重定向实现原理:
org.apache.catalina.connector.Response 这个类的 sendRedirect(String location, int status)方法,有兴趣的可以去自己看看哦
public static final int SC_FOUND = 302;
public void sendRedirect(String location) throws IOException {
sendRedirect(location, SC_FOUND);
}
public void sendRedirect(String location, int status) throws IOException {
setStatus(status);
setHeader("Location", locationUri);
即在http协议中,返回response header 中加入了:
HTTP/1.1 301
Location: https://www.baidu.com
那么我们来试试301重定向方式
代码如下:
@RequestMapping("/")
public void redirect(HttpServletResponse httpServletResponse, String url) throws IOException {
httpServletResponse.setStatus(HttpServletResponse.SC_MOVED_PERMANENTLY); // SC_MOVED_PERMANENTLY = 301
httpServletResponse.setHeader("Location", url);
System.out.println(url);
}
同理浏览器访问:http://localhost:8080?url=https://www.baidu.com
浏览器访问3次结果如下:
https://www.baidu.com
注意:只会出现一次,这是个什么情况?
用Fiddler 抓包发现,浏览器只发送一次到服务器的redirect接口
只有我强制清除浏览器缓存的时候,再次请求,才会发送请求到我的那么这就很好理解了。
总结如下:
- 对于GET请求, 301跳转会默认被浏览器cache,如果后续重定向地址发生变化,需要先清除浏览器缓存,才能生效。
- 对于302跳转,除非在响应中通过 Cache-Control 或 Expires 暗示浏览器缓存,否则浏览器不会缓存
总结
- url缩短算法的一步一步的进化,以及后面的可扩展性分析。
- 重定向301、302方式的区别,虽然很基础,但是之前的确没有那么深入的研究。
加油欧力给!!!
QQ群【837324215】 关注我的公众号【Java大厂面试官】,回复:架构、资源等关键词(更多关键词,关注后注意提示信息)获取更多免费资料。
公众号也会持续输出高质量文章,和大家共同进步。