这是我参与「第三届青训营 -后端场」笔记创作活动的的第四篇笔记。主要介绍排序算法中比较快的插入排序、堆排序、快速排序，以及结合该三种排序算法的有点打造出的具有较高性能的混合排序算法pdqsort。

1 为什么要学习数据结构与算法

例子-抖音直播排行榜功能

规则：某个时间段内，直播间礼物数Top10房间获得奖励，需要在每个房间展示排行榜。

解决方案：

礼物数量存储在 Redis-zset 中，使用 skiplist 使得元素整体有序
使用Redis集群，避免单机压力过大，使用 主从算法、分片算法
保证集群原信息的稳定，使用 一致性算法
后端使用 缓存算法（LRU） 降低Redis压力，展示房间排行榜

什么是最快的排序算法?

Python timsort
C++ introsort
Rust pdqsort
Go(<=1.18) introsort

2 经典排序算法

Insertion Sort 插入排序

将元素不断插入已经排序好的array中

起始只有一个元素，其本身是一个有序序列
后续元素插入有序序列中，即不断交换，直到找到第一个比其小的元素

时间复杂度：

Best：O(n) 数组本身有序情况下
Avg：O(n^2)
Worst：O(n^2) 数组是逆序的情况下

缺点：

平均和最坏情况的时间复杂度高达O(n^2)

优点：

最好时间复杂度是O(n)

Quick Sort 快速排序

分治思想，不断分割序列直到序列整体有序

选定一个pivot(轴点)
使用pivot分割序列，分成元素比pivot大和元素比pivot小两个序列

时间复杂度：

Best：O(nlogn) 每一次选择的轴点恰好是中位数
Avg：O(nlogn)
Worst：O(n^2) 每一次选择只对一个数进行排序

缺点：

最坏时间复杂度高达O(n^2)

优点：

平均时间复杂度是O(nlogn)

Heap Sort 堆排序

利用堆的性质形成的排序算法

构造一个大顶堆
将根节点（最大元素）交换到最后一个位置，调整整个堆，如此反复

时间复杂度：

Best：O(nlogn)
Avg：O(nlogn)
Worst：O(nlogn)

缺点：

最好时间复杂度高达O(nlogn)

优点：

最坏实践复杂度是O(nlogn)

小结：

插入排序平均和最坏时间复杂度都是O(n^2)，性能不好
快排整体性能处于中间层次
堆排序性能稳定，“众生平等”

实际场景 benchmark

根据序列元素排列情况划分

完全随机的情况（random）
顺序/逆序（sorted/reverse）
元素重复度较高的情况（mod8）在此基础上，还需要根据序列长度的划分（16/128/1024）

实际场景benchmark结论：

所有短序列和元素有序情况下，插入排序性能最好
在大部分情况下，快排有较好的综合性能
几乎任何情况下，堆排序的表现都比较稳定

设计一个更好的算法结合以上三种算法的优点：Best - O(n); Avg - O(nlogn); Worst - O(nlogn)

补充: 十大排序

3 从零打造pdqsort

pdqsort（pattern-defeating-quicksort）是一种不稳定（可能会对值相同的元素调换位置）的混合排序算法，它的不同版本被应用在C++BOOST、Rust以及Go1.19中。它对常见的序列类型作了特殊的优化，使得在不同条件下都拥有不错的性能。

pdqsort - version1

结合三种排序方法的优点：

对于短序列（<=24）使用插入排序
其他情况，使用快排（选择首个元素作为pivot）保证整体性能
当快排表现不佳（limit = 0）时，使用堆排序来保证最坏情况下时间复杂度仍为O(nlogn)

Q & A：

短序列的具体长度是多少？

12 ~ 32，在不同语言和场景中会有不同，在泛型版本根据测试选定24。
如何得知快排表现不佳，以及何时切换到堆排序

当最终pivot的位置离序列两端很接近时（距离小于length/8）判定其表现不佳，当这种情况的次数达到limit（即bits.Len(length)）时，切换到堆排序。

如何让pdqsort速度更快？

尽量使得QuickSort的pivot为序列的中位数->改进choose pivot
Partition 速度更快 -> 改进partition，但是此优化在Go表现不好，略

pdqsort - version2

思考关于pivot的选择

使用首个元素作为pivot(最简单的方案)
- 实现简单，但是往往效果不好，例如在sorted情况下性能很差
遍历数组，寻找真正的中位数
- 遍历对代价很高，性能不好

寻找pivot所需要的开销 vs pivot带来的性能优化：寻找近似中位数！

根据序列长度的不同，来决定选择策略（优化pivot的选择）：

短序列（<=8），选择固定元素（一般不考虑，短序列直接使用插入排序）
中序列（<=50），采样三个元素
长序列（>50），采样九个元素

Pivot的采样方式使得我们有探知序列当前状态的能力。

采样的元素都是逆序排列 -> 序列可能已经逆序 -> 翻转整个序列
采样的元素都是顺序排列 -> 序列可能已经有序 -> 使用插入排序

注：插入排序实际使用partialInsertionSort，即限制次数的插入排序，超过就放弃插入排序

Version1 升级到 Version2 优化总结：

升级pivot选择策略（近似中位数）
发现序列可能逆序，则翻转序列->应对reverse场景
法宣序列可能有序，使用有限插入排序->应对sorted场景

pdqsort - final version (Go1.19 default)

如何优化重复元素很多的情况？采集pivot的时候检测重复度？

不是很好，因为采集数量有限，不一定能采样到相同元素
解决方案：如果两次partition生成的pivot相同，即partition进行了无效分割，此时认为pivot的值为重复元素

优化：

重复元素较多的情况（partitionEqual）
- 当检测到此时的pivot和上次相同时（发生再leftSubArray），使用partitionEqual将重复元素排列在一起，减少重复元素对于pivot选择的干扰。
当pivot选择策略表现不佳时，随机交换元素
- 避免一些极端情况使得QuickSort总是表现不佳，以及一些黑客攻击情况

	Best	Avg	Worst
InsertionSort	O(n)	O(n^2)	O(n^2)
QuickSort	O(nlogn)	O(nlogn)	O(n^2)
HeapSort	O(nlogn)	O(nlogn)	O(nlogn)
pdqSort	O(n)	O(nlogn)	O(nlogn)

性能测试：

在有序或者逆序情况下提升10x
其他情况下有10~50%提升

Q & A：

高性能的排序算法是如何设计的？
- 根据不同情况选择不同策略，取长补短。
生产环境中使用的排序算法和课本上的排序算法的区别？
- 理论算法注重理论性能，例如时间、空间复杂度等。生产环境中的算法需要面对不同的实践场景，更加注重实践性能。
Go语言(<=1.18)的排序算法是快排吗？
- 实际一直是混合排序算法，主体是快排。Go <= 1.18 时的算法也是基于快排，和pdqsort的区别在于fallback时机、pivot选择策略、是否有针对不同pattern优化等。