排序算法的工业理解 | 青训营课程内容主要是体验在经典的数据结构与算法领域工业界的一些最新进展，以及了解一下工业界数据结

课程内容主要是体验在经典的数据结构与算法领域工业界的一些最新进展，以及了解一下工业界数据结构算法和我们学校学习的有什么共同点和差异。

为什么学习数据结构与算法

例子：抖音直播排行榜功能

需求：某个时间段内，直播间礼物数 TOP10房间获得奖励，需要在每个房间展示排行榜
解决方案：
- 礼物数量存储在 Redis-zset 中，使用 skiplist 使得元素整体有序
- 使用 Redis 集群，避免单机压力过大，使用主从算法、分片算法
- 保证集群原信息的稳定，使用一致性算法
- 后端使用缓存算法 (LRU)降低 Redis 压力，展示房间排行榜

数据结构和算法几乎存在程序开发的所有地方，（所以面试基本必考）

Q：那问题来了，什么是最快的排序算法？Go 的排序算法有无提升空间（1.18->1.19排序算法提升）？
A：Python-timesort，C++-introsort，Go-pdqsort

经典算法理论印象

实际场景 benchmark 下经典算法的表现

整体结论：

以交通工具做类比，插入排序->单车，快速排序->汽车，堆排序->地铁，不同场景下不同的算法表现更好；就像我们到达目的地，可能会选择多种交通工具，排序算法也是如此。

pdqsort（pattern-defeating-quicksort）一种不稳定的混合排序算法。

结合三种排序方法的优点

对于短序列(小于一定长度)我们使用插入排序（具体长度在不同语言和场景下略有不同，12~32，泛型版本中选定为24）
其他情况，使用快速排序来保证整体性能
当快速排序表现不佳时（具体来说，pivot 位置离两端很近时，如小于 length/8，判定表现不佳，累计达到 limit=bits. Len (length)时，切换排序），使用堆排序来保证最坏情况下时间复杂度仍然为 O (n*logn)

优化思路

pivot 寻找近似中位数：寻找开销与带来的性能优化之间的 trade-off。

另外 pivot 的采样还可以让我们得知序列的状态

Version1升级到 version2优化总结

思考还有什么场景没有优化？
短序列√ 极端情况√ 完全随机√ 有序或者逆序√ 元素重复度较高？

针对重复元素很多的情况优化

怎么感知重复元素多

优化-重复元素较多的情况(partitionEqual)

当检测到此时的 pivot 和上次相同时(发生在 leftSubArray)使用 partitionEqual 将重复元素排列在一起，减少重复元素对于 pivot 选择的干扰

优化-当pivot选择策略表现不佳时，随机交换元素

Q：高性能的排序算法是如何设计的?
A：根据不同情况选择不同策略，取长补短

Q：生产环境中使用的的排序算法和课本上的排序算法有什么区别?
A：理论算法注重理论性能，例如时间、空间复杂度等。生产环境中的算法需要面对不同的实践场景，更加注重实践性能

Q：Go 语言(<=1.18)的排序算法是快速排序么? A：实际一直是混合排序算法，主体是快速排序。Go <= 1.18时的算法也是基于快速排序，和pdqsort的区别在于fallback时机、pivot 选择策略、是否有针对不同pattern优化等