常见排序算法

510 阅读7分钟

排序算法与复杂度归类

  • 最常用的排序算法:冒泡排序、插入排序、选择排序、快速排序、归并排序、计数排序、基数排序、桶排序
  • 复杂度归类:
    • 冒泡排序、插入排序、选择排序 O(n^2)
    • 快速排序、归并排序 O(nlogn)
    • 计数排序、基数排序、桶排序 O(n)

如何分析一个排序算法

  • 算法的执行效率
    • 最好,最坏,平均情况时间复杂度
    • 时间复杂度的系数,常数和低阶
    • 比较次数,交换(或移动)次数
  • 算法的稳定性
    • 稳定性概念:如果待排序的序列中存在值相等的元素,经过排序之后,相等元素之间原有的先后顺序不变
    • 稳定性重要性:可针对对象的多种属性进行有优先级的排序。
    • 举例:给电商交易系统中的“订单”排序,按照金额大小对订单数据排序,对于相同金额的订单以下单时间早晚排序。用稳定排序算法可简洁地解决。先按 照下单时间给订单排序,排序完成后用稳定排序算法按照订单金额重新排序。
  • 算法的内存损耗
    • 原地排序算法:特指空间复杂度是O(1)的排序算法

冒泡排序

  • 冒泡排序只会操作相邻的两个数据。每次冒泡操作都会对相邻的两个元素进行比较,看是否满足大小关系要求,如果不满足就让它俩互换。

  • 稳定性:冒泡排序是稳定的排序算法。

  • 空间复杂度:冒泡排序是原地排序算法。

  • 时间复杂度:

  1. 最好情况(满有序度):O(n)。
  2. 最坏情况(满逆序度):O(n^2)。
  3. 平均情况: “有序度”和“逆序度”:对于一个不完全有序的数组,如4,5,6,3,2,1,有序元素对为3个(4,5),(4,6),(5,6),有序度为3,逆序度为12;对 于一个完全有序的数组,如1,2,3,4,5,6,有序度就是n*(n-1)/2,也就是15,称作满有序度;逆序度=满有序度-有序度;冒泡排序、插入排序交换(或 移动)次数=逆序度。 最好情况下初始有序度为n*(n-1)/2,最坏情况下初始有序度为0,则平均初始有序度为n*(n-1)/4,即交换次数为n*(n-1)/4,因交换次数<比较次数<最坏情况时 间复杂度,所以平均时间复杂度为O(n^2)。

插入排序

  • 插入排序将数组数据分成已排序区间和未排序区间。初始已排序区间只有一个元素,即数组第一个元素。在未排序区间取出一个元素插入到已排序区间的合适位置,直到未排序区间为空。
  • 空间复杂度:插入排序是原地排序算法。
  • 时间复杂度:
  1. 最好情况:O(n)。
    2. 最坏情况:O(n^2)。
    3. 平均情况:O(n^2)(往数组中插入一个数的平均时间复杂度是O(n),一共重复n次)。
    稳定性:插入排序是稳定的排序算法。

选择排序

  • 选择排序将数组分成已排序区间和未排序区间。初始已排序区间为空。每次从未排序区间中选出最小的元素插入已排序区间的末尾,直到未排序区间为空。
  • 空间复杂度:选择排序是原地排序算法。
  • 时间复杂度:(都是O(n^2))
  1. 最好情况:O(n^2)。
    2. 最坏情况:O(n^2)。
  2. 平均情况:O(n^2)。
    稳定性:选择排序不是稳定的排序算法。

归并排序

  • 使用的分治思想,分治一般使用递归来实现。分治是一种解决问题的处理思想,递归是一种编程技巧
  • 时间复杂度:归并排序的执行效率与要排序的原始数组的有序程度无关,所以其时间复杂度是非常稳定的,不管是最好情况、最坏情况,还是平均情况,时间复杂度都是O(nlogn)
  • 空间复杂度:递归代码的空间复杂度并不能像时间复杂度那样累加。刚刚我们忘记了最重要的一点,那就是,尽管每次合并操作都需要申请额外的内存空间,但在合并完成之后,临时开辟的内存空间就被释放掉了。在任意时刻,CPU只会有一个函数在执行,也就只会有一个临时的内存空间在使用。临时内存空间最大也不会超过n个数据的大小,所以空间复杂度是O(n)
  • 不是原地排序算法

快速排序

  • 思想:如果要排序数组中下标从p到r之间的一组数据,我们选择p到r之间的任意一个数据作为pivot(分区点)。我们遍历p到r之间的数据,将小于pivot的放到左边,将大于pivot的放到右边,将pivot放到中间。经过这一步骤之后,数组p到r之间的数据就被分成了三个部分,前 面p到q-1之间都是小于pivot的,中间是pivot,后面的q+1到r之间是大于pivot的。

  • 如果我们不考虑空间消耗的话,partition()分区函数可以写得非常简单。我们申请两个临时数组X和Y,遍历A[p...r],将小于pivot的元素都拷贝到临时数组X,将大于pivot的元素都拷贝到临时数组Y,最后再将数组X和数组Y中数据顺序拷贝到A[p...r]。

  • 如果要实现原地排序算法,可以像选择排序一样。我们通过游标i把A[p...r-1]分成两部分。A[p...i-1]的元素都是小于pivot的,我们暂且叫它“已处理区间”,A[i...r-1]是“未处理区 间”。我们每次都从未处理的区间A[i...r-1]中取一个元素A[j],与pivot对比,如果小于pivot,则将其加入到已处理区间的尾部,也就是A[i]的位置。

  • 不是一个稳定排序算法

  • 时间复杂度:最好O(nlogn) 最坏O(n^2)

归并排序和快速排序的区别

  • image.png
  • 可以发现,归并排序的处理过程是由下到上的,先处理子问题,然后再合并。而快排正好相反,它的处理过程是由上到下的,先分区,然后再处理子问题。归并排序虽然是稳定的、时间复杂度为O(nlogn)的排序算法,但是它是非原地排序算法。我们前面讲过,归并之所以是非原地排序算法,主要原因是合并函数无法在原地执行。快速排序通过设计巧妙的原地分区函数,可以实现原地排序,解决了归并排序占用太多内存的问题。

思考题

  • 现在你有10个接口访问日志文件,每个日志文件大小约300MB,每个文件里的日志都是按照时间戳从小到大排序的。你希望将这10个较小的日志文件,合并为1个日志文件,合并之后的日志仍然按照时间戳从小到大排列。如果处理上述排序任务的机器内存只有1GB,你有什么好的解决思路,能“快速”地将这10个日志文件合并吗?
  • 解答:先构建十条io流,分别指向十个文件,每条io流读取对应文件的第一条数据,然后比较时间戳,选择出时间戳最小的那条数据,将其写入一个新的文件,然后指向该时间戳的io流读取下一行数据,然后继续刚才的操作,比较选出最小的时间戳数据,写入新文件,io流读取下一行数据,以此类推,完成文件的合并,这种处理方式,日志文件有n个数据就要比较n次,每次比较选出一条数据来写入,时间复杂度是O(n),空间复杂度是O(1),几乎不占用内存。