算法入门篇四 桶排序

222 阅读8分钟

桶排序

计数排序(基于统计)

  • 要求数据是有限的,和数据状况有关,比如对于200个人统计他们的年龄分布,这个时候需要申请200个桶,因此对于输入数据的规模有限制,如果输入规模是不定的,空间申请就会很麻烦。

基数排序

思想

  • 要求排序的数字都是十进制的数字,找到最高位的数字,对于其中不满足位数的数字前面补0,例如【100,23,34】就需要改写成【100,023,034】的形式。
  • 准备和数字相同数目的桶(类比于先进先出的队列),所有数字按照个位数字进桶,然后按照从左往右的次序依次往出倒数字,如果一个桶内有多个数字按照次序(队列)倒数,再按照十位数字进桶,原理和先前类似,倒出;再按照百位数字进桶,出桶。最后的次序是从小到大的。

落地

  • 初始数组为【23,13,3,24,23,14】,申请两个栈,一个为count,一个是help。count按照次序分别是【0,1,2,3,4,5,6,7,8,9】这个用于统计对应的数字的个数,比如上面这个例子的话,个位是3的个数有4个,个位是4的个数有3个。而help指定的是数组中元素的个数。此时一个6个元素,所以将help的大小设置为6。
  • 统计完对应的数字数字之后,得到的count为【0,0,0,4,2,0,0,0,0,0】,对其进行加工,对应元素的位置等于自身的值+前面的元素值。如果是0号位置就是本身,1号就是0+0,2号是0+0;3号是4+0;4号是4+0;5号是6+0;依次类推剩余元素的值都是6。经过加工后的count数组含义就是小于等于相应位置上元素的个数。比如小于等于3的有三个元素;小于等于5,6,7,8,9的有6个元素。

操作过程

  • 从右往左遍历,第一个元素是14,个位数小于等于6的有6个,所以将14填写在help的5位置上,并且将count数组中的4对应的6减1,变成5。
  • 下一个元素是23,个位元素对应的是3,查询count数组,小于等于3的元素有四个,因此将23填写在help数组的3号位置,count中3号位置的4减1;
  • 下一个元素是24, 个位元素对应的是4,查询count数组,小于等于4的元素有5个,因此将24填写在help数组的4号位置,count中4号位置的5减1;
  • 下一个元素是3, 个位元素对应的是3,查询count数组,小于等于3的元素有3个,因此将3填写在help数组的2号位置,count中3号位置的3减1;
  • 下一个元素是13, 个位元素对应的是3,查询count数组,小于等于3的元素有2个,因此将3填写在help数组的1号位置,count中3号位置的2减1;
  • 下一个元素是23, 个位元素对应的是3,查询count数组,小于等于3的元素有1个,因此将3填写在help数组的0号位置,count中3号位置的1减1;

完整代码

package class03;

import java.util.Arrays;

public class Code02_RadixSort {

	// only for no-negative value
	public static void radixSort(int[] arr) {
		if (arr == null || arr.length < 2) {
			return;
		}
		radixSort(arr, 0, arr.length - 1, maxbits(arr));
	}

	public static int maxbits(int[] arr) {
		int max = Integer.MIN_VALUE;
		for (int i = 0; i < arr.length; i++) {
			max = Math.max(max, arr[i]);
		}
		int res = 0;
		while (max != 0) {
			res++;
			max /= 10;
		}
		return res;
	}

	// arr[begin..end]排序
	public static void radixSort(int[] arr, int L, int R, int digit) {
		final int radix = 10;
		int i = 0, j = 0;
		// 有多少个数准备多少个辅助空间
		int[] bucket = new int[R - L + 1];
		for (int d = 1; d <= digit; d++) { // 有多少位就进出几次
			// 10个空间
		    // count[0] 当前位(d位)是0的数字有多少个
			// count[1] 当前位(d位)是(0和1)的数字有多少个
			// count[2] 当前位(d位)是(0、1和2)的数字有多少个
			// count[i] 当前位(d位)是(0~i)的数字有多少个
			int[] count = new int[radix]; // count[0..9]
			for (i = L; i <= R; i++) {
				j = getDigit(arr[i], d);
				count[j]++;
			}
			for (i = 1; i < radix; i++) {
				count[i] = count[i] + count[i - 1];
			}
			for (i = R; i >= L; i--) {
				j = getDigit(arr[i], d);
				bucket[count[j] - 1] = arr[i];
				count[j]--;
			}
			for (i = L, j = 0; i <= R; i++, j++) {
				arr[i] = bucket[j];
			}
		}
	}

	public static int getDigit(int x, int d) {
		return ((x / ((int) Math.pow(10, d - 1))) % 10);
	}

	// for test
	public static void comparator(int[] arr) {
		Arrays.sort(arr);
	}

	// for test
	public static int[] generateRandomArray(int maxSize, int maxValue) {
		int[] arr = new int[(int) ((maxSize + 1) * Math.random())];
		for (int i = 0; i < arr.length; i++) {
			arr[i] = (int) ((maxValue + 1) * Math.random());
		}
		return arr;
	}

	// for test
	public static int[] copyArray(int[] arr) {
		if (arr == null) {
			return null;
		}
		int[] res = new int[arr.length];
		for (int i = 0; i < arr.length; i++) {
			res[i] = arr[i];
		}
		return res;
	}

	// for test
	public static boolean isEqual(int[] arr1, int[] arr2) {
		if ((arr1 == null && arr2 != null) || (arr1 != null && arr2 == null)) {
			return false;
		}
		if (arr1 == null && arr2 == null) {
			return true;
		}
		if (arr1.length != arr2.length) {
			return false;
		}
		for (int i = 0; i < arr1.length; i++) {
			if (arr1[i] != arr2[i]) {
				return false;
			}
		}
		return true;
	}

	// for test
	public static void printArray(int[] arr) {
		if (arr == null) {
			return;
		}
		for (int i = 0; i < arr.length; i++) {
			System.out.print(arr[i] + " ");
		}
		System.out.println();
	}

	// for test
	public static void main(String[] args) {
		int testTime = 500000;
		int maxSize = 100;
		int maxValue = 100000;
		boolean succeed = true;
		for (int i = 0; i < testTime; i++) {
			int[] arr1 = generateRandomArray(maxSize, maxValue);
			int[] arr2 = copyArray(arr1);
			radixSort(arr1);
			comparator(arr2);
			if (!isEqual(arr1, arr2)) {
				succeed = false;
				printArray(arr1);
				printArray(arr2);
				break;
			}
		}
		System.out.println(succeed ? "Nice!" : "Fucking fucked!");

		int[] arr = generateRandomArray(maxSize, maxValue);
		printArray(arr);
		radixSort(arr);
		printArray(arr);

	}

}

稳定性

  • 相同元素排序保证先后顺序
  • 同样数值的个体之间,如果不因为排序而改变相对次序,这个排序就是有稳定性的,否则则没有
  • 基于比较的排序,一般都是不稳定的;基数排序(按照个位、十位、百位上的元素的大小进行相对次序的排列)和计数排序(统计相同数值的元素出现的次数,押入对应的元素组成的数据栈,利用栈先入后出的特性,保持元素的相对次序,参考上文统计0-200员工年龄分布问题)是稳定的
  • 不具备稳定性的排序:选择排序、快速排序 和 堆排序
  • 具备稳定性的排序 :冒泡排序、插入排序 、归并排序 、一切桶排序思想下的排序(计数排序和基数排序)
  • 目前没有 时间复杂度为O(N*logN) 额外时间复杂度O(1) 又稳定的排序
  • 稳定性 主要体现在 非基础类型数据的排序,比如对自定义结构体学生类型{年龄、班级},先按照年龄排序,再按照班级进行排序

分析:

  • 桶排序思想下的排序都是不基于比较的排序
  • 时间复杂度为O(N),额外空间负载度O(M)
  • 应用范围有限,需要样本的数据状况满足桶的划分

汇总

  • 快速排序不是基于比较的排序

时间

空间

稳定性

备注

选择排序

O(N^2)

O(1)

不稳定

{5,5,5,3} 3和第一个5交换,不稳定

冒泡排序

O(N^2)

O(1)

稳定

插入排序

O(N^2)

O(1)

稳定

{3,4,4,5}新插入元素4,不可以越过与其相等元素的左边,即元素相等的话,只会排在相等区域的最后位置

归并排序

O(N*logN)

O(N)

稳定

{1,1,2,2}{1,1,2,2}左边和右边进行比较拼接的时候,先拷贝左边的元素,再拷贝右边的元素

快速排序

O(N*logN)

O(logN)

不稳定

{3,4,5,6,6,6,6,6,|2,333} 2会和第一个6进行交换,打破了相对次序

堆排序

O(N*logN)

O(1)

不稳定

树状结构,{5,5,5,5,6}第一个5会和6交换,不稳定

桶排序(基数/计数)

O(N)

O(M)

稳定

非比较

  • 归并、快排、和堆排序最为关键;不在乎稳定性的前提小,使用快速排序最好,时间最快(实验可知);需要稳定性的话,使用归并排序;在乎额外空间的话,使用堆排序

常见的坑

  • 归并排序的额外空间复杂度可以变为O(1),但是会失去稳定性的优势,详见《归并排序,内部缓冲法》
  • 原地归并排序,很垃圾,会将时间复杂度变成O(N^2)
  • 快速排序也可以做到稳定性,但是非常难,详见《01 stable sort》
  • 所有的改进都不重要 目前没有 时间复杂度为O(N*logN) 额外空间复杂度为 O(1) 又稳定的排序
  • 将一个数组中,所有的奇数移到数组的左边,所有的偶数移到数组的右边。保持相对次序不变的同时,要是时间复杂度为O(N),空间复杂度为O(1)。这个没法做😂😂😂😂

对于排序的改进优化

  • 充分利用O(N*logN)和O(N^2)的排序的各自优势
  • 数据规模很大的时候使用快速排序,当数据规模减少,数据项在60以内的时候,该换成插入排序,同时使用快速和插入两种方法,能进一步提高效率,减少时间复杂度。

稳定性考虑

  • 如果输入的数据是基础类型,使用快速排序;如果输入的类型是自定义的类型,使用插入、归并这些可以保证稳定性的排序方法
  • Java里面自带的排序算法,即array.sort,如果是常规类型,比如int的话是使用快速排序,提高速度;如果是自定义的类型,比如学生的年龄,结构体定义的字段,会使用桶排序,保证比较的稳定性。即算法看重时间复杂度 空间复杂度和稳定性(数值相等的元素排序,保证先后次序不变)
  • 基础类型按照数值传递,非基础类型,比如自定义结构体按照引用传递,具体体现在integer这个类型,127相等,128就不等了。因为128以上就作为不同内存了,也就是按照引用比较了