什么是 Top-K 问题?

TOP-K问题：

即求数据集合中前K个最大的元素或者最小的元素，一般情况下数据量都比较大。比如：专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。

思路一

暴露求解：

思路比较简单，求最大值就建大堆弹堆顶元素，求最小值就建小堆弹堆顶元素~

建堆

求前 k 个最小的元素，则建小堆

求前 k 个最大的元素，则建大堆

将所有数据放入堆中，然后弹出堆顶元素 k 次即可得到前 k 个最小的元素（或前 k 个最大的元素）

代码

public static int[] topK(int[] arr, int k) {
    // 1.建堆, 建小堆并且堆的大小为数组大小
    PriorityQueue<Integer> maxHeap = new PriorityQueue<>(arr.length);
    // 2.遍历数组, 将元素入堆
    for (int i = 0; i < arr.length; i++) {
        maxHeap.offer(arr[i]);
    }
    int[] temp = new int[k];
    for (int i = 0; i < k; i++) {
        // 弹 k 次, 即得到前 k 个最小元素
        temp[i] = maxHeap.poll();
    }
    return temp;
}

时间复杂度分析

如果建一个大小为 N 的堆，就要插入 N 个元素，那么就需要调整 N 次，每次的调整次数为树的高度（即 logN）因此建堆的时间复杂度为 O(N * logN)

每次的删除元素也需要调整堆，如果要删除 N 个的话，就是 O(N * logN) 了

遍历数组并将元素入堆，既要遍历数组又要调整堆，因此该操作的时间复杂度为 O(N * logN)

因此该方法的时间复杂度就是 O(N * logN)

#思路二

1、用数据集合中前K个元素来建堆，因此堆的大小为 k

如果是求前 k 个最大的元素，则建小堆

如果是求前 k 个最小的元素，则建大堆

2、接着，每次让堆顶元素与剩下的 N - k 个元素来进行比较

如果是求前k个最大的元素，该元素比堆顶元素大，则删除堆顶元素，该元素 offer 进堆。因为是小堆，因此堆顶元素就是所求 k 个最大的元素中的第 k 个（即最后一个）

同理，如果是求前k个最小的元素，该元素比堆顶元素小，则删除堆顶元素，该元素 offer 进堆。因为是大堆，因此堆顶元素就是所求 k 个最小的元素中的第 k 个

总结：大堆保证了堆顶的元素一定是你所求 k 个元素中是最大的，因此如果你使用大堆求一组数据中前 k 个最小值，那么在前 k 个最小的元素中，比第 k 个值小的元素一定是在堆中的。建小堆求前 k 个最大的元素，同理~

代码

public static int[] topK(int[] arr, int k) {
    // 1.因为求的是前 k 个最小元素因此建一个大小为 k 的大堆
    PriorityQueue<Integer> maxHeap = new PriorityQueue<>(k, new Comparator<Integer>() {
        @Override
        public int compare(Integer o1, Integer o2) {
            // 默认是 o1 - o2 , 改为 o2 - o1 则是大堆
            return o2 - o1;
        }
    });

    // 2.遍历数组
    for (int i = 0; i < arr.length; i++) {
        if (maxHeap.size() < k) {
            // 将前 k 个元素放入堆中
            maxHeap.offer(arr[i]);
        } else {
            // 从第k+1个元素开始，每个元素和堆顶元素进行比较
            int top = maxHeap.peek();
            if (top > arr[i]) {
                // 将堆顶元素删除
                maxHeap.poll();
                // 然后将新元素入堆
                maxHeap.offer(arr[i]);
            }
        }
    }
    int[] temp = new int[k];
    for (int i = 0; i < k; i++) {
        temp[i] = maxHeap.poll();
    }
    return temp;
}

时间复杂度分析

因为堆的大小是一个常数 k 的大小，因此建堆和调整堆的时间复杂度就是一个常数可以忽略不记。在遍历数组的时候，时间复杂度为 O(N) ，因此该方法的时间复杂度就是 O(N)

topK 问题 OJ

最小K个数

注意：

OJ 这里要注意堆的大小是 > 0 ，小于 1 就会抛出空指针异常

人，总归是要埋头做一些事的，不是吗？

面试官：知道 TopK 问题吗？它的应用场景是什么？

什么是 Top-K 问题?

思路一

代码

时间复杂度分析

代码

时间复杂度分析

topK 问题 OJ