问题分析

1 如何从大量的URL中查找到相同的URL？

2 如何从大量数据中找到高频词？

3 如何找出访问百度网站最多的IP？

4 如何再大量的数据中找到不重复的整数？

5 如何从大量数据中判断一个数是否存在

和问题4 是同一种类型的问题，采用位图法或者是分治

6 如何查询最热门的查询串

7 统计不同电话号码的个数

从 5 亿个数字中找到中位数

双堆法需要将5 亿个数字全部提前到内存中，需要本身内存较大

可以通过数字每一个位是 0 还是 1 进行划分，划分成为 2 个较小的区间如果第一位是0 的有 4 亿个第一位是 1 的有 1 亿个，说明中位数的第一位是0 ，一致分治下去

有 10 个文件，每个文件大小为 1G，每个文件的每一行存放的都是用户的 query，每个文件的 query 都可能重复。要求按照 query 的频度排序。

-还是找相同找不同的问题，直接分治理

从一个较大的数据集中找到排名前500的数

小结

参考

几个常见的大数据查找问题

问题分析

1 如何从大量的URL中查找到相同的URL？

2 如何从大量数据中找到高频词？

3 如何找出访问百度网站最多的IP？

4 如何再大量的数据中找到不重复的整数？

5 如何从大量数据中判断一个数是否存在

6 如何查询最热门的查询串

7 统计不同电话号码的个数

从 5 亿个数字中找到中位数

有 10 个文件，每个文件大小为 1G，每个文件的每一行存放的都是用户的 query，每个文件的 query 都可能重复。要求按照 query 的频度排序。

从一个较大的数据集中找到排名前500的数

小结

参考