基础知识
数组: 基本数据结构,它占据一块连续的内存并按照顺序存储数据。 创建数组,首先要指定数组容量大小,然后根据大小分配内存。
即使只在数组中存储一个数字,也需要为所有的数据预先分配内存,因此数字的空间效率不是很好,有空闲的区域没有充分利用。
运用: 由于数组的内存是连续的,可以根据下标在 O(1)时间读/写任何元素,时间效率很高,根据这个特性,可以使用数组实现简单的哈希表,数组下标作为哈希表的键值(key),数组中的每个数字设为哈希表的值(Value)。
为解决数字空间效率不高的问题 方案:动态数组。为避免浪费,先为数组开辟较小的空间,然后往数组中添加数据,当数据超过数组的容量时,再重新分配一块更大的空间(一般为前一次的2倍),为数组扩容。
存在问题:扩容时,要把旧数据复制到新数组中,再把之前的内存释放,会产生大量额外操作,这个对时间性能有影响,因此使用动态数组时,尽量减少改变数组容量大小的次数,合理规划扩容的大小。
题目一:找出数组中重复的数字。
在一个长度为n的数组里的所有数字都在 0~n-1 的范围内。数组中某些数字是重复的,但不知道有几个数字重复了,也不知道每个数字重复了几次。请找出数组中任意一个重复的数宇。例如,如果输入长度为7的数组{2,3,1,0,2,5,3},那么对应的输出是重复的数字2或者3。
思考 1、先把数组排序,再从排序的数组中找到重复的数字,只需要从头到尾扫描排序后的数组即可,排序一个长度为n的数组需要 O(nlogn) 的时间。 2、利用哈希表。 从头到尾按顺序扫描数组的每个数字,每扫描到一个数字的时候,都可以用 0(1)的时间来判断哈希表里是否己经包含了该数字。如果哈希表里还没有这个数字,就把它加入哈希表。如果哈希表里己经存在该数字,就找到一个重复的数字。 这个算法的时间复杂度是O(n),但它提高时间效率是以一个大小为 O(n) 哈希表为代价的。 我们再看看有没有空间复杂度是 O(1) 的算法。
我们注意到数组中的数字都在 0~n-1 的范围内。如果这个数组中没有重复的数字,那么当数组排序之后数字i将出现在下标为i的位置。由于数组中有重复的数字,有些位置可能存在多个数字,同时有些位置可能没有数字。
现在让我们重排这个数组。从头到尾依次扫描这个数组中的每个数字。
当扫描到下标为 i 的数字时,首先比较这个数字(用m 表示)是不是等于i。 如果是,则接着扫描下一个数宇;如果不是,则再拿它和第 m 个数字进行比较。如果它和第 m 个数字相等,就找到了一个重复的数字(该数字在下标为i和m的位置都出现了);如果它和第m 个数字不相等,就把第i个数字和第 m 个数字交换,把m放到属于它的位置。接下来再重复这个比较、交换的过程,直到我们发现一个重复的数字。
以数组{2,3,1,0,2,5,3};为例来分析找到重复数字的步骤。 数组的第0个数字(从0开始计数,和数组的下标保持一致)是2,与它的下标不相等,于是把它和下标为 2 的数字 1 交换。交换之后的数组是{1,3,2,0,2,5,3}。此时第0个数字是1,仍然与它的下标不相等,继续把它和下标为 1 的数宇3交换,得到数组{3,1,2,0,2,5,3}。
接下来继续交换第0个数宇了和第3个数宇0,得到数组{0,1,2,3,2,5,3}。此时第0个数字的数值为 0,接着扫描下一个数字。在接下来的几个数字中,下标为 1、2、3的3个数字分别为1、2、3,它们的下标和数值都分别相等,因此不需要执行任何操作。
接下来扫描到下标为4 的数字2。由于它的数值与它的下标不相等,再比较它和下标为2的数字。注意到此时数组中下标为2的数字也是2,也就是数字2在下标为2和下标为 4 的两个位置都出现了,因此找到一个重复的数字。
题目二:不修改数组找出重复的数字
在一个长度为 n+1 的数组里的所有数字都在 1~n 的范围内,所以数组中至少有一个数字是重复的。请找出数组中任意一个重复的数字,但不能修改输入的数组。例如,如果输入长度为8的数组 {2,3,5,4,3,2,6,7},那么对应是重复的数字2或者3
方法1:
可以创建一个长度为 n+1 的辅助数组,把原数组的每个元素复制到辅助数组,比如原数组的是m,那么复制到辅助数组下标为m的地方,这样就很容易发现重复的数字。 需要 O(n) 的辅助空间。
缺点:费空间
方法2
尝试避免使用 O(n) 的辅助空间。假设数组中没有重复的数字,那么在 1~n 的范围内,只有 n 个数字,由于包含超过 n 个数字,所以一定包含了重复的数字,看起来在某个范围里数字的个数对解决这个问题很重要。
按照二分查找的思路:
把从 1~n 的数字从中间的数字 m 分为两部分,前面一半为 1~m ,后面一半为 m+1~n,如果 1~m 的数字的数目超过 m ,那么这一半的区间里一定包含重复的数字。 否则,另一半 m+1~n 的区间里一定包含重复的数字。
我们可以继续把包含重复数字的区间一分为二,直到找到一个重复的数字。
具体操作: 以长度为8的数组 {2.3.5,4.3,2,6.7} 为例分析查找的过程。 根据题目要求,这个长度为 8 的所有数字都在 1~7 的范围内。中间的数字 4 把 1~7 的范围分为两段,一段是 1~4,另一段是 5~7。接下来我们统计 1~4 这 4 个数字(1,2,3,4)在数组中出现的次数,它们一共出现了5次,因此这 4 个数宇中一定有重复的数字。
接下来我们再把 1~4 的范围一分为二,一段是1、2两个数字,另段是3、4 两个数宇。数字1 或者2在数组中一共出现了两次。我们再统计数字3 或者 4 在数组中出现的次数,它们一共出现了三次。这意味着 3、4 两个数字中一定有一个重复了。我们再分别统计这两个数字在数组中出现的次数。接着我们发现数字3出现了两次,是一个重复的数字。
时间复杂度 O(nlogn)
空间复杂度 O(1)