算法是什么
算法定义
宝藏网站Hello 算法
算法(algorithm)是在有限时间内解决特定问题的一组指令或操作步骤,它具有以下特性。
- 问题是明确的,包含清晰的输入和输出定义。
- 具有可行性,能够在有限步骤、时间和内存空间下完成。
- 各步骤都有确定的含义,在相同的输入和运行条件下,输出始终相同。
数据结构定义
数据结构(data structure)是组织和存储数据的方式,涵盖数据内容、数据之间关系和数据操作方法,它具有以下设计目标。
- 空间占用尽量少,以节省计算机内存。
- 数据操作尽可能快速,涵盖数据访问、添加、删除、更新等。
- 提供简洁的数据表示和逻辑信息,以便算法高效运行。
数据结构设计是一个充满权衡的过程。如果想在某方面取得提升,往往需要在另一方面作出妥协。下面举两个例子。
- 链表相较于数组,在数据添加和删除操作上更加便捷,但牺牲了数据访问速度。
- 图相较于链表,提供了更丰富的逻辑信息,但需要占用更大的内存空间。
数据结构与算法的关系
如图 所示,数据结构与算法高度相关、紧密结合,具体表现在以下三个方面。
- 数据结构是算法的基石。数据结构为算法提供了结构化存储的数据,以及操作数据的方法。
- 算法为数据结构注入生命力。数据结构本身仅存储数据信息,结合算法才能解决特定问题。
- 算法通常可以基于不同的数据结构实现,但执行效率可能相差很大,选择合适的数据结构是关键。
数据结构与算法犹如下所示的拼装积木。一套积木,除了包含许多零件之外,还附有详细的组装说明书。我们按照说明书一步步操作,就能组装出精美的积木模型。
两者的详细对应关系如表 1-1 所示。
| 数据结构与算法 | 拼装积木 |
|---|---|
| 输入数据 | 未拼装的积木 |
| 数据结构 | 积木组织形式,包括形状、大小、连接方式等 |
| 算法 | 把积木拼成目标形态的一系列操作步骤 |
| 输出数据 | 积木模型 |
值得说明的是,数据结构与算法是独立于编程语言的。 无论使用哪种编程语言,这些基本的数据结构都可以通过不同的语法来实现相同的逻辑。
究竟什么是时间复杂度
时间复杂度是一个函数,它定性描述该算法的运行时间。
我们在软件开发中,时间复杂度就是用来方便开发者估算出程序运行的大体时间。
那么该如何估计程序运行时间呢,通常会估算算法的操作单元数量来代表程序消耗的时间,这里默认CPU的每个单元运行消耗的时间都是相同的。
假设算法的问题规模为n,那么操作单元数量便用函数f(n)来表示,随着数据规模n的增大,算法执行时间的增长率和f(n)的增长率相同,这称作为算法的渐近时间复杂度,简称时间复杂度,记为 O(f(n))
什么是大O
这里的大O是指什么呢,说到时间复杂度,大家都知道O(n),O(n^2),却说不清什么是大O。
算法导论给出的解释:大O用来表示上界的,当用它作为算法的最坏情况运行时间的上界,就是对任意数据输入的运行时间的上界。
同样算法导论给出了例子:拿插入排序来说,插入排序的时间复杂度我们都说是O(n^2) 。
输入数据的形式对程序运算时间是有很大影响的,在数据本来有序的情况下时间复杂度是O(n),但如果数据是逆序的话,插入排序的时间复杂度就是O(n^2),也就对于所有输入情况来说,最坏是O(n^2) 的时间复杂度,所以称插入排序的时间复杂度为O(n^2)。
同样的同理再看一下快速排序,都知道快速排序是O(nlogn),但是当数据已经有序情况下,快速排序的时间复杂度是O(n^2) 的,所以严格从大O的定义来讲,快速排序的时间复杂度应该是O(n^2) 。
但是我们依然说快速排序是O(nlogn)的时间复杂度,这个就是业内的一个默认规定,这里说的O代表的就是一般情况,而不是严格的上界。如图所示:
我们主要关心的还是一般情况下的数据形式。
面试中说的算法的时间复杂度是多少指的都是一般情况。 但是如果面试官和我们深入探讨一个算法的实现以及性能的时候,就要时刻想着数据用例的不一样,时间复杂度也是不同的,这一点是一定要注意的。
不同数据规模的差异
如下图中可以看出不同算法的时间复杂度在不同数据输入规模下的差异。
在决定使用哪些算法的时候,不是时间复杂越低的越好(因为简化后的时间复杂度忽略了常数项等等),要考虑数据规模,如果数据规模很小甚至可以用O(n^2)的算法比O(n)的更合适(在有常数项的时候)。
就像上图中 O(5n^2) 和 O(100n) 在n为20之前 很明显 O(5n^2)是更优的,所花费的时间也是最少的。
那为什么在计算时间复杂度的时候要忽略常数项系数呢,也就说O(100n) 就是O(n)的时间复杂度,O(5n^2) 就是O(n^2)的时间复杂度,而且要默认O(n) 优于O(n^2) 呢 ?
这里就又涉及到大O的定义,因为大O就是数据量级突破一个点且数据量级非常大的情况下所表现出的时间复杂度,这个数据量也就是常数项系数已经不起决定性作用的数据量。
例如上图中20就是那个点,n只要大于20 常数项系数已经不起决定性作用了。
所以我们说的时间复杂度都是省略常数项系数的,是因为一般情况下都是默认数据规模足够的大,基于这样的事实,给出的算法时间复杂度的一个排行如下所示:
O(1)常数阶 < O(logn) 对数 阶 < O(n)线性阶 < O(nlogn)线性对数阶 < O(n^2)平方阶 < O(n^3)立方阶 < O(2^n)指数阶
但是也要注意大常数,如果这个常数非常大,例如10^7 ,10^9 ,那么常数就是不得不考虑的因素了。
复杂表达式的化简
有时候我们去计算时间复杂度的时候发现不是一个简单的O(n) 或者O(n^2), 而是一个复杂的表达式,例如:
O(2*n^2 + 10*n + 1000)
那这里如何描述这个算法的时间复杂度呢,一种方法就是简化法。
去掉运行时间中的加法常数项 (因为常数项并不会因为n的增大而增加计算机的操作次数)。
O(2*n^2 + 10*n)
去掉常数系数(上文中已经详细讲过为什么可以去掉常数项的原因)。
O(n^2 + n)
只保留保留最高项,去掉数量级小一级的n (因为n^2 的数据规模远大于n),最终简化为:
O(n^2)
如果这一步理解有困难,那也可以做提取n的操作,变成O(n(n+1)) ,省略加法常数项后也就别变成了:
O(n^2)
所以最后我们说:这个算法的算法时间复杂度是O(n^2) 。
也可以用另一种简化的思路,其实当n大于40的时候, 这个复杂度会恒小于O(3 × n^2), O(2 × n^2 + 10 × n + 1000) < O(3 × n^2),所以说最后省略掉常数项系数最终时间复杂度也是O(n^2)。
#O(logn)中的log是以什么为底?
平时说这个算法的时间复杂度是logn的,那么一定是log 以2为底n的对数么?
其实不然,也可以是以10为底n的对数,也可以是以20为底n的对数,但我们统一说 logn,也就是忽略 底数 的描述。
为什么可以这么做呢?如下图所示:
假如有两个算法的时间复杂度,分别是log以2为底n的对数和log以10为底n的对数,那么这里如果还记得高中数学的话,应该不难理解以2为底n的对数 = 以2为底10的对数 * 以10为底n的对数。
而以2为底10的对数是一个常数,在上文已经讲述了我们计算时间复杂度是忽略常数项系数的。
抽象一下就是在时间复杂度的计算过程中,log以i为底n的对数等于log 以j为底n的对数,所以忽略了i,直接说是logn。
这样就应该不难理解为什么忽略底数了
举一个例子
通过这道面试题目,来分析一下时间复杂度。题目描述:找出n个字符串中相同的两个字符串(假设这里只有两个相同的字符串)。
如果是暴力枚举的话,时间复杂度是多少呢,是O(n^2)么?
这里一些同学会忽略了字符串比较的时间消耗,这里并不像int 型数字做比较那么简单,除了n^2 次的遍历次数外,字符串比较依然要消耗m次操作(m也就是字母串的长度),所以时间复杂度是O(m × n × n)。
接下来再想一下其他解题思路。
先排对n个字符串按字典序来排序,排序后n个字符串就是有序的,意味着两个相同的字符串就是挨在一起,然后在遍历一遍n个字符串,这样就找到两个相同的字符串了。
那看看这种算法的时间复杂度,快速排序时间复杂度为O(nlogn),依然要考虑字符串的长度是m,那么快速排序每次的比较都要有m次的字符比较的操作,就是O(m × n × log n) 。
之后还要遍历一遍这n个字符串找出两个相同的字符串,别忘了遍历的时候依然要比较字符串,所以总共的时间复杂度是 O(m × n × logn + n × m)。
我们对O(m × n × log n + n × m) 进行简化操作,把m × n提取出来变成 O(m × n × (logn + 1)),再省略常数项最后的时间复杂度是 O(m × n × log n)。
最后很明显O(m × n × logn) 要优于O(m × n × n)!
所以先把字符串集合排序再遍历一遍找到两个相同字符串的方法要比直接暴力枚举的方式更快。
这就是我们通过分析两种算法的时间复杂度得来的。
当然这不是这道题目的最优解,我仅仅是用这道题目来讲解一下时间复杂度。
时间复杂度.常数阶
那么接下来这个简单的时间复杂度大家是不是就很容易写出来了
c
n++
显然它的代码执行了1次,时间复杂度为O(1) 它就是我们在时间复杂度相关表现形式中常说的常数阶,常数阶不管执行多少次,只要是可计算能预见的次数,那么它的时间复杂度就是O(1)
时间复杂度.线性阶
接下来我们就容易联想到,要是是无限大的次数呢或者说是未知的次数呢?
c
for(j=1;j<n;j++)
{
}
从这个代码中小伙伴可以知道这个代码就执行了n次,f(n)=n,T(n)=O(n)
它在我们的时间复杂度的相关表现形式中称为线性阶
时间复杂度.平方阶
那么当我写出下面的东西阁下将如何应对?
c
for(j=1;j<n;j++)
{
for(i=1;i<n;i++)
{
}
}
显而易见,当j执行一次,i执行n次所以f(n)=n²,T(n)=O(n²)
它在我们的时间复杂度的相关表现形式中称为平方阶
时间复杂度.对数阶
while(i<n) { i=i*2 }
当i进行一次以后,i离目标n变为了以前的两倍,那么我们就知道2的i次幂就等于n那么实际上的时间复杂度就为log2(n) (怕小伙伴没看懂,就是2在log的右下方,n在2的右上方) 那么实际上f(n)=log2(n),T(n)=O(log2(n))
log和while更配哦,大家发现了while一定要多想想是不是对数阶的形式哦!
对数阶
对数阶时间复杂度通常表示为 O(logn),其中 n 是输入数据的规模。对数阶时间复杂度的算法在处理大数据集时非常高效,因为它们随着数据规模的增长,运行时间增长得相对较慢。
以下是一些具有对数阶时间复杂度的算法的例子:
-
二分查找(Binary Search) : 二分查找是一种在有序数组中查找特定元素的算法。它每次将搜索区间减半,因此查找的时间复杂度是 O(logn)。
python def binary_search(arr, target): low, high = 0, len(arr) - 1 while low <= high: mid = (low + high) // 2 if arr[mid] < target: low = mid + 1 elif arr[mid] > target: high = mid - 1 else: return mid return -1 -
归并排序(Merge Sort) : 归并排序是一种分治算法,它将数组分成两半,递归地排序每一半,然后将排序好的两半合并。归并排序的时间复杂度是 O(nlogn),其中 n 是数组的长度。虽然整体复杂度是 nlogn,但合并步骤本身是 O(logn) 的。
python def merge_sort(arr): if len(arr) > 1: mid = len(arr) // 2 L = arr[:mid] R = arr[mid:] merge_sort(L) merge_sort(R) i = j = k = 0 while i < len(L) and j < len(R): if L[i] < R[j]: arr[k] = L[i] i += 1 else: arr[k] = R[j] j += 1 k += 1 while i < len(L): arr[k] = L[i] i += 1 k += 1 while j < len(R): arr[k] = R[j] j += 1 k += 1 -
快速排序(Quick Sort) : 快速排序也是一种分治算法,它选择一个“基准”元素,然后将数组分为两部分,一部分包含所有小于基准的元素,另一部分包含所有大于基准的元素。然后递归地对这两部分进行排序。在平均情况下,快速排序的时间复杂度是 O(nlogn),但每次分区操作本身是 O(logn) 的。
python复制 def quick_sort(arr): if len(arr) <= 1: return arr else: pivot = arr.pop() greater = [x for x in arr if x > pivot] lesser = [x for x in arr if x <= pivot] return quick_sort(lesser) + [pivot] + quick_sort(greater)
这些算法展示了对数阶时间复杂度在处理大数据集时的效率优势。