算法

35 阅读10分钟

这是我参与「掘金日新计划 · 2 月更文挑战」的第 1 天,点击查看活动详情

算法

如何衡量不同算法之间的优劣?
主要是从算法所占用的时间和空间两个维度去考量。

  • 时间维度:是指执行当前算法所消耗的时间,我们通常用【时间复杂度】来描述
  • 空间维度:是指执行当前算法需要占用多少内存空间,我们通过用【空间复杂度】来描述。
    • 时间复杂度:很多人想到的方法是把这个算法程序运行一遍,那么它所消耗的时间就自然而然知道了。但是这个方法有很多弊端:这种方式非常容易受运行环境的影响,在性能高的机器上跑出来的结果与在性能低的机器上跑的结果会很大。而且对测试时使用的数据规模也有很大关系。再者,在我们写算法的时候,还没有办法完整的去运行呢。另一种更为通用的方法就出来了,【大O表示法】,即T(n)=O(f(n))
      • 常数阶O(1):无论代码执行了多少行,只要是没有循环等复杂结构,那这个代码的时间复杂度,就都是O(1)。
      • 线性阶O(n):消耗的时间是随着n的变化而变化,循环条件的条件次数,因此这类代码用O(n)来表示它的时间复杂度。
      • 对数阶O(logN):例如:算法程序只有一层循环,循环变量翻倍迭代。
      • 线性对数阶O(nlogN):例如:算法程序有两层循环,外循环的循环变量自增迭代,内循环的循环变量翻倍迭代
      • 平方阶O(n²):如果把O(n)的代码再嵌套循环一遍,它的时间复杂度就是O(n²)了。如果把其中一层循环n改成m,那么时间复杂度就变成了O(m*n)
      • 立方阶O(n³)、K次方阶O(n∧K):例如:立方阶的算法程序有三层循环,且三层循环的循环变量都是自增迭代。

堆与栈

  • 堆:经常说的数据结构堆栈,其实指的就是栈,它是一种先进后出的数据结构,是一种操作受限的线性表,从管理角度来讲,它是由操作系统分配管理的,也就是说它是规整的,内存的大小在申请之后不会发生变化。因此,他不会出现碎片化,并且读取的速度非常快。
    • 什么样的数据存放到栈里面:
      • 经常声明的局部变量,一些基本数据类型这些数据在声明的时候,内存的大小已经确定,它们会被存放到栈中。
    • 使用栈的好处:
      • 我们不需要管理内存的释放,这些内存会由操作系统自动释放,比如我们运行的一些函数,当我们函数结束的时候,它内部的变量申请的内存空间就会自动释放,非常的方便。
  • 堆:相对于栈的固定大小,堆的分配非常自由,它是由程序员自己去分配的,比如程序员考虑到某些情况需要更多的内存,它就可以在堆上面申请一个足够大的内存,除此之外,内存的分配非常自由,它并不要求是连续的内存(非线性),只要有空间,都可以被拿来分配,不过这样就会导致产生很多碎片,不利于告诉读取,因此堆的操作的速度要比栈慢很多。
    • 堆主要存放的是大小不固定的内存结构,因此,我们的数组和结构体经常被存放在堆上。对于全局变量我们也会放到堆上,因为他需要可以被任何地方访问,并且不能像栈一样被操作系统回收。

数据结构队列

队列是一种先进先出的,操作受限的线性表
队列就是先进入队列的先出去,后进入队列的后出去,必须从队尾插入新元素,队列中的元素只能从队首出,这就是队列操作受限制的地方了。
与堆栈类似,队列既可以用数组来实现也可以用链表来实现。
使用较多的队列的类型

  • 顺序队列
    • 用数组实现的队列,叫做顺序队列。
  • 链式队列
  • 循环队列
  • 优先队列

二叉树

二叉树是n(n>=0)个结点的有限集合,该集合或者为空集(称为空二叉树)或者由一个根结点和两棵树互不相交的、分别称为根结点的左子树和右子树组成。

  • 二叉树特点
    • 每个结点最多有两颗子树,所以二叉树中不存在度大于2的结点
    • 左子树和右子树是有顺序的,次序不能任意颠倒。
    • 即使树中某个结点只有一颗子树,也要区分它是左子树还是右子树
  • 二叉树的性质

image.png

  • 斜树:所有的结点都只有左子树的二叉树叫左斜树,所有节点都是只有右子树的二叉树叫右斜树,这两者统称为斜树。

image.png

  • 满二叉树:在一棵二叉树中。如果所有分支结点都存在左子树和右子树,并且所有叶子都在同一层上,这样的二叉树称为满二叉树。
    • 满二叉树的特点
      • 叶子只能出现在最下一层,出现在其它层就不可能达到平衡
      • 非叶子结点的度一定是2
      • 在同样深度的二叉树中,满二叉树的结点个数最多,叶子数最多。

image.png

  • 完全二叉树:对一颗具有n个结点的二叉树按层编号,如果编号为i(1<=i<n)的节点与同样深度的满二叉树中编号为i的节点在二叉树中位置完全相同,则这棵二叉树称为完全二叉树。

image.png
特点
1)叶子结点只能出现在最下层和次下层。
2)最下层的叶子结点集中在树的左部。
3)倒数第二层若存在叶子结点,一定在右部连续位置。
4)如果结点度为1,则该结点只有左孩子,即没有右子树。
5)同样结点数目的二叉树,完全二叉树深度最小。
:满二叉树一定是完全二叉树,但反过来不一定成立。

  • 二叉树的存储结构
    • 顺序存储:使用一堆数组存储二叉树中的结点,并且结点的存储位置,就是数组的下标索引。
    • 二叉链表:可以将结点数据结构定义为一个数据和两个指针域。
  • 二叉树的遍历:是指从二叉树的根结点出发,按照某种次序依次访问二叉树中所有结点,使得每个结点被访问一次,且仅被访问一次。二叉树的访问次序可以分为四种
    • 前序遍历:从二叉树的根结点出发,当第一次到达结点时就输出结点数据,按照先向左再向右的方向访问。
    • 中序遍历:从二叉树的根结点出发,当第二次到达结点时就输出结点数据,按照先向左在向右的方向访问。
    • 后序遍历:从二叉树的根结点出发,当第三次到达结点时就输出结点数据,按照先向左再向右的方向访问。
    • 层次遍历:按照树的层次自上而下的遍历二叉树。
  • 对于二叉树的遍历有一类典型题型。
    1)已知前序遍历序列和中序遍历序列,确定一棵二叉树。
    例题:若一棵二叉树的前序遍历为ABCDEF,中序遍历为CBAEDF,请画出这棵二叉树。
    分析:前序遍历第一个输出结点为根结点,故A为根结点。早中序遍历中根结点处于左右子树结点中间,故结点A的左子树中结点有CB,右子树中结点有EDF。
    如图3.14所示

image.png
按照同样的分析方法,对A的左右子树进行划分,最后得出二叉树的形态如图3.15所示:

image.png 图3.15.png

2)已知后序遍历序列和中序遍历序列,确定一棵二叉树。
后序遍历中最后访问的为根结点,因此可以按照上述同样的方法,找到根结点后分成两棵子树,进而继续找到子树的根结点,一步步确定二叉树的形态。
:已知前序遍历序列和后序遍历序列,不可以唯一确定一棵二叉树。

  • 重点概念
    • 节点:节点是数据结构中的基础,是构成复杂数据结构的基本组成单位。结点专指树的节点。
    • 树:是n(n>=0)个结点的有限集。n=0时称为空树。在任意一颗非空树中
      • 有且仅有一个特定的称为根(root)的结点。
      • 当n>1时,其余结点可分为m(m>0)个互不相交的有限集T1、T2....Tn,其中每一个集合本身又是一棵树,并且称为根的子树。
    • 此外,树的定义还需要强调以下两点
      • n>0时根节点是唯一的,不可能存在多个根结点,数据结构中的树只能有一个根结点
      • m>0时,子树的个数没有限制,但他们一定是互不相交的。
    • 结点的度:结点拥有的子树数目称为结点的度。

image.png

  • 结点关系:
    • 结点子树的根节点为该结点的孩子结点,相应该结点称为孩子结点的双亲结点
    • 图2.2中A为B的双亲结点,B为A的孩子结点。
    • 同一个双亲结点的孩子结点之间互称为兄弟结点
    • 图2.2中,结点B与结点C互为兄弟结点

image.png

  • 结点层次:从根开始定义,根为第一层,跟的孩子为第二层,以此类推。
  • 树的深度:树中结点的最大层数称为树的深度或高度.

数据的逻辑结构

分为两种

  • 线性的:就是连成一条线的结构,本文要讲的数组和链表就属于这一类,另外还有队列、栈等。
  • 非线性的:顾名思义,数据之间的关系是非线性的,比如堆、树、图等

数组

数组是一个有限的、类型相同的数据的集合,在内存中是一段连续的内存区域。

image.png

  • 数组的访问
    • 数组支持随机访问的,通过下标随机访问数组中的任何一个元素,可以通过数组内存空间的首地址加上元素的偏移量计算出某一个元素的内存地址。如下:array[n]的地址=array数组内存空间的首地址+每个元素大小*n因此数组的访问时间复杂度O(1)。
  • 数组的插入与删除:如果要在中间插入新元素,相邻的后面的元素全部往后移动一个位置,留出空位置给这个新元素。如果直接尾部插入元素的话无需移动,所以平均而言数组插入的时间的复杂度O(n)。

链表

链表是一种物理存储单元上非连续、非顺序的存储结构,数据元素的逻辑顺序是通过链表中的指针链接次序实现的,一般用于插入与删除较为频繁的场景。
链表有单向链表、双向链表以及循环链表等

  • 单向链表:它的每一个节点只有一个指针(后继指针)指向后面一个节点。这个链表称为单向链表。
  • 双向链表:双向链表与单向链表的区别是前者是2个方向都有指针,后者只有1个方向的指针,双向链表的每一个节点都有2个指针,一个指向前节点,一个指向后节点。双向链表在操作的时候比单向链表的效率要高很多,但是由于多一个指针空间,所以占用内存也会多一点。