《数据结构》—— 树

304 阅读14分钟

本文内容,参考自《大话数据结构》(程杰著) ,一部分自己修改,如:把C语言换成了Java语言。写作目的,意在加强记忆。

本文写作工具,使用 Typora。

1 树的定义

之前我们一直在谈的是一对一的线性结构,可现实中,还有很多一对多的情况需要处理,所以我们需要研究这种一对多的数据结构——树,考虑它的各种特性,来解决我们在编程中碰到的相关问题。

树是N (N≧0) 个结点的有限集。N=0时称为空树。在任意一棵非空树中:⑴ 有且仅有一个特定的称为根的结点 ⑵ 当N>1时,其余结点可分为M(M>0)个互不相交的有限集 T1、T2 ……. Tm,其中每一个集合本身又是一棵树,并且称为根的子树。

对于树的定义还需要强调两点:

1.N>0 时根结点是唯一的,不可能存在多个根结点,别和现实中的大树混在一起,现实中的树有很多根,那是真实的树,数据结构中的树只能有一个根结点。

2.M>0 时,子树的个数没有限制,但它们一定是互不相交的。

1.1 结点分类

树的结点包含一个数据元素及若干指向其子树的分支。结点拥有的子树数称为结点的度。度为0的结点称为叶子结点或终端结点;度不为0的结点称为非终端结点或分支结点。除根结点之外,分支结点也称为内部结点。树的度是树内各结点的度的最大值。

1.2 结点间关系

结点的子树的根称为该结点的孩子,相应地,该结点称为孩子的双亲。同一个双亲的孩子之间互称兄弟。结点的祖先是从根到该结点所经分支上的所有结点。

1.3 树的其它概念

**结点的层次从根开始定义起,根为第一层,根的孩子为第二层。**若一个结点在第 N 层,则其子树的根就在第N+1层。其双亲在同一层的结点互为堂兄弟。树中结点的最大层次称为树的深度或高度。

如果将树中结点的各子树看成从左至右是有次序的,不能互换的,则称该树为有序树,否则称为无序树。

森林是m(m≧0)棵互不相交的树的集合。对树中每个结点而言,其子树的集合即为森林。

2 树的存储结构

说到存储结构,就会想到顺序存储结构和链式存储结构。

先来看看顺序存储结构,用一段地址连续的存储单元依次存储线性表的数据元素。这对于线性表来说是很自然的,对于树这样一对多的结构呢?

树中一个结点的孩子可以有多个,这就意味着,无论按何种顺序将树中所有结点存储到数组中,结点的存储位置都无法直接反映逻辑关系。

不过充分利用顺序存储和链式存储结构的特点,完全可以实现对树的存储结构的表示。我们这里要介绍三种不同的表示法:双亲表示法、孩子表示法、孩子兄弟表示法。

2.1 双亲表示法

树这种结构,除了根结点外,其余每个结点,它不一定有孩子,但是一定有且仅有一个双亲。

我们假设一组连续空间存储树的结点,同时**在每个结点中,附设一个指示器指示其双亲结点在数组中的位置。**也就是说,每个结点除了知道自己是谁以外,还知道它的双亲在哪里。

public class TreeNode {
    
    int data = -1;//结点数据
    int parent = -1;//双亲位置
    
}

public class Tree {
    
    TreeNode[] nodes;//结点数组
    int r,n;//根的位置和结点数
    
}

有了这样的结构定义,我们就可以来实现双亲表示法了。这样的存储结构,我们可以根据结点的parent指针很容易找到它的双亲结点,所用的时间复杂度为O(1)。可如果我们要知道结点的孩子是什么,对不起,请遍历整个结构才行。

这真是麻烦,能不能改进一下呢?

当然可以。我们增加一个结点最左边孩子的域,不妨叫它长子域,这样就可以很容易得到结点的孩子。

对于有0个或1个孩子结点来说,这样的结构是解决了要找结点孩子的问题了。至于有2个孩子,知道了长子是谁,另一个当然就是次子了。

另外一个问题场景,我们很关注各兄弟之间的关系,双亲表示法无法体现这样的关系,那我们怎么办?嗯,可以增加一个右兄弟域来体现兄弟关系,也就是说,每个结点如果存在右兄弟,则记录下右兄弟的下标。同样的,如果右兄弟不存在,则赋值为-1。

但如果结点的孩子很多,超过了2个。我们又关注结点的双亲,又关注结点的孩子,还关注结点的兄弟,而且对时间遍历要求还比较高,那么我们还可以把此结构扩展为有双亲域、长子域、再有右兄弟域。存储结构的设计是一个非常灵活的过程。一个存储结构设计得是否合理,取决于基于该存储结构的运算是否适合、是否方便,时间复杂度好不好等。

2.2 孩子表示法

换一种完全不同的考虑方法。由于树中每个结点可能有多棵子树,可以考虑用多重链表,即每个结点有多个指针域,其中每个指针指向一棵子树的根结点,我们把这种方法叫做多重链表表示法。不过,树的每个结点的度,也就是它的孩子个数是不同的。

方案一:

一种是指针域的个数就等于树的度,树的度是树各个结点度的最大值。这种方法对于树中各结点的度相差很大时,显然是很浪费空间的,因为有很多的结点,它的指针域都是空的。不过如果树的各结点度相差很小时,那就意味着开辟的空间贝充分利用了,这时存储结构的缺点反而变成了优点。

方案二:

第二种方案每个结点指针域的个数等于该结点的度,我们专门取一个位置来存储结点指针域的个数。这种方法克服了浪费空间的缺点,对空间利用率是很高了,但是由于各个结点的链表是不相同的结构,加上要维护结点的度的数值,在运算上就会带来时间上的损耗。

能否有更好的方法,即可以减少空指针的浪费又能使结点结构相同。

仔细观察,我们为了要遍历整棵树,把每个结点放到一个顺序存储结构的数组中是合理的,但每个结点的孩子有多少是不确定的,所以我们再对每个结点的孩子建立一个单链表体现它们的关系。

这就是我们要说的孩子表示法。具体办法是,把每个结点的孩子结点排列起来,以单链表作存储结构,则 n 个结点有 n 个孩子链表,如果是叶子结点则此单链表为空。然后 n 个头指针又组成一个线性表,采用顺序存储结构,存放进一个一维数组中。

//孩子结点
public class Node {
    
    int child;
    Node next;
    
}
//表头结构
public class TreeNode {
    
    int data;
    Node firstchild;
    
}
//树结构
public class Tree {
    
    TreeNode[] nodes;//结点数组
    int r,n;//根的位置和结点数
    
}

这样的结构对于我们要查找一个结点的孩子,或者找一个结点的兄弟,只要查找这个结点的孩子单链表即可。对于遍历整棵树也是很方便的,对头结点的数组循环即可。

2.3 孩子兄弟表示法

任意一棵树,它的结点的第一个孩子如果存在就是唯一的,它的右兄弟如果存在也是唯一的。因此,我们设置两个指针,分别指向该结点的第一个孩子和此结点的右兄弟。

public class Node {
    
    int data;
    Node firstchild , rightsib;
    
}

这种表示法,给查找结点的孩子带来了方便,只需要通过 firstchild 找到此结点的长子,然后再通过长子结点的 rightsib 找到它的二弟,接着一直下去,直到找到具体的孩子。当然,如果想找结点的双亲,这个表示法也是有缺陷的,那怎么办呢?

如果真的有必要,完全可以再增加一个 parent 的指针域来解决快速查找双亲的问题。

3 二叉树的定义

二叉树是 n (n≧0) 个结点的有限集合,该集合或者为空集(称为空二叉树),或者由一个根结点和两棵互不相交的、分别称为根结点的左子树和右子树的二叉树组成。

3.1 二叉树的定义

二叉树的特点有:

  • 每个结点最多有两棵子树,所以二叉树中不存在度大于2的结点。注意不是只有两棵子树,而是最多两棵子树。没有子树或者有一棵子树都是可以的。
  • 左子树和右子树是有顺序的,次序不能任意颠倒。就像人是双手、双脚,但显然左手、左脚和右手、右脚是不一样的。
  • 即使树中一个结点只有一棵子树,也要区分它是左子树还是右子树。

二叉树具有五种基本形态:

  • 空二叉树
  • 只有一个根结点
  • 根结点只有左子树
  • 根结点只有右子树
  • 根结点有左子树又有右子树

3.2 特殊二叉树

  1. 斜树

    **斜树一定要是斜的。所有结点都只有左子树的二叉树叫左斜树。所有结点都是只有右子树的二叉树叫右斜树。这两者统称为斜树。**斜树有很明显的特点,就是每一层都只有一个结点,结点的个数与二叉树的深度相同。

  2. 满二叉树

    在一棵二叉树中,如果所有分支结点都存在左子树和右子树,并且所有叶子都在同一层上,这样的二叉树称为满二叉树。

    单是每个结点都存在左右子树,不能算是满二叉树,还必须要所有的叶子都在同一层上,这就做到了整棵树的平衡。因此,满二叉树的特点有:

    • 叶子只能出现在最下一层。出现在其它层就不可能达到平衡
    • 非叶子结点的度一定是2
    • 在同样深度的二叉树中,满二叉树的结点个数最多,叶子数最多
  3. 完全二叉树

    对一棵具有 n 个结点的二叉树按层序编号,如果编号为 i (1≦i≦n) 的结点与同样深度的满二叉树中编号为 i 的结点在二叉树中的位置完全相同,则这棵树称为完全二叉树。

    满二叉树一定是一棵完全二叉树,但完全二叉树不一定是满的。

    完全二叉树特点:

    • 叶子结点只能出现在最下两层
    • 最下层的叶子一定集中在左部连续位置
    • 倒数二层,若有叶子结点,一定都在右部连续位置
    • 如果结点度为1,则该结点只有左孩子,即不存在只有右子树的情况
    • 同样结点数的二叉数,完全二叉树的深度最小

3.3 二叉树的性质

  • 性质1:在二叉树的第 i 层上至多有 2^(i-1) 个结点(i≧1)

    例如,第一层是根结点,只有一个,所以 2^(1-1) = 2^0 = 1

    第二层有两个,2^(2-1) = 2^1 = 2

    第三层有四个,2^(3-1) = 2^2 = 4

    第四层有八个,2^(4-1) = 2^3 = 8

    通过数据归纳法的论证,可以很容易得出在二叉树的第 i 层上至多有 2^(i-1) 个结点(i≧1)

  • 性质2:深度为 k 的二叉树至多有 2^k﹣1个结点(k≧1)

    如果有一层,至多 1= 2^1﹣1个结点

    如果有二层,至多 1+2 = 3 = 2^2﹣1个结点

    如果有三层,至多 1+2+4 = 7 = 2^3﹣1 个结点

    如果有四层,至多 1+2+4+8 = 15 = 2^4﹣1个结点

    通过数据归纳法的论证,可以得出,如果有 k 层,此二叉树至多有 2^k﹣1个结点。

  • 性质3:对任何一棵二叉树 T ,如果其终端结点数为 n0,度为2的结点数为n2,则 n0 = n2 + 1。

  • 性质4:具有 n 个结点的完全二叉树的深度为 [㏒2n]+1([X] 表示不大于X的最大整数)

  • 性质5:如果对一棵有 n 个结点的完全二叉树(其深度为[㏒2n]+1)的结点按层序编号(从第1层到第[㏒2n]+1层,每层从左到右),对任一结点(1≦i≦n)有:

    1. 如果 i=1,则结点 i 是二叉树的根,无双亲;如果 i﹥1,则其双亲是结点[i/2]
    2. 如果 2i﹥n,则结点 i 无左孩子(结点 i 为叶子结点);否则其左孩子是结点 2i
    3. 如果 2i+1>n,则结点 i 无右孩子;否则其右孩子是结点 2i+1

4 二叉树的存储结构

4.1 二叉树顺序存储结构

前面我们已经谈到了树的存储结构,并且谈到顺序存储对树这种一对多的关系结构实现起来是比较困难的。但是二叉树是一种特殊的树,由于它的特殊性,使得用顺序结构也可以实现。

二叉树的顺序存储结构就是用一维数组存储二叉树中的结点,并且结点的存储位置,也就是数组的下标要能体现结点之间的逻辑关系。

顺序存储结构一般只用于完全二叉树。

4.2 二叉链表

既然顺序存储结构适用性不强,我们就要考虑链式存储结构。二叉树每个结点最多有两个孩子,所以为它设计一个数据域和两个指针域是比较自然的想法,我们称这样的链表叫做二叉链表。

5 遍历二叉树

5.1 二叉树遍历原理

二叉树的遍历是指从根结点出发,按照某种次序依次访问二叉树中所有结点,使得每个结点被访问一次且仅被访问一次。

5.2 二叉树遍历方法

二叉树的遍历方式可以很多,如果我们限制了从左到右的习惯方式,那么主要就分为四种:

  1. 前序遍历

    规则是若二叉树为空,则空操作返回,否则先访问根结点,然后前序遍历左子树,再前序遍历右子树。

  2. 中序遍历

    规则是若树为空,则空操作返回,否则从根结点开始(注意前不是先访问根结点),中序遍历根结点的左子树,然后是访问根结点,最后中序遍历右子树。

  3. 后序遍历

    规则是若树为空,则空操作返回,否则从左到右先叶子后结点的方式遍历访问左右子树,最后是访问根结点。

  4. 层序遍历

    规则是若树为空,则空操作返回,否则从树的第一层,也就是根结点开始访问,从上而下一层层遍历,在同一层中,按从左到右的顺序对结点一一访问。