抽丝剥茧,一文彻底搞懂递归

1,930 阅读7分钟

程式调用自身的编程技巧称为递归( recursion)。 程序员圈流传这样一句话:To iterate is human,to recurse divine. 迭代是人,递归是神。对于编程初学者来说,别说写递归,就是阅读递归代码也是很困难的,你是否有这样的困惑:当我们调试一段递归程序时,发现它的调用流程很诡异。如果你理解“栈帧”这样一个概念,我想你应该就能理解递归了。

image.png

从栈帧说起

什么是栈帧呢?百度百科的解释是:栈帧就是一个函数执行的环境。实际上,栈帧可以简单理解为:栈帧就是存储在用户栈上的(当然内核栈同样适用)每一次函数调用涉及的相关信息的记录单元。 通俗地说,当我们在调用一个函数时,就会在内存中开辟一段栈空间,当函数返回时,栈恢复平衡。然后在调用另一个函数时,依此循环,这样有限的栈空间就不断地执行着一个个的函数。初学编程时我们被告知,递归函数需要一个出口条件,即确认函数执行有限步骤后结束,现在我们应该知道原因了吧:在函数内部再次调用同个函数(也就是递归),则每调用一次函数即开辟新的一段栈空间,没有出口条件,栈空间就会耗尽,程序崩溃(尾递归经过编译器优化可避免崩溃)。

如果想要了解栈帧的更多底层细节,可以系统学习汇编语言。

栈帧.png

我们将以一个二叉树的递归为例,来说明递归的执行原理。

二叉树递归

下面是二叉树的前序遍历的代码,是使用递归实现的。

typedef struct TreeNode {
    int data;
    TreeNode * left;
    TreeNode * right;
} TreeNode;
 
void pre_order(TreeNode * Node)//前序遍历递归算法
{
    if(Node == NULL)
    return;
    printf("%d ", Node->data);//显示节点数据,可以更改为其他操作。
    pre_order(Node->left);
    pre_order(Node->right);
}

对于下图二叉树,它的节点打印顺序如序号所示

二叉树前序遍历.png

相信读者对于1->2->4->7这一段流程很好理解。打印7后,执行下一行代码pre_order(Node->left),这时左子节点为空,执行return。这里就比较难理解了,return到了哪里?我们不知道是因为有些步骤隐藏起来了,要把C语言代码拆分成更细颗粒度的汇编代码方能窥见天机。 为了还原实现细节,我们将上面的程序反汇编(使用Mac平台Xcode编译的AT&T汇编),pre_order函数段如下:

汇编.png

反汇编分析

  • 几个概念说明
    • callq 0x100002da0 执行时,会将该条指令后的下一条指令入栈
    • retq 执行时,会将当前栈顶指令出栈并跳转执行。
    • rbp定义为指向当前栈帧栈底的指针,rsp定义为指向当前栈帧栈顶的指针

我们主要关注对栈帧的变化起关键作用的程序节点(图示主要为了展示原理,省略了一些存储内容):

栈帧变化过程1.png
栈帧变化过程1
栈帧变化过程2.png
栈帧变化过程2

递归过程,请对照汇编代码及栈帧变化过程图

1、前面的过程略过,打印7后,逐条指令执行到第17行,callq 0x100002da0,这时将下一条指令即第18行0x100002de0指令入栈,然后原rbp栈底地址入栈保存起来,当前rsp赋值给rbp,rsp指针往栈顶方向移动一定空间

2、这时的入参为:7的左子节点NULL,执行到第8行时,跳转到0x100002ded(第21行

3、这时会开始回退到上一个栈帧,rsp恢复指向栈底,rbp出栈并恢复原值(即上一个栈帧的栈底地址),retq执行,将当前栈顶指令第18行0x100002de0出栈并跳转执行

4、取参数7的右子节点NULL,第20行 callq 0x100002da0 ,大致对应C语言程序pre_order(Node->right),这时将第21行0x100002ded指令入栈,原rbp栈底地址入栈(第21至24行这段指令操作在C语言中是没有对应语句的,也就是说C语言无法单独表达这一段操作,正是这个表达缺陷造成了递归理解的困难

5、继续逐条执行指令,因为当前入参为NULL,执行到第8行时,跳转到第21行0x100002ded,这时rbp恢复上一次保存的值,回退到图中编号6栈帧栈底,然后retq 执行,跳转第21行0x100002ded指令

6、继续退回到上一个栈帧,此时rbp指针指向编号3栈帧的栈底,接着pop并执行栈顶指令第14行0x100002dd0,开始执行对应C语言代码 pre_order(Node->right)

7、接下来第21行0x100002ded入栈,接着打印8,8的左子节点为NULL …… rbp指向编号8栈底,pop并跳转到0x100002de0(第18行

8、此时8的右子节点为NULL,返回哪里取决于当初callq保存的下一条指令,即执行第21行0x100002ded,退回到编号3栈帧,由于保存的下一条指令为第21行0x100002ded,继续回退到编号2栈帧。

9、后面的流程就留给读者自己梳理。

如果现在你还是有点懵,那么二叉树的前序遍历还有一种非递归的实现,就是模拟的递归过程,代码如下:

二叉树前序遍历非递归实现

(以下代码摘抄自 二叉树的非递归遍历(前序中序后序非递归C语言)

#include <stdio.h>
#include <stdlib.h>
#define M 100 
typedef struct node  
{  
    int data;
    struct node *lchild;  
    struct node *rchild;  
}bitree;
 
typedef struct stack 
{
	bitree *elements[M];
	int top;
}seqstack;//定义一个储存树类型地址的栈,方便遍历的时候追踪到树的地址。

bitree *root;//定义一个树根
seqstack s;//定义栈

void setnull()//初始化栈
{
	s.top =0;
}
 
void push(bitree *temp)//入栈操作
{
	s.elements[s.top++] = temp;
}
 
bitree *pop()//取栈顶并出栈顶
{
	return s.elements[--s.top];
}
 
int empty()//判断空栈
{
	return s.top == 0;
}
 
bitree *creat()   /*建立二叉树的递归算法*/
{ bitree *t;
  int x;
  scanf("%d",&x);
  if(x==0) t=NULL; /*以x=0表示输入结束*/
  else{
  t=(bitree*)malloc(sizeof(bitree));//动态生成结点t,分别给结点t的数据域、左右孩子域  
  t->data=x;                  //赋值,给左右孩子域赋值时用到了递归的思想。
  t->lchild=creat();
  t->rchild=creat();
  }
  return t;
}

void preorder(bitree *t)//前序遍历的非递归算法
{
	bitree *temp = t;//定义一个树节点,用它来遍历
	while(temp != NULL || s.top != 0)
	{
		while(temp != NULL)//先遍历左孩子,并输出。
		{
			printf("%4d",temp->data);
			push(temp);
			temp = temp->lchild;
		}
		if(s.top != 0)//当左孩子遍历完后,取栈顶,找右孩子。此时循环还没有结束,再遍历它的左孩子,直至孩子全部遍历结束。
		{
			temp = pop();
			temp = temp->rchild;
		}
	}
	printf("\n");
}

int main()
{
	bitree *root;//创建根
	setnull();//制空栈
	root=creat();//创建二叉树:尝试输入:1 2 4 7 0 0 8 0 0 0 3 5 0 9 0 0 6 0 0
	printf("前序遍历:\n");
	preorder(root);
	return 0;
}

结合上述执行流程,我们就能更加容易理解递归了。

总结

函数调用机制巧妙地利用栈这样一个数据结构,调用函数时将下一条指令存起来,返回时再取出执行目标指令。我们了解了函数调用过程中的栈帧入栈、出栈原理,也就能理解递归了。我们此前的困惑主要是不清楚条件终止时return的返回路径,经过上面对递归的分析和理解,笔者认为递归可以这样抽象:如果递归函数内部的递归函数调用是函数体的最后一个动作,则该函数调用时将下一步“隐性”操作“退回上一层”入栈。反之,如果不是函数体的最后动作,则该函数调用时将代码上下文的下一步操作入栈,这样在teturn时根据当层存储的操作来决策执行。