17.数据结构与算法- 平衡二叉树 & 散列查找平衡二叉树（Self-Balancing Binary Search T

平衡二叉树

平衡二叉树（Self-Balancing Binary Search Tree 或 Height-Balanced Binary Search Tree）是种二叉排序树，其中每一个结点的左子树和右子树的高度差至多等于1.

AVL树:两位俄罗斯数学家 G.M.Adelson-Veliki 和E.M.Landis 共同发明的一种解決平衡二叉树的算法也称为 AVL树

高度平衡：意思是说，要么它是一颗空树，要么它的左子树和右子树都是平衡二叉树。且左子树和右子树的深度之差的绝对值不超过 1; 我们将二叉树上结点的左子树深度减去右子树深度的值称为平衡因子 BF (Balance Factor）

最小不平衡子树:距离插入点最近的，且平衡因子的绝对值大于 1 的结点为根的子树

平衡二叉树构建的基本思想：就是在构建二叉排序树的过程中，每当插入一个结点时先检查是否因插入而破坏了树的平衡性。若是，则找到最小不平衡子树。在保持二叉排序树特性的前提下，调整最小不平衡子树中各结点之间的链接关系。进行相应的旋转使之成为新的平衡子树。

简单模拟

数组a[10] = {3,2,1,4,5,6,7,10,9,8}

插入1后，不平衡，右旋操作

插入5后，不平衡，左旋操作

插入6后，不平衡，左旋操作

插入7后，不平衡，左旋操作

插入9后，不平衡，先右旋最小不平衡子树（T(7)）右子树（T(10)），在左旋（T(7)）

插入8后，不平衡，先右旋最小不平衡子树（T(6)）右子树（T(9)），在左旋（T(6)）

节点结构

typedef struct BiTNode{
    //结点数据
    int data;
    //结点的平衡因子
    int bf;
    //结点左右孩子指针
    struct BiTNode *lchild,*rchild;
    
}BiTNode,*BiTree;

关键代码

//1.右旋
/*
 对以p为根的二叉排序树作右旋处理;
 处理之后p指向新的树根结点,即旋转处理之前的左子树的根结点;
 */
void R_Rotate(BiTree *p){
    BiTree L;
    //① L是p的左子树;
     L = (*p)->lchild;
    //② L的右子树作为p的左子树
    (*p)->lchild =  L->rchild;
    //③ 将p作为L的右子树
     L->rchild = (*p);
    //④ 将L替换原有p的根结点位置
    *p =  L;
}

/*
 2.左旋
 对以P为根的二叉排序树作左旋处理
 处理之后P指向新的树根结点，即旋转处理之前的右子树的根结点
 */

void L_Rotate(BiTree *p){
    BiTree R;
    //① R是p的右子树
    R = (*p)->rchild;
    //② R的左子树作为R的右子树
    (*p)->rchild = R->lchild;
    //③ 将p作为R的左子树;
    R->lchild = (*p);
    //④ 将R替换原有p的根结点的位置
    *p = R;
}

#define LH +1 /*  左高 */
#define EH 0  /*  等高 */
#define RH -1 /*  右高 */
/*
 3. 对指针T所指结点为根的二叉树作左平衡旋转处理,算法结束后,指针T指向平衡处理后新的根结点
 */
void LeftBalance(BiTree *T)
{
    BiTree L,Lr;
    
    //1.L指向T的左子树根结点
    L=(*T)->lchild;
    
    //2.检查T的左子树的平衡度，并作相应平衡处理
    switch(L->bf)
    {
        //① 新结点插入在T的左孩子的左子树上，要作单右旋处理(如图1-平衡二叉树右旋解释图)
        case LH:
            //L的平衡因子为LH,即为1时,表示它与根结点BF符合相同,则将它们(T,L)的BF值都改为EH(0)
            (*T)->bf=L->bf=EH;
            //对最小不平衡子树T进行右旋;
            R_Rotate(T);
            break;
            
        //② LH的平衡因子为RH(-1)时,它与跟结点的BF值符合相反.此时需要做双旋处理(2次旋转处理)
        //   新结点插入在T的左孩子的右子树上，要作 双旋处理
        case RH:
            
            //Lr指向T的左孩子的右子树根
            Lr=L->rchild;
            
            //修改T及其左孩子的平衡因子
            switch(Lr->bf)
            {
            
                case LH:
                    (*T)->bf=RH;
                    L->bf=EH;
                    break;
                    
                case EH:
                    (*T)->bf=L->bf=EH;
                    break;
                    
                case RH:
                    (*T)->bf=EH;
                    L->bf=LH;
                    break;
             }
            Lr->bf=EH;
            //对T的左子树作左旋平衡处理
            L_Rotate(&(*T)->lchild);
            //对T作右旋平衡处理
            R_Rotate(T);
    }
}

/*
 4. 右平衡树失衡处理
 对以指针T所指结点为根的二叉树作右平衡旋转处理
 本算法结束时，指针T指向新的根结点
 */
void RightBalance(BiTree *T)
{
    BiTree R,Rl;
    //1.R指向T的右子树根结点
    R=(*T)->rchild;
    
    //2. 检查T的右子树的平衡度，并作相应平衡处理
    switch(R->bf)
    {
        //① 新结点插入在T的右孩子的右子树上，要作单左旋处理
        case RH:
            (*T)->bf=R->bf=EH;
            L_Rotate(T);
            break;
        //新结点插入在T的右孩子的左子树上，要作双旋处理
        case LH:
            //Rl指向T的右孩子的左子树根
            Rl=R->lchild;
           
            //修改T及其右孩子的平衡因子
            switch(Rl->bf)
                {
                    case RH:
                        (*T)->bf=LH;
                        R->bf=EH;
                        break;
                    case EH:
                        (*T)->bf=R->bf=EH;
                        break;
                    case LH:
                        (*T)->bf=EH;
                        R->bf=RH;
                        break;
                }
            
            Rl->bf=EH;
            //对T的右子树作右旋平衡处理
            R_Rotate(&(*T)->rchild);
            //对T作左旋平衡处理
            L_Rotate(T);
    }
}

/*
 5. 平衡二叉树的插入实现
 若在平衡的二叉排序树T中不存在和e有相同关键字的结点，则插入一个数据元素为e的新结点，并返回1，否则返回0。若因插入而使二叉排序树失去平衡，则作平衡旋转处理，布尔变量taller反映T长高与否
 思路:
 1.如果T为空时,则创建一个新结点;
 2.如果T不为空,判断是否存在相同的结点.如果二叉树中存在相同结点,则不需要插入;
 3.如果新结点值e小于T的根结点值,则在T的左子树查找;
 -如果能在左子树中查找到,则不插入进去.返回False; 如果没有找到,则插入
 -插入成功taller为TRUE,说明新结点e已经插入进去; 此时需要判断T的平衡因子;
 -如果平衡因子是1,则说明左子树高于右子树,那么需要调用leftBalance进行左平衡旋转处理;
 -如果为0或者-1,则说明新插入的结点没有让整颗二叉排序树失去平衡性,只需要修改BF值即可;
 4.如果新结点值e大于T的根结点值,则在T的右子树查找;
 -如果能在右子树中查找到,则不插入进去.返回False; 如果没有找到,则插入
 -插入成功taller为TRUE,说明新结点e已经插入进去; 此时需要判断T的平衡因子;
 -如果平衡因子是-1,则说明右子树高于左子树,那么需要调用RightBalance进行右平衡旋转处理;
 -如果为0或者1,则说明新插入的结点没有让整颗二叉排序树失去平衡性,只需要修改BF值即可;
 */
Status InsertAVL(BiTree *T,int e,Status *taller)
{
    if(!*T)
    {   //1.插入新结点，树“长高”，置taller为TRUE
        //① 开辟一个新结点T;
        *T=(BiTree)malloc(sizeof(BiTNode));
        //② 对新结点T的data赋值,并且让其左右孩子指向为空,T的BF值为EH;
        (*T)->data=e;
        (*T)->lchild=(*T)->rchild=NULL;
        (*T)->bf=EH;
        //③ 新结点默认"长高"
        *taller=TRUE;
    }
    else
    {
        if (e==(*T)->data)
        {  //2.树中已存在和e有相同关键字的结点则不再插入
            *taller=FALSE;
            return FALSE;
        }
        if (e<(*T)->data)
        {
           //3.应继续在T的左子树中进行搜索
            if(!InsertAVL(&(*T)->lchild,e,taller))
                //未插入
                return FALSE;
            
            //4.已插入到T的左子树中且左子树“长高”
            if(*taller)
                //5.检查T的平衡度
                switch((*T)->bf)
            {
                case LH:
                    //原本左子树比右子树高，需要作左平衡处理
                    LeftBalance(T);
                    *taller=FALSE;
                    break;
                case EH:
                    //原本左、右子树等高，现因左子树增高而使树增高
                    (*T)->bf=LH;
                    *taller=TRUE;
                    break;
                case RH:
                    //原本右子树比左子树高，现左、右子树等高
                    (*T)->bf=EH;
                    *taller=FALSE;
                    break;
            }
        }
        else
        { //6.应继续在T的右子树中进行搜索
            //未插入
            if(!InsertAVL(&(*T)->rchild,e,taller))
                return FALSE;
            //已插入到T的右子树且右子树“长高”
            if(*taller)
                // 检查T的平衡度
                switch((*T)->bf)
            {
                //原本左子树比右子树高，现左、右子树等高
                case LH:
                    (*T)->bf=EH;
                    *taller=FALSE;
                    break;
                //原本左、右子树等高，现因右子树增高而使树增高
                case EH:
                    (*T)->bf=RH;
                    *taller=TRUE;
                    break;
                // 原本右子树比左子树高，需要作右平衡处理
                case RH:
                    RightBalance(T);
                    *taller=FALSE;
                    break;
            }
        }
    }
    return TRUE;
}

参考资料

散列表(哈希表)查找

散列技术是记录的存储位置和它的关键字之间建立一个确定的对应关系，使得每个关键字 key 对应一个存储位置 f(key）。查找时，根据这个对应关系找到给定值 key 的映射 f(key）。若査找集合中存在这个记录，则必定在 f(key）的位置上

哈希函数的构造方法(6)种

1.直接定址法

f(key)=key 或者 f(key) = a*key+b（f(key)表示关键字为 key 对应的哈希地址，a 和 b 都为常数）

2.数字分析法

如果关键字由多位字符或者数字组成，就可以考虑抽取其中的 2 位或者多位作为该关键字对应的哈希地址，在取法上尽量选择变化较多的位，避免冲突发生。

131 **** 1234
131 **** 1233
131 **** 1232
131 **** 1231
131 **** 1230

例如以上数字，前面的都相同，就后面2位不同，可以考虑把后面2位作为哈希地址

3.平方取中法

对关键字做平方操作，取中间得几位作为哈希地址。此方法也是比较常用的构造哈希函数的方法。

例如关键字序列为{421，423，436}，对各个关键字进行平方后的结果为{177241，178929，190096}，则可以取中间的两位{72，89，00}作为其哈希地址。

4.折叠法

折疊法就是将关键字从左到右分割成位数相等的几部分（注意最后一部分位数不够可以稍微短些）；然后将几部分叠加求和，并按散列表表长，取后几位作为散列地址。此方法适合关键字位数较多的情况。

key=9876543210
987+654+321+0 = 1962 取后3位 962 作为散列地址

5.除留余数法

若已知整个哈希表的最大长度 m，可以取一个不大于 m 的数 p，然后对该关键字 key 做取余运算 f(key) = key mod p(p<=m)

6.随机数法

f(key) = random(key) 此方法适用于关键字长度不等的情况。

注意：这里的随机函数其实是伪随机函数，随机函数是即使每次给定的 key 相同，但是 f(key)都是不同；而伪随机函数正好相反，每个 key 都对应的是固定的 f(key)。

考虑的因素

如此多的构建哈希函数的方法，在选择的时候，需要根据实际的查找表的情况采取适当的方法。通常考虑的因素有以下几方面：

1.关键字的长度。如果长度不等，就选用随机数法。如果关键字位数较多，就选用折叠法或者数字分析法；反之如果位数较短，可以考虑平方取中法；
2.哈希表的大小。如果大小已知，可以选用除留余数法；
3.关键字的分布情况；
4.查找表的查找频率；
5.计算哈希函数所需的时间（包括硬件指令的因素）

处理散列冲突方法探索

1.开放定址法:

开放定址法就是一旦发生了冲突,就去寻找下一个空的散列地址.只有散列表足够⼤大,空的散列地址总能找到,并将记录存⼊

f(key)=f(key)+ d）MOD m（其中 m 为哈希表的表长，d 为一个增量）

线性探测法：d=1，2，3，…，m-1 , 缺点：如果前面有剩余空间，则无法利用
二次探测法：d=1²，-1²，2²，-2²，...,q²,-q², q<=m/2
伪随机数探测法：d=伪随机数

2.再散列函数法

当通过哈希函数求得的哈希地址同其他关键字产生冲突时，使用另一个哈希函数计算，直到冲突不再发生。

f_i(key)=RH_i(key) (i=1,2,...,k) RH_i 指的是不不同的散列列函数.

3.链地址法

将所有的关键字为同义词的记录存储在⼀一个单链表中,我们称为这种同义词⼦子表. 在散列列表中只存储所有同义词⼦子表的头指针(头地址).

例如：关键字集合 { 12,67,56,16,25,37,22,29,15,47,48,34 } 表⻓长为12, 我们⽤用散列列函数 f ( key ) = key mod 12;

4.公共溢出法（效率地下，不做考虑）

建立两张表，一张为基本表，另一张为溢出表。基本表存储没有发生冲突的数据，当关键字由哈希函数生成的哈希地址产生冲突时，就将数据填入溢出表。

参考资料

代码实现

#include "stdio.h"
#include "stdlib.h"

#include "math.h"
#include "time.h"

typedef int Status;

#define OK 1
#define ERROR 0
#define TRUE 1
#define FALSE 0
#define MAXSIZE 100 //存储空间初始分配量
#define SUCCESS 1
#define UNSUCCESS 0

//定义散列表长为数组的长度
#define HASHSIZE 12
#define NULLKEY -32768

typedef struct
{
    //数据元素存储基址，动态分配数组
    int *elem;
    //当前数据元素个数
    int count;
}HashTable;
int m=0; /* 散列表表长，全局变量 */

//1.初始化散列表
Status InitHashTable(HashTable *H)
{
    int i;
    
    //① 设置H.count初始值; 并且开辟m个空间
    m=HASHSIZE;
    H->count=m;
    H->elem=(int *)malloc(m*sizeof(int));
    
    //② 为H.elem[i] 动态数组中的数据置空(-32768)
    for(i=0;i<m;i++)
        H->elem[i]=NULLKEY;
    
    return OK;
}

//2. 散列函数
int Hash(int key)
{
    //除留余数法
    return key % m;
}

//3. 插入关键字进散列表
void InsertHash(HashTable *H,int key)
{
    
    
    //① 求散列地址
    int addr = Hash(key);
    
    //② 如果不为空，则冲突
    while (H->elem[addr] != NULLKEY)
    {
        //开放定址法的线性探测
        addr = (addr+1) % m;
    }
    
    //③ 直到有空位后插入关键字
    H->elem[addr] = key;
}

//4. 散列表查找关键字
Status SearchHash(HashTable H,int key,int *addr)
{
    //① 求散列地址
    *addr = Hash(key);
    
    //② 如果不为空，则冲突
    while(H.elem[*addr] != key)
    {
        //③ 开放定址法的线性探测
        *addr = (*addr+1) % m;
        
        //④H.elem[*addr] 等于初始值或者循环有回到了原点.则表示关键字不存在;
        if (H.elem[*addr] == NULLKEY || *addr == Hash(key))
            //则说明关键字不存在
            return UNSUCCESS;
    }
    
    return SUCCESS;
}

int main(int argc, const char * argv[]) {
    // insert code here...
    printf("Hello, World!\n");
    
    int arr[HASHSIZE]={12,67,56,16,25,37,22,29,15,47,48,34};
    int i,p,key,result;
    HashTable H;
    
    //1.初始化散列表
    InitHashTable(&H);
    
    //2.向散列表中插入数据
    for(i=0;i<m;i++)
        InsertHash(&H,arr[i]);
    
    //3.在散列表查找key=39
    key=39;
    result=SearchHash(H,key,&p);
    if (result)
        printf("查找 %d 的地址为：%d \n",key,p);
    else
        printf("查找 %d 失败。\n",key);
    
    //4.将数组中的key,打印出所有在散列表的存储地址
    for(i=0;i<m;i++)
    {
        key=arr[i];
        SearchHash(H,key,&p);
        printf("查找 %d 的地址为：%d \n",key,p);
    }

    return 0;
}