升级打怪之数据结构与算法 01 - 浅尝链表

240 阅读7分钟

前言

漫漫前端路,仍是不归途啊,本篇主要总结数据结构中链表的含义、特点、使用场景以及一些设计思想的扩展等,由浅入深的探究、熟悉链表。

什么是链表

  1. 和数组一样,链表也是一种线性表。
  2. 从内存结构来看,链表的内存结构是不连续的内存空间,是将一组零散的内存块串联起来,从而进行数据存储的数据结构。
  3. 链表中的每一个内存块被称为节点Node。节点除了存储数据外,还需记录链上下一个节点的地址,即后继指针next。

链表的特点

  1. 插入、删除数据效率高O(1)级别(只需更改指针指向即可)。
  2. 随机访问效率低O(n)级别(需要从链头至链尾进行遍历)。
  3. 数组相比,内存空间消耗更大,因为每个存储数据的节点都需要额外的空间存储后继指针。

常见的链表结构

单链表、双向链表、循环链表和双向循环链表。

单链表

image.png

特点:

  • 每个节点只包含一个指针,即后继指针。
  • 单链表有两个特殊的节点,即首节点和尾节点。为什么特殊?用首节点地址表示整条链表,尾节点的后继指针指向空地址null。
  • 性能特点:插入和删除节点的时间复杂度为O(1),查找的时间复杂度为O(n)。

双向链表

image.png

特点:

  • 节点除了存储数据外,还有两个指针分别指向前一个节点地址(前驱指针prev)和下一个节点地址(后继指针next)。

  • 首节点的前驱指针prev和尾节点的后继指针均指向空地址。

  • 性能特点:

    和单链表相比,存储相同的数据,需要消耗更多的存储空间。

    插入、删除操作比单链表效率更高O(1)级别。以删除操作为例,删除操作分为2种情况

    给定结点中“值等于某个给定值”的结点给定指针指向的结点。对于前一种情况,单链表和双向链表都需要从头到尾进行遍历从而找到对应节点进行删除,时间复杂度为O(n)。

    对于第二种情况,要进行删除操作必须找到前驱节点,单链表需要从头到尾进行遍历直到p->next = q,时间复杂度为O(n),而双向链表可以直接找到前驱节点,时间复杂度为O(1)。

    对于一个有序链表,双向链表的按值查询效率要比单链表高一些。因为我们可以记录上次查找的位置p,每一次查询时,根据要查找的值与p的大小关系,决定是往前还是往后查找,所以平均只需要查找一半的数据。

循环链表

image.png

特点:

  • 除了尾节点的后继指针指向首节点的地址外均与单链表一致。

  • 适用于存储有循环特点的数据,比如约瑟夫问题。

双向循环链表

image.png

特点:

  • 首节点的前驱指针指向尾节点,尾节点的后继指针指向首节点。

选择数组还是链表?

  1. 插入、删除和随机访问的时间复杂度

    • 数组: 插入、删除的时间复杂度是O(n),随机访问的时间复杂度是O(1)。
    • 链表: 插入、删除的时间复杂度是O(1),随机访问的时间复杂端是O(n)。

    image.png

  2. 数组缺点

    • 若申请内存空间很大,比如100M,但若内存空间没有100M的连续空间时,则会申请失败,尽管内存可用空间超过100M。
    • 大小固定,若存储空间不足,需进行扩容,一旦扩容就要进行数据复制,而这时非常费时的。
  3. 链表缺点

    • 内存空间消耗更大,因为需要额外的空间存储指针信息。
    • 对链表进行频繁的插入和删除操作,会导致频繁的内存申请和释放,容易造成内存碎片,如果是Java语言,还可能会造成频繁的GC(自动垃圾回收器)操作。

在我们实际的开发中,针对不同类型的项目,要根据具体情况,权衡究竟是选择数组还是链表。

链表的使用场景

比如常见的 CPU 缓存、数据库缓存、浏览器缓存等等。

缓存的大小有限,当缓存被用满时,哪些数据应该被清理出去,哪些数据应该被保留?这就需要缓存淘汰策略来决定。

常见的策略有三种:先进先出策略 FIFO(First In,First Out)最少使用策略 LFU(Least Frequently Used)、最近最少使用策略 LRU(Least Recently Used)

链表实现LRU缓存淘汰策略

当访问的数据没有存储在缓存的链表中时,直接将数据插入链表表头,时间复杂度为O(1);当访问的数据存在于存储的链表中时,将该数据对应的节点,插入到链表表头,时间复杂度为O(n)。如果缓存被占满,则从链表尾部的数据开始清理,时间复杂度为O(1)。

数组实现LRU缓存淘汰策略

方式一:首位置保存最新访问数据,末尾位置优先清理

当访问的数据未存在于缓存的数组中时,直接将数据插入数组第一个元素位置,此时数组所有元素需要向后移动1个位置,时间复杂度为O(n);当访问的数据存在于缓存的数组中时,查找到数据并将其插入数组的第一个位置,此时亦需移动数组元素,时间复杂度为O(n)。缓存用满时,则清理掉末尾的数据,时间复杂度为O(1)。

方式二:首位置优先清理,末尾位置保存最新访问数据

当访问的数据未存在于缓存的数组中时,直接将数据添加进数组作为当前最有一个元素时间复杂度为O(1);当访问的数据存在于缓存的数组中时,查找到数据并将其插入当前数组最后一个元素的位置,此时亦需移动数组元素,时间复杂度为O(n)。缓存用满时,则清理掉数组首位置的元素,且剩余数组元素需整体前移一位,时间复杂度为O(n)。(优化:清理的时候可以考虑一次性清理一定数量,从而降低清理次数,提高性能。)

设计思想

时空替换思想:“用空间换时间” 与 “用时间换空间”。

当内存空间充足的时候,如果我们更加追求代码的执行速度,我们就可以选择空间复杂度相对较高,时间复杂度小相对较低的算法和数据结构,缓存就是空间换时间的例子。

如果内存比较紧缺,比如代码跑在手机或者单片机上,这时,就要反过来用时间换空间的思路。

解析

“数组简单易用,在实现上使用的是连续的内存空间,可以借助 CPU 的缓存机制,预读数组中的数据,所以访问效率更高。而链表在内存中并不是连续存储,所以对 CPU 缓存不友好,没办法有效预读。”

这里的CPU缓存机制指的是什么?为什么就数组更好了?

CPU在从内存读取数据的时候,会先把读取到的数据加载到CPU的缓存中。

而CPU每次从内存读取数据并不是只读取那个特定要访问的地址,而是读取一个数据块(这个大小我不太确定。)并保存到CPU缓存中,然后下次访问内存数据的时候就会先从CPU缓存开始查找,如果找到就不需要再从内存中取。

这样就实现了比内存访问速度更快的机制,也就是CPU缓存存在的意义:为了弥补内存访问速度过慢与CPU执行速度快之间的差异而引入

对于数组来说,存储空间是连续的,所以在加载某个下标的时候可以把以后的几个下标元素也加载到CPU缓存这样执行速度会快于存储空间不连续的链表存储。

参考

  • 数据结构和算法之美