Java线程池实现原理

133 阅读13分钟

这是我参与11月更文挑战的第8天,活动详情查看:2021最后一次更文挑战

1、线程池是什么

线程池(Thread Pool)是一种基于池化思想管理线程的工具,线程过多会带来额外的开销,其中包括创建销毁线程的开销、调试线程的开销等等,同时也降低了计算机的整体性能。

线程池维护多个线程,等待监督管理者分配可并发执行的任务。一方面避免了处理任务时创建销毁线程开销的代价,别一方面避免了线程数量膨胀导致的过分调度问题,保证对内核的充分利用。

使用线程池的好处:

  • 降低资源消耗:通过池化技术重复利用已创建的线程,降低线程创建和销毁造成的损耗
  • 提高响应速度:任务到达时,无需等待线程创建即可立即执行
  • 提高线程的可管理性:线程资源稀缺,如果无限创建,不仅会消耗系统资源,还会因线程的不合理分布导致资源调度失衡,降低系统的稳定性。使用线程池可以进行线一的分配、调优和监控
  • 提供更多更强大的功能:线程池具备可拓展性,比如延时定时线程池ScheduledThreadPoolExecutor,允许任务延期执行或定期执行

2、线程池可解决什么问题

线程池解决的核心问题就是资源管理问题。比如下

  • 内存池:预先申请内存,提升申请内存速度,减少内存碎片
  • 连接池:预先申请数据库连接,提升申请连接的速度,降低系统的开销
  • 实例池:循环使用对象,减少资源在初始化和释放时的损耗

3、线程池核心设计与实现

Public ThreadPoolExecutor(int corePoolSize,int maximumPoolSize,
                          long keepAliveTime,TimeUnit unit,
                          BlockingQueue<Runnable> workQueue
                         )
  • corePoolSize : 线程池应该有多少个线程
  • maximumPoolSize:如果线程池里的线程不够用了,等待队列还塞满了,此时有可能根据不同的线程池的类型,可能会增加一些线程出来,但是最多把线程数据增加到maximumPoolSize指定的数量
  • keepAilveTime+TimeUnit:如果线程数量超出corePoolSize时,超出corePoolSize指定数据的线程,就会在空闲keepAliveTime毫秒之后,就会自动被释放掉
  • workQueue:线程池的等待队列是什么队列
  • threadFactory:在线程池里创建线程时,指定一个线程工厂,按照自己的方式创建线程出来
  • RejectedExecutionHandler:如果线程池的线程都在执行任务,然后等待队列满了,此时增加额外线程也达到了maximumPoolSize指定的数量,这时无法承载更多的任务,此时就会执行拒绝策略
3.1、总体设计

Java中的线程池核心实现类是ThreadPoolExecutor

yuque_diagram (4).jpg

  • 顶层接口Executor: 将任务提交和任务执行进行解耦,用户无需关注如何创建线程,如何调度线程来执行任务,用户只需提供Runnable对象,将任务的运行逻辑提交到执行器(Executor)中,由Executor框架完成线程的调配和任务的执行部分。
  • ExecutorService接口:1、扩充执行任务的能力,补充可以为一个或一批异步任务生成Future的方法;2、提供了管控线程池的方法,比如停止线程池的运行。
  • AbstractExecutorService: 则是上层的抽象 类,将执行任务的流程串联了起来,保证下层的实现只需要关注一个执行任务的方法即可。
  • ThreadPoolExecutor:将会一方面维护自身的生命周期,另一方面同时管理线程和任务,使两者良好的结合从而执行并行任务。


ThreadPoolExecutor运行机制(线程池如何维护自身状态、线程池如何管理任务、线程池如何管理线程)\

image.png

image.png


线程池在内部实际上构建了一个生产者消费者模型,将线程和任务两者解耦,并不直接关联,从而良好的缓冲任务,复用线程。
线程池的运行主要分成两部分:任务管理,线程管理。

  • 任务管理部分充当生产者角色,当任务提交后,线程池会判断该任务后续的流转:1)直接申请线程执行该任务;2)缓冲到队列中等待线程执行;3)拒绝该任务
  • 线程管理部分充当消费者,它们被统一维护在线程池内,根据任务请求进行线程的分配,当线程执行完任务后则会继续获取新的任务去执行,最终当线程获取不到任务时,线程就会被回收。
3.2、生命周期管理

线程池内部使用一个变量维护两个值:运行状态(runState)和线程数量(workerCount)

private final AtomicInteger ctl = new AtomicInteger(ctlOf(RUNNING, 0));

ThreadPoolExecutor的5种运行状态如下:

  • RUNNING:能接受新提交的任务,并且也能处理阻塞队列中的任务。
  • SHUTDOWN:关闭状态,不再接受新提交的任务,但却可以继续处理阻塞队列中已保存的任务
  • STOP:不能接受新任务,也不处理队列中的任务,会中断正在处理任务的线程
  • TIDYING:所有的任务都已终止了,workerCount(有效线程数)为0
  • TERMINATED:在terminated()方法执行完后进入该状态

image.png

image.png


3.3、任务执行机制

3.3.1、任务调度

任务调度是线程池的主要入口,当提交一任务时,接下来这个任务将如何执行都是由这个阶段决定。

首先,所有任务的调度都是由execute方法完成,这部分完成的工作是:检查现在线程池的运行状态,运行线程数,运行策略,决定接下来执行的流程,是直接申请线程执行,或是缓冲到队列中执行,或是直接拒绝该任务。其执行过程如下:

  • 首先检测线程池运行状态,如果不是RUNNING,则直接拒绝,线程池要保证在RUNNING的状态下执行任务。
  • 如果workerCount < corePoolSize,则创建并启动一个线程来执行新提交的任务
  • 如果workerCount >= corePoolSize,且线程池内的阻塞队列未满,则将任务添加到该阻塞队列中。
  • 如果workerCount >= corePoolSize && workerCount < maximumPoolSize,且线程池内的阻塞队列已满,则创建并启动一个线程来执行新提交的任务。
  • 如果workerCount >= maximumPoolSize,并且线程池内的阻塞队列已满,则根据拒绝策略来处理该任务,默认的处理方式是直接抛异常

image.png

image.png


3.3.2 任务缓冲

任务缓冲模块是线程池能够管理任务的核心部分。线程池的本质是对任务和线程的管理,而最关键的思想就是将任务和线程两者解耦,不让两者直接关联,才可以做后续的分配工作。线程池中是以生产者消费者模式,通过一个阻塞队列来实现的。阻塞队列缓存任务,工作线程从阻塞队列中获取任务。

阻塞队列(BlockingQueue)是一个支持两个附加操作的队列:

  • 在队列为空时 ,获取元素的线程会等待队列变为非空。
  • 当队列满时,存储元素的线程会等待队列可用。

阻塞队列常用于生产者和消息者的场景,生产者是往队列里添加元素的线程,消费者是从队列取元素的线程。阻塞队列就是生产者存放元素的容器,而消费者也只从容器里取元素。\

image.png

image.png


使用不同的队列可以实现不一样的任务存策略。
​\

  • ArrayBlockingQueue:一个用数组实现的有界阻塞队列,此队列按照先进先出(FIFO)的原则对元素进行排序,支持公平锁和非公平锁。
  • LinkedBlockingQueue:一个由链表结构组成的有界队列,此队列按照先进先出(FIFO)的原则对元素进行排序,此队列的默认长度为Integer.MAX_VALUE,所以默认创建的该队列有容量的危险。
  • PriorityBlockingQueue:一个支持线程优先级排序的无界队列,默认自然序列进行排序,也可以自定义实现compareTo()方法来指定元素排序规则,不能保证同优先级元素的顺序。
  • DelayQueue:一个实现PriorityBlockingQueue实现延迟获取的无界队列,在创建元素时,可以指定多久才能从队列中获取当前元素。只有延时期满后才能从队列中获取元素。
  • SynchronousQueue:一个不存储元素的阻塞队列,每一个put操作必须等待take操作,否则不能添加元素。支持公平锁和非公平锁。SynchronousQueue的一个使用场景是在线程池里。Executors.newCachedThreadPool()就使用了SynchronousQueue,这个线程池根据需要(新任务到来时)创建新的线程,如果有空闲线程则会重复使用,线程空闲60秒后会被回收。
  • LinkedTransferQueue:一个由链表结构组成的无界阻塞队列,相当于其它队列,LinkedTransferQueue队列多transfer和tryTransfer方法。
  • LinkedBlockingDeque:一个由链表结构组成的双向阻塞队列。队列头部和尾部都可以添加和移除元素,多线程并发时,可以将锁的竞争最多降到一半。
3.3.3 任务申请

由上述任务分配部分可知,任务的执行有两种可能:

  • 一种是任务直接由新创建的线程执行。
  • 一种是线程从任务队列中获取任务然后执行,执行完任务的空闲线程会再次去从队列中申请任务再执行。

第一种情况仅出现在线程初始创建时,第二种是线程获取任务绝大多数据的情况。

线程需要从任务缓存模块中不断地取任务执行,帮助线程从阻塞队列中获取任务,实现线程管理模块和任务管理模块之间的通信,这部分策略由getTask方法实现,其执行流程如下:

yuque_diagram (5).jpg

3.3.4 任务拒绝

任务拒绝模块是线程池的保护部分,线程池有一个最大的容量,当线程池的任务缓存队列已满,并且线程池中的线程数目达到maximumPoolSize时,就需要拒绝掉该任务,采取任务拒绝策略,保护线程池。

可以通过实现RejectedExecutionHandler接口定制拒绝策略,也可以选择JDK提供的四种已有拒绝策略。

  • ThreadPoolExecutor.AbortPolicy:丢弃任务并抛出RejectedExecutionException异常。这是线程池默认的拒绝策略,在任务不能再提交时,抛出异常,及时反馈程序运行状态。如果是比较关键的业务,推荐使用此拒绝策略,这样子在系统不能承载更大的并发量时,能够及时的通过异常发现。
  • ThreadPoolExecutor.DiscardPolicy:丢弃任务,但是不抛出异常。使用此策略,可能会使用我们无法发现系统的异常状态。建议是一些无关紧要的业务采用此策略。
  • ThreadPoolExecutor.DiscardOldestPolicy:丢弃队列最前面的任务,然后重新提交被拒绝的任务。是否要采用此拒绝策略,还得根据实际业务是否允许丢弃老任务来衡量。
  • ThreadPoolExecutor.CallerRunsPolicy:由调用线程(提交任务的线程)处理该任务。这种情况是需要让所有任务都执行完毕,那么就适合大量计算的任务类型去执行,多线程仅仅是增大吞吐量的手段,最终必须要让每个任务都执行完毕。
3.4 Worker线程管理

3.4.1 worker线程

线程池为了掌握线程的状态并维护线程的生命周期,设计了线程池内的工作线程worker

private final class Worker extends AbstractQueuedSynchronizer implements Runnable{
    final Thread thread;//Worker持有的线程
    Runnable firstTask;//初始化的任务,可以为null
}

worker这个工作线程,实现了Runnable接口,并持有一个线程thread,一个初始化的任务firstTask.thread是在调用构造方法时通过ThreadFactory来创建的线程,可以用来执行任务;firstTask用它来保存传入的第一个任务,这个任务可以有也可以为null,如果这个值是非空的,那么线程就会在启动初期立即执行这个任务,也就对应核心线程创建时的情况;如果这个值是null,那么就需要创建一个线程去执行任务列表(workQueue)中的任务,也就是非核心线程的创建。

worker执行任务的模型:\

image.png

image.png




线程池需要管理线程的生命周期,需要在线程长时间不运行时进行回收。线程池使用一张hash表去持有线程的引用,这样可以通过添加引用、移除引用这样的操作来控制线程的生命周期。这时重要的就是如何判断线程是否在运行。worker是通过继承AQS,使用AQS来实现独占锁这个功能。没有使用可重入锁ReentrantLock,而是使用AQS,为的就是实现不可重入的特性去反应线程现在的执行状态。

  • 1、lock方法一旦获取了独占锁,表示当前线程正在执行任务中。
  • 2、如果正在执行任务,则不应该中断线程
  • 3、如果该线程现在不是独占锁的状态,也就是空闲的状态,说明它没有在处理任务,这时可以对该线程进行中断。
  • 4、线程池在执行shutdown方法或tryTerminate方法时会调用interruptldleWorkers方法来中断空闲的线程,interruptldleWorkers方法会使用tryLock方法来判断线程池中的线程是否是空闲状态;如果线程是空闲状态则可以安全回收


回收过程:\

image.png

image.png


3.4.2 Worker线程增加

增加线程是通过线程池中的addWorker方法,该方法的功能就是增加一个线程,该方法不考虑线程池在那个阶段增加的该线程,这个分配线程的策略是在上个步骤完成的,该步骤仅仅完成增加线程,并使它运行,最后返回是否成功这个结果。addWorker方法有两个参数:firstTask、core.

  • firstTask参数用于指定新增的线程执行的第一个任务,该参数可以为空
  • core参数为true表示在新增线程时会判断当前活动线程数是否少于corePoolSize,false表示新增线程前需要判断当前活动线程数是否少于maximumPoolSize

image.png

image.png


3.4.3 Worker线程回收

线程池中线程的销毁依赖JVM自动的回收,线程池做的工作是根据当前线程池的状态维护一定数据的线程引用,防止这部分线程被JVM回收,当线程池决定哪些线程需要回收时,只需要将其引用消除即可。worker被创建出来后,就会不断地进行轮询,然后获取任务去执行,核心线程可以无限等待获取任务,非核心线程要限制获取任务。当worker无法获取到任务,也就是获取的任务为空时,循环会结束,worker会主动消除自身在线程池内的引用

try {
  while (task != null || (task = getTask()) != null) {
    //执行任务
  }
} finally {
  processWorkerExit(w, completedAbruptly);//获取不到任务时,主动回收自己
}

3.4.4 worker线程执行任务

在worker类中的run方法调用了runWorker方法来执行任务,执行过程如下:

  • while循环不断地通过getTask()方法获取任务。
  • getTask()方法从阻塞队列中取任务
  • 如果线程池正在停止,那么要保证当前线程是中断状态,否则要保证当前线程不是中断状态
  • 执行任务
  • 如果getTask结果为null则跳出循环,执行processWorkerExit()方法,销毁线程

\

image.png

image.png