jvm创建线程失败

583 阅读7分钟

记一次线上bug:java.lang.OutOfMemoryError: unable to create new native thread

1.相关知识

首先我们配置一个配置文件application-task.yml,使用springboot本身提供的参数配置

spring:
  task:
    execution:
      pool:
        core-size: 11
        max-size: 100
        keep-alive: 60s
        queue-capacity: 1000
        allow-core-thread-timeout: true

线程池处理流程 提交一个任务到线程池中,线程池的处理流程如下:

判断线程池里的核心线程是否都在执行任务,如果不是(核心线程空闲或者还有核心线程没有被创 建)则创建一个新的工作线程来执行任务。如果核心线程都在执行任务,则进入下个流程。
线程池判断工作队列是否已满,如果工作队列没有满,则将新提交的任务存储在这个工作队列里。如 果工作队列满了,则进入下个流程。
判断线程池里的线程是否都处于工作状态,如果没有,则创建一个新的工作线程来执行任务。如果已 经满了,则交给饱和策略来处理这个任务。

线程池配置类:会默认使用我们的线程池配置

@Configuration
public class ThreadConfig {
 
    @Bean
    ThreadPoolTaskExecutor getDataHandleExecutor(TaskExecutorBuilder builder) {
        ThreadPoolTaskExecutor taskExecutor = builder.build();
        taskExecutor.setThreadNamePrefix("interface-handle-thread-");
        return taskExecutor;
    }
 
}

线程池参数说明:

corePoolSize:线程池的核心线程数。在没有设置 allowCoreThreadTimeOut 为 true 的情况下,核心线程会在线程池中一直存活,即使处于闲置状态。                                                 
maximumPoolSize:线程池所能容纳的最大线程数。当活动线程(核心线程+非核心线程)达到这个数值后,后续任务将会根据 RejectedExecutionHandler 来进行拒绝策略处理。
keepAliveTime:非核心线程 闲置时的超时时长。超过该时长,非核心线程就会被回收。若线程池通设置核心线程也允许 timeOut,即 allowCoreThreadTimeOut 为 true,则该时长同样会作用于核心线程,在超过aliveTime 时,核心线程也会被回收,AsyncTask 配置的线程池就是这样设置的。
unit:keepAliveTime 时长对应的单位。
workQueue:线程池中的任务队列,通过线程池的 execute() 方法提交的 Runnable 对象会存储在该队列中。
ThreadFactory:线程工厂,功能很简单,就是为线程池提供创建新线程的功能。这是一个接口,可以通过自定义,做一些自定义线程名的操作。
RejectedExecutionHandler:当任务无法被执行时(超过线程最大容量 maximum 并且 workQueue 已经被排满了)的处理策略,
这里有四种任务拒绝类型。
pool-N-thread-M
转储正在运行的JVM的线程时或在调试过程中,默认线程池命名方案为 pool-N-thread-M,其中 N 代表池序列号(每次创建新线程池时,全局 N 计数器都会增加),并且 M 是池中的线程序列号。

2.正文

java.lang.OutOfMemoryError: Unable to create native threads

这个异常也是操作系统级别的。java的线程是操作系统级别的,java每申请一个线程,就需要调用操作系统创建一个本地的线程,操作系统创建线程失败,会抛出上面的异常。具体原因有以下几种:

a. 内存空间不够,jvm启动时参数-Xss指定每个线程占用的堆栈大小,如果内存不够,就会创建线程失败

b. 操作系统上ulimit中max user processes参数限制,这个参数指操作系统可以创建的全局线程数量ulimit -a | grep 'max user processes'命令可以查看。ulimit -u可以修改这个参数,比如ulimit -u 10000,则操作系统可以创建10000个线程。

Snipaste_2023-06-20_09-15-26.png

Snipaste_2023-06-20_09-29-11.png

c. 参数sys.kernel.threads-max限制,我们可以通过命令cat /proc/sys/kernel/threads-max来查看想要修改这个参数,需要在/etc/sysctl.conf文件,加入sys.kernel.threads-max = 10000

d. 参数sys.kernel.pid_max限制,这个参数只是每创建一个线程,都需要分配一个pid,当pid的值大于这个值时,就会创建失败。查看命令:cat /proc/sys/kernel/pid_max

3.网上来的解决方案

1. 排查应用是否创建了过多的线程

通过jstack确定应用创建了多少线程?超量创建的线程的堆栈信息是怎样的?谁创建了这些线程?一旦明确了这些问题,便很容易解决。

2. 调整操作系统线程数阈值

操作系统会限制进程允许创建的线程数,使用ulimit -u命令查看限制。某些服务器上此阈值设置的过小,比如1024。一旦应用创建超过1024个线程,就会遇到java.lang.OutOfMemoryError: unable to create new native thread问题。如果是这种情况,可以调大操作系统线程数阈值。

3. 增加机器内存

如果上述两项未能排除问题,可能是正常增长的业务确实需要更多内存来创建更多线程。如果是这种情况,增加机器内存。

4. 减小堆内存

在JAVA语言里,你创建一个线程,会在JVM内存创建一个内存对象的同时创建一个操作系统线程,而这个系统线程的内存不是使用JVM内存的,而是使用系统中剩下的内存建立的。也就是你给JVM内存越多,那么你能创建的线程数就越少,也就是越容易发生这个异常。这就说明不是JVM内存不够,而是因为线程消耗的是系统内存,那么系统内存充裕但是依然创建失败,所以一定是其他方面有问题。因为任何系统可以运行的线程数量都有有限的。线程不在堆内存上创建,线程在堆内存之外的内存上创建。所以如果分配了堆内存之后只剩下很少的可用内存,依然可能遇到java.lang.OutOfMemoryError: unable to create new native thread。考虑如下场景:系统总内存6G,堆内存分配了5G,永久代512M。在这种情况下,JVM占用了5.5G内存,系统进程、其他用户进程和线程将共用剩下的0.5G内存,很有可能没有足够的可用内存创建新的线程。如果是这种情况,考虑减小堆内存。

(MaxProcessMemory – JVMMemory – ResverdOsMemory)/ ThreadStackSizk = 线程数量 MaxProcessMemory:一个进程最多使用的内存大小 JVMMemory:JVM的Heap大小,也就是堆,因为你也只能设置堆的大小,这个的值是堆的最小值+PermGen的大小 ResverdOsMemory:操作系统保留的内存,也就是内核使用的,一般为120M。 ThreadStackSizk:线程栈的大小,单位为字节byte 所以上面的公式要统一换成字节来计算。系统有64G内存,就算不适用公式计算也应该知道内存是绝对够用的。那到底是什么问题?

5. 减少进程数

这和减小堆内存原理相似。考虑如下场景:系统总内存32G,java进程数5个,每个进程的堆内存6G。在这种情况下,java进程总共占用30G内存,仅剩下2G内存用于系统进程、其他用户进程和线程,很有可能没有足够的可用内存创建新的线程。如果是这种情况,考虑减少每台机器上的进程数。

6. 减小单个线程栈大小(-Xss参数设置)

线程会占用内存,如果每个线程都占用更多内存,整体上将消耗更多的内存。每个线程默认占用内存大小取决于JVM实现。可以利用-Xss参数限制线程内存大小,降低总内存消耗。例如,JVM默认每个线程占用1M内存,应用有500个线程,那么将消耗500M内存空间。如果实际上256K内存足够线程正常运行,配置-Xss256k,那么500个线程将只需要消耗125M内存。(注意,如果-Xss设置的过低,将会产生java.lang.StackOverflowError错误)