pthread_key_create用法导致的崩溃修复

1,991 阅读3分钟

问题排查过程

一次测试同事提示应用弹窗偶现消失的Bug。

查看设备内部native崩溃堆栈信息,可以看出大概20分钟会崩溃一次,频率较一致。附上部分 Tombstone 日志

Model: 'rk3288'
Build fingerprint: 'Android/rk3288/rk3288:6.0.1/MXC89K/ci07121450:userdebug/test-keys'
ABI: 'arm'
pid: 3829, tid: 4346, name: Thread-749  >>> com.xxxxxx <<<
signal 11 (SIGSEGV), code 1 (SEGV_MAPERR), fault addr 0x9c
Abort message: 'art/runtime/thread.cc:1237] Native thread exited without calling DetachCurrentThread: Thread[12,tid=4346,Native,Thread*=0xb8933778,peer=0x331c5100,"Thread-749"]'

根据崩溃信息,可以非常明确是由于 AttachCurrentThread 后却没有成双地调用进行 DetachCurrentThread 导致。

查看代码,伪代码实现如下:

//析构函数,用来DetachCurrentThread
static void detachDestructor(void* arg)
{
    pthread_t thd = pthread_self();
    JavaVM* jvm = (JavaVM*)arg;
    LOGI("detach thread");
    jvm->DetachCurrentThread();
}

static JNIEnv* tryAttach(){
    JNIEnv *env = NULL;
    if(javaVM == NULL){
        return env;
    }
    if (javaVM->GetEnv((void **) &env, JNI_VERSION_1_4) != JNI_OK)
    {
        pthread_key_t detachKey;
        pthread_key_create(&detachKey, detachDestructor);
        javaVM->AttachCurrentThread(&env, NULL);
        pthread_setspecific(detachKey, javaVM);
    }
    return env;
}

代码乍看起来没有任何问题,使用 pthread_key_create() 定义将在线程退出之前调用的析构函数,之后再调用 DetachCurrentThread()

我们分析一下,Tombstone 文件中的打印,到底有没有 detachDestructor 析构函数中的 "detach thread" ,查看日志,发现日志中根本没有调用 LOGI("detach thread"); 这一行,也就意味着jvm->DetachCurrentThread(); 压根没有调用,这时什么原因呢?

  • 一般来说,对于同一个 pthread 我们初次调用 javaVM->GetEnv((void **) &env, JNI_VERSION_1_4)会返回 JNI_EDETACHED, 并且之后在此线程上调用该函数由于已经被 Attach,会直接返回 JNI_OK

查看调用 tryAttach 的调用流程,发现伪代码如下:

void *runSomthing(void *arg) {
	JNIEnv* env = tryAttach();
  jstring result = (jstring) env->CallObjectMethod(object, xxMethodId);
}

void jniMethod() {
	while(1) {
		if(xxxxxxxx) {
			pthread_create(&newthread, &attr, &runSomthing,
	                           (void *) (intptr_t) clientxxx)
		}
	}
}

调用 JNI 方法时,会开启一个 ServerSocket ,等待接收客户端的请求,一旦有请求变创建出一个 pthread ,并在其中做处理,所以对于这个逻辑来说,每次执行到 tryAttach 都需要,javaVM->GetEnv 都不是 JNI_OK。每次都需要 pthread_key_create 这个流程。

到此排查又次停滞,没有思路。

便再次查看状态正常时日志,"detach thread" 是有正常打印的,说明是什么流程导致了析构函数 detachDestructor 未执行。怀疑 pthread_key_create(&detachKey, detachDestructor); 流程有问题。查看 C++ 接口文档会发现,

原来此函数有返回值代表着是否成功创建。

int pthread_key_create(pthread_key_t *key, void (*destructor)(void*));

//If successful, the pthread_key_create() function shall store 
//the newly created key value at *key and shall return zero.
// Otherwise, an error number shall be returned to indicate the error.

//The pthread_key_create() function shall fail if:
//[EAGAIN]
//The system lacked the necessary resources to create another thread-specific data key, 
//or the system-imposed limit on the total number of keys 
//per process {PTHREAD_KEYS_MAX} has been exceeded.
//[ENOMEM]
//Insufficient memory exists to create the key.

并且失败时有两种错误码,EAGAIN(11) 代表着当前进程分配 pthread_key 已经超过 PTHREAD_KEYS_MAXENOMEM(12) 代表着内存不足。

尝试加两行打印,并且把每次创建成功后的个数增加

  static int pthread_count = 0;

	static JNIEnv* tryAttach(){
					int pthreadKeyCreateResult = pthread_key_create(&detachKey, detachKeyDestructor);
	        if (pthreadKeyCreateResult == JNI_OK) {
	            if (lastKey != detachKey) {
	                pthread_count++;
	            }
	            lastKey = detachKey;
	            LOGI("create thread key Success is: %d, Max key size:%d, total Count:%d", detachKey, PTHREAD_KEYS_MAX, pthread_count);
	        } else {
	            LOGI("create thread key failed, errorCode: %d,result is: %d, Max key size:%d, total Count:%d", pthreadKeyCreateResult, detachKey, PTHREAD_KEYS_MAX, pthread_count);
	        }
	}

结果如下:

create thread key failed, errorCode: 11,result is: 0, Max key size:128, total Count:110

查看 errno-base.h 文件,EAGAIN就是11,也就是当前进程分配的pthread_key超限。我们实际创建的110个,加上系统其它占用,超过了 PTHREAD_KEYS_MAX(128)时便无法创建。

pthread_key_create(&detachKey, detachDestructor); 创建失败,意味着此线程的析构函数也没有成功配置,析构函数也就自然不会在线程退出时调用 jvm->DetachCurrentThread();

解决方案

知道是 pthread_key_create 失败导致的崩溃,我们就很容易想到通过全局的 pthread_key 复用解决这个问题。

System.onload 的时机进行 pthread_key_create 的创建,后续直接使用即可。

代码如下:

static pthread_key_t g_key;
static JNIEnv* tryAttach() {
	JNIEnv *env = NULL;
    if(javaVM == NULL){
        return env;
    }
    if (javaVM->GetEnv((void **) &env, JNI_VERSION_1_4) != JNI_OK) {
        javaVM->AttachCurrentThread(&env, NULL);
        pthread_setspecific(detachKey, javaVM);
    }
    return env;
}

JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) {
	int ret = pthread_key_create(&g_key, detachDestructor);
    if (ret != JNI_OK) {
        LOGI("create thread key error ret:%d.", ret);
    }
}