问题排查过程
一次测试同事提示应用弹窗偶现消失的Bug。
查看设备内部native崩溃堆栈信息,可以看出大概20分钟会崩溃一次,频率较一致。附上部分 Tombstone 日志
Model: 'rk3288'
Build fingerprint: 'Android/rk3288/rk3288:6.0.1/MXC89K/ci07121450:userdebug/test-keys'
ABI: 'arm'
pid: 3829, tid: 4346, name: Thread-749 >>> com.xxxxxx <<<
signal 11 (SIGSEGV), code 1 (SEGV_MAPERR), fault addr 0x9c
Abort message: 'art/runtime/thread.cc:1237] Native thread exited without calling DetachCurrentThread: Thread[12,tid=4346,Native,Thread*=0xb8933778,peer=0x331c5100,"Thread-749"]'
根据崩溃信息,可以非常明确是由于 AttachCurrentThread
后却没有成双地调用进行 DetachCurrentThread
导致。
查看代码,伪代码实现如下:
//析构函数,用来DetachCurrentThread
static void detachDestructor(void* arg)
{
pthread_t thd = pthread_self();
JavaVM* jvm = (JavaVM*)arg;
LOGI("detach thread");
jvm->DetachCurrentThread();
}
static JNIEnv* tryAttach(){
JNIEnv *env = NULL;
if(javaVM == NULL){
return env;
}
if (javaVM->GetEnv((void **) &env, JNI_VERSION_1_4) != JNI_OK)
{
pthread_key_t detachKey;
pthread_key_create(&detachKey, detachDestructor);
javaVM->AttachCurrentThread(&env, NULL);
pthread_setspecific(detachKey, javaVM);
}
return env;
}
代码乍看起来没有任何问题,使用 pthread_key_create()
定义将在线程退出之前调用的析构函数,之后再调用 DetachCurrentThread()
我们分析一下,Tombstone 文件中的打印,到底有没有 detachDestructor 析构函数中的 "detach thread" ,查看日志,发现日志中根本没有调用 LOGI("detach thread");
这一行,也就意味着jvm->DetachCurrentThread();
压根没有调用,这时什么原因呢?
- 一般来说,对于同一个 pthread 我们初次调用
javaVM->GetEnv((void **) &env, JNI_VERSION_1_4)
会返回JNI_EDETACHED
, 并且之后在此线程上调用该函数由于已经被 Attach,会直接返回JNI_OK
。
查看调用 tryAttach
的调用流程,发现伪代码如下:
void *runSomthing(void *arg) {
JNIEnv* env = tryAttach();
jstring result = (jstring) env->CallObjectMethod(object, xxMethodId);
}
void jniMethod() {
while(1) {
if(xxxxxxxx) {
pthread_create(&newthread, &attr, &runSomthing,
(void *) (intptr_t) clientxxx)
}
}
}
调用 JNI 方法时,会开启一个 ServerSocket
,等待接收客户端的请求,一旦有请求变创建出一个 pthread
,并在其中做处理,所以对于这个逻辑来说,每次执行到 tryAttach 都需要,javaVM->GetEnv
都不是 JNI_OK
。每次都需要 pthread_key_create
这个流程。
到此排查又次停滞,没有思路。
便再次查看状态正常时日志,"detach thread"
是有正常打印的,说明是什么流程导致了析构函数 detachDestructor 未执行。怀疑 pthread_key_create(&detachKey, detachDestructor);
流程有问题。查看 C++ 接口文档会发现,
原来此函数有返回值代表着是否成功创建。
int pthread_key_create(pthread_key_t *key, void (*destructor)(void*));
//If successful, the pthread_key_create() function shall store
//the newly created key value at *key and shall return zero.
// Otherwise, an error number shall be returned to indicate the error.
//The pthread_key_create() function shall fail if:
//[EAGAIN]
//The system lacked the necessary resources to create another thread-specific data key,
//or the system-imposed limit on the total number of keys
//per process {PTHREAD_KEYS_MAX} has been exceeded.
//[ENOMEM]
//Insufficient memory exists to create the key.
并且失败时有两种错误码,EAGAIN(11)
代表着当前进程分配 pthread_key
已经超过 PTHREAD_KEYS_MAX
,ENOMEM(12)
代表着内存不足。
尝试加两行打印,并且把每次创建成功后的个数增加
static int pthread_count = 0;
static JNIEnv* tryAttach(){
int pthreadKeyCreateResult = pthread_key_create(&detachKey, detachKeyDestructor);
if (pthreadKeyCreateResult == JNI_OK) {
if (lastKey != detachKey) {
pthread_count++;
}
lastKey = detachKey;
LOGI("create thread key Success is: %d, Max key size:%d, total Count:%d", detachKey, PTHREAD_KEYS_MAX, pthread_count);
} else {
LOGI("create thread key failed, errorCode: %d,result is: %d, Max key size:%d, total Count:%d", pthreadKeyCreateResult, detachKey, PTHREAD_KEYS_MAX, pthread_count);
}
}
结果如下:
create thread key failed, errorCode: 11,result is: 0, Max key size:128, total Count:110
查看 errno-base.h
文件,EAGAIN
就是11,也就是当前进程分配的pthread_key
超限。我们实际创建的110个,加上系统其它占用,超过了 PTHREAD_KEYS_MAX(128)
时便无法创建。
pthread_key_create(&detachKey, detachDestructor);
创建失败,意味着此线程的析构函数也没有成功配置,析构函数也就自然不会在线程退出时调用 jvm->DetachCurrentThread();
解决方案
知道是 pthread_key_create
失败导致的崩溃,我们就很容易想到通过全局的 pthread_key
复用解决这个问题。
在 System.onload
的时机进行 pthread_key_create
的创建,后续直接使用即可。
代码如下:
static pthread_key_t g_key;
static JNIEnv* tryAttach() {
JNIEnv *env = NULL;
if(javaVM == NULL){
return env;
}
if (javaVM->GetEnv((void **) &env, JNI_VERSION_1_4) != JNI_OK) {
javaVM->AttachCurrentThread(&env, NULL);
pthread_setspecific(detachKey, javaVM);
}
return env;
}
JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) {
int ret = pthread_key_create(&g_key, detachDestructor);
if (ret != JNI_OK) {
LOGI("create thread key error ret:%d.", ret);
}
}