[ANR监控] 通过write接口获取trace信息之前的文章，我们讲了普通应用进程，如何捕获ANR的发生。今天这篇文章

之前的文章，我们讲了普通应用进程，如何捕获ANR的发生[监控] ANR捕获，这些要点你必须知道。

今天这篇文章，我们讲讲，当ANR发生后，我们如何获取trace文件。

trace文件是分析ANR最重要的工具之一，但是高版本的Android系统限制了普通应用对data/anr下文件的读取权限，那么我们怎么拿到trace文件呢？

目前主流的方法有两种，一种是手动调dumpForSigQuit方法，生成一份trace文件；另一种方法是hook trace文件的write接口，获取SignalCatcher线程生成的trace文件。

第一种方法会增加一次dump操作，造成不必要的开销；第二种方法，额外的开销非常小，是一种更轻量更好的方法。所以这篇文章，我们只介绍第二种方法。

hook write接口

主要流程如下：

在收到sigquit信号后，开始hook接口，主要hook connect/open 和 write接口。
当调用connect/open方法时，判断是否为trace文件，如果是则记录当前的线程id（此线程为SignalCatcher线程）
当调用到write接口时，判断是否为上一步记录的SignalCatcher线程，如果是，则标识此时是trace文件的写入，将buffer的内容写入我们的trace文件。

下面贴一下详细的源码：

1. hook connect/open 和 write接口

void hookAnrTraceWrite(bool isSiUser) {
    int apiLevel = getApiLevel();
    if (isHooking) {
        return;
    }
    isHooking = true;
    if (apiLevel >= 27) {
        xhook_grouped_register(HOOK_REQUEST_GROUPID_ANR_DUMP_TRACE, ".*libcutils\\.so$",
                               "connect", (void *) my_connect, (void **) (&original_connect));
    } else {
        xhook_grouped_register(HOOK_REQUEST_GROUPID_ANR_DUMP_TRACE, ".*libart\\.so$",
                               "open", (void *) my_open, (void **) (&original_open));
    }

    if (apiLevel >= 30 || apiLevel == 25 || apiLevel == 24) {
        xhook_grouped_register(HOOK_REQUEST_GROUPID_ANR_DUMP_TRACE, ".*libc\\.so$",
                               "write", (void *) my_write, (void **) (&original_write));
    } else if (apiLevel == 29) {
        xhook_grouped_register(HOOK_REQUEST_GROUPID_ANR_DUMP_TRACE, ".*libbase\\.so$",
                               "write", (void *) my_write, (void **) (&original_write));
    } else {
        xhook_grouped_register(HOOK_REQUEST_GROUPID_ANR_DUMP_TRACE, ".*libart\\.so$",
                               "write", (void *) my_write, (void **) (&original_write));
    }
    xhook_refresh(true);
}

2. connect/open方法

当SignalCatcher线程调用到connect或open方法时，会先调用到我们的my_connect或my_open方法。

my_connect和my_open的流程类似，此处拿my_open方法举例。

int my_open(const char *pathname, int flags, mode_t mode) {
    if (pathname!= nullptr) {
        if (strcmp(pathname, HOOK_OPEN_PATH) == 0) {
            signalCatcherTid = gettid();
            isTraceWrite = true;
        }
    }
    return original_open(pathname, flags, mode);
}

my_connect和my_open方法主要流程：

判断当前打开的文件是否为/data/anr/traces.txt文件
如果是，则设置isTraceWrite为true，记录当前的线程id为signalCatcherTid

3. write方法

当调用到write方法时，会先调用到我们的my_write方法里。

ssize_t my_write(int fd, const void* const buf, size_t count) {
    if(isTraceWrite && gettid() == signalCatcherTid) {
        isTraceWrite = false;
        signalCatcherTid = 0;
        if (buf != nullptr) {
            if (!targetFilePath.empty()) {
                char *content = (char *) buf;
                writeAnr(content, targetFilePath);
                anrDumpTraceCallback();
            }
        }
    }
    return original_write(fd, buf, count);
}

my_write方法主要流程：

判断isTraceWrite是否为true，以及调用write的线程是否为signalCatcherTid线程
如果是，则将buffer中的内容，调用writeAnr方法写入targetFilePath的文件中
调用anrDumpTraceCallback继续后面的上报等流程

writeAnr方法：

void writeAnr(const std::string& content, const std::string &filePath) {
    unHookAnrTraceWrite();
    std::string to;
    std::ofstream outfile;
    outfile.open(filePath);
    outfile << content;
}

writeAnr方法主要流程：

unhoook connect/open 和 write 接口
将content写入filePath的文件中。

总结

到这里，通过hook write接口来获取trace文件的步骤就全部讲完了。

有几点需要注意:

hook操作最好放在子线程进行.
使用hook write获取到的trace信息，只是系统trace.txt文件的一部分。
- 系统trace.txt文件会包含很多进程的dump信息，主要有发生ANR的进程、system_server进程、以及资源消耗top5进程等。
- 我们此处通过hook write得到的trace，只包含我们自己进程dump的信息，不包含其他进程。
即使收到sigquit信号，且能获取到trace信息，也不表示应用一定发生了ANR。
- 有可能当前应用不是真正发生ANR的应用，只是收到了sigquit信号开始dump信息而已。
- 应用收到sigquit一定会开始dump trace信息，但是并不一定是发生了ANR。
- 要判断是否真的是当前应用发生了ANR，还要根据主线程是否block，是否有errorState来判断当前应用是否真正发生了ANR。