Kafka源码分析16-消息有异常如何处理？首先，我们先判断一下能否重试？ canRetry(batch, error)

欢迎大家关注 github.com/hsfxuebao/j… ，希望对大家有所帮助，要是觉得可以的话麻烦给点一下Star哈

private void completeBatch(RecordBatch batch, ProduceResponse.PartitionResponse response, long correlationId,
                           long now) {
    //如果处理成功那就是成功了，但是如果服务端那儿处理失败了，是不是也要给我们发送回来异常的信息。
    //error 这个里面存储的就是服务端发送回来的异常码
    Errors error = response.error;
    //如果响应里面带有异常 并且 这个请求是可以重试的
    if (error != Errors.NONE && canRetry(batch, error)) {
        // retry
        log.warn("Got error produce response with correlation id {} on topic-partition {}, retrying ({} attempts left). Error: {}",
                 correlationId,
                 batch.topicPartition,
                 this.retries - batch.attempts - 1,
                 error);
        //重新把发送失败等着批次 加入到队列里面。
        this.accumulator.reenqueue(batch, now);
        this.sensors.recordRetries(batch.topicPartition.topic(), batch.recordCount);
    } else {
        //这儿过来的数据：带有异常，但是不可以重试（1：压根就不让重试2：重试次数超了）

        //其余的都走这个分支。
        RuntimeException exception;
        //如果响应里面带有 没有权限的异常
        if (error == Errors.TOPIC_AUTHORIZATION_FAILED)
            //自己封装一个异常信息（自定义了异常）
            exception = new TopicAuthorizationException(batch.topicPartition.topic());
        else
            exception = error.exception();
        // tell the user the result of their request
        //TODO 核心代码 把异常的信息也给带过去了
        //我们刚刚看的就是这儿的代码
        //里面调用了用户传进来的回调函数
        //回调函数调用了以后
        //说明我们的一个完整的消息的发送流程就结束了。
        batch.done(response.baseOffset, response.logAppendTime, exception);
        //看起来这个代码就是要回收资源的。
        this.accumulator.deallocate(batch);
        if (error != Errors.NONE)
            this.sensors.recordErrors(batch.topicPartition.topic(), batch.recordCount);
    }
    if (error.exception() instanceof InvalidMetadataException) {
        if (error.exception() instanceof UnknownTopicOrPartitionException)
            log.warn("Received unknown topic or partition error in produce request on partition {}. The " +
                    "topic/partition may not exist or the user may not have Describe access to it", batch.topicPartition);
        metadata.requestUpdate();
    }

    // Unmute the completed partition.
    if (guaranteeMessageOrder)
        this.accumulator.unmutePartition(batch.topicPartition);
}

首先，我们先判断一下能否重试？ canRetry(batch, error)

private boolean canRetry(RecordBatch batch, Errors error) {
    return batch.attempts < this.retries && error.exception() instanceof RetriableException;
}

可以重试的条件：使用重试次数小于配置重试次数 && 属于可重试的异常；

下面这些都属于可重试的异常：

下面分为2中情况：

（1）如果消息可以重试调用accumulator.reenqueue(batch, now)

public void reenqueue(RecordBatch batch, long now) {
    batch.attempts++;
    batch.lastAttemptMs = now;
    batch.lastAppendTime = now;
    batch.setRetry();
    Deque<RecordBatch> deque = getOrCreateDeque(batch.topicPartition);
    synchronized (deque) {
        deque.addFirst(batch);
    }
}

重试的Batch会放入到队列的头部，不是尾部，这样的话，下一次循环的时候就可以优先处理这个要重新发送的Batch了，attempts、lastAttemptMs这些参数都会进行设置，辅助判断这个Batch下一次是什么时候要进行重试发送

（2）消息不可以重试

此时会调用producer.send()方法传过来的回调函数，进行异常的处理

参考文档：

史上最详细kafka源码注释（kafka-0.10.2.0-src）

kafka技术内幕-图文详解Kafka源码设计与实现

Kafka 源码分析系列