实践经验——如何更好的利用opentelemetry 排查问题本文主要讲解在利用opentelemetry 排查问题时沉

写在前面

本文主要讲解在利用opentelemetry 排查问题时沉淀的一些方法论。主要聚焦以下几个问题：

Tags（在OpenTelemetry中也被称为Attributes）被用来描述一个Span的上下文信息。他是静态的并且会被附加到Span上，用于搜索和过滤。

Events被用来代表一个Span中发生的特定的时间点。它们可以用来记录Span生命周期中的重要事件，比如错误或者其它异常。与Tags不同的是，Events是有时间顺序的，可以用来表示一个序列的事件。

基于此，我们可以约定一个使用tag和event的规范：

在event中，我们要尽可能的详细记录信息，方便研发通过event可以清晰的看出发生了什么事件，发生在代码的哪个位置，以及任何相关的上下文信息。

划分span让我们可以更细粒度的关注服务的运行状态，这个看起来和event其实相差不多，只不过event相较于span更加的细粒度。那么在什么时候创建新的span呢？

很多时候我们搜索trace时，我们需要选择service，operation，tag以及时间范围，当我们想选择某个耗时超过100，或者tag为XXX时，可以很轻松的进行检索和过滤

但是这有一个美中不足：

我们没有办法同时搜索子服务的tag和父服务的tag，这样的话就会在搜索时无法很方便的捕捉到异常。

两个思路！

在搜索子服务的tag的同时时，对所有结果的traceid进行过滤，过滤掉父服务中包含tag为指定值的trace

因为跨服务传播本质上是传递了上下文信息，不妨就多传递一些字段，并在下游服务中写入span，这样就可以直接使用jaeger-query对tag进行过滤。