还在用ELK？是时候了解一下轻量化日志服务Loki了在日常的系统可视化监控过程中，当监控探知到指标异常时，我们往往需要

一、背景

在日常的系统可视化监控过程中，当监控探知到指标异常时，我们往往需要对问题的根因做出定位。但监控数据所暴露的信息是提前预设、高度提炼的，在信息量上存在着很大的不足，它需要结合能够承载丰富信息的日志系统一起使用。

当监控系统探知到异常告警，我们通常在Dashboard上根据异常指标所属的集群、主机、实例、应用、时间等信息圈定问题的大致方向，然后跳转到日志系统做更精细的查询，获取更丰富的信息来最终判断问题根因。

在如上流程中，监控系统和日志系统往往是独立的，使用方式具有很大差异。比如监控系统Prometheus比较受欢迎，日志系统多采用ES+Kibana 。他们具有完全不同的概念、不同的搜索语法和界面，这不仅给使用者增加了学习成本，也使得在使用时需在两套系统中频繁做上下文切换，对问题的定位迟滞。

此外，日志系统多采用全文索引来支撑搜索服务，它需要为日志的原文建立反向索引，这会导致最终存储数据相较原始内容成倍增长，产生不可小觑的存储成本。并且，不管数据将来是否会被搜索，都会在写入时因为索引操作而占用大量的计算资源，这对于日志这种写多读少的服务无疑也是一种计算资源的浪费。

Loki则是为了应对上述问题而产生的解决方案，它的目标是 打造能够与监控深度集成、成本极度低廉的日志系统。

二、Loki日志方案

1，低使用成本

数据模型

在数据模型上Loki参考了Prometheus 。数据由标签、 时间戳 、内容组成，所有标签相同的数据属于同 一日志流 ，具有如下结构：

在数据模型上Loki参考了Prometheus 。数据由标签、时间戳、内容组成，所有标签相同的数据属于同一日志流，具有如下结构：

{
  "stream": { 
    "label1": "value1",
    "label1": "value2"
  }, # 标签
  "values": [
    ["<timestamp nanoseconds>","log content"], # 时间戳，内容
    ["<timestamp nanoseconds>","log content"]
  ]
}

标签， 描述日志所属集群、服务、主机、应用、类型等元信息，用于后期搜索服务； 时间戳， 日志的产生时间； 内容， 日志的原始内容。

Loki还支持 多租户 ，同一租户下具有完全相同标签的日志所组成的集合称为一个 日志流 。

在日志的采集端使用和监控时序数据一致的标签，这样在可以后续与监控系统结合时使用相同的标签，也为在UI界面中与监控结合使用做快速上下文切换提供数据基础。

LogQL

Loki使用类似Prometheus的PromQL的查询语句logQL ，语法简单并贴近社区使用习惯，降低用户学习和使用成本。语法例子如下：

{file="debug.log""} |= "err"

流选择器： {label1="value1", label2="value2"}，通过标签选择 日志流 ，支持等、不等、匹配、不匹配等选择方式； 过滤器： |= "err"，过滤日志内容，支持包含、不包含、匹配、不匹配等过滤方式。

这种工作方式类似于find+grep，find找出文件，grep从文件中逐行匹配：

find . -name "debug.log" | grep err

logQL除支持日志内容查询外，还支持对日志总量、频率等聚合计算。

Grafana

在Grafana中原生支持Loki插件，将监控和日志查询集成在一起，在同一UI界面中可以对监控数据和日志进行side-by-side的下钻查询探索，比使用不同系统反复进行切换更直观、更便捷。

此外，在Dashboard中可以将监控和日志查询配置在一起，这样可同时查看监控数据走势和日志内容，为捕捉可能存在的问题提供更直观的途径。

低存储成本

只索引与日志相关的元数据标签，而日志内容则以压缩方式存储于对象存储中, 不做任何索引。相较于ES这种全文索引的系统，数据可在十倍量级上降低，加上使用对象存储，最终存储成本可降低数十倍甚至更低。方案不解决复杂的存储系统问题，而是直接应用现有成熟的分布式存储系统，比如S3、GCS、Cassandra、BigTable 。

2，架构

整体上Loki采用了读写分离的架构，由多个模块组成。其主体结构如下图所示：

Promtail、Fluent-bit、Fluentd、Rsyslog等开源客户端负责采集并上报日志；

Distributor：日志写入入口，将数据转发到Ingester；

Ingester：日志的写入服务，缓存并写入日志内容和索引到底层存储；

Querier：日志读取服务，执行搜索请求；

QueryFrontend：日志读取入口，分发读取请求到Querier并返回结果；

Cassandra/BigTable/DnyamoDB/S3/GCS：索引、日志内容底层存储；

Cache：缓存，支持Redis/Memcache/本地Cache。

Distributor

作为日志写入的入口服务，其负责对上报数据进行解析、校验与转发。它将接收到的上报数解析完成后会进行大小、条目、频率、标签、租户等参数校验，然后将合法数据转发到Ingester 服务，其在转发之前最重要的任务是确保 同一日志流的数据必须转发到相同Ingester 上，以确保数据的顺序性。

Hash环

Distributor采用 一致性哈希 与 副本因子 相结合的办法来决定数据转发到哪些Ingester上。

Ingester在启动后，会生成一系列的32位随机数作为自己的 Token ，然后与这一组Token一起将自己注册到 Hash环 中。在选择数据转发目的地时， Distributor根据日志的 标签和租户ID 生成 Hash ，然后在Hash环中按Token的升序查找第一个大于这个 Hash 的Token ，这个Token所对应的Ingester即为这条日志需要转发的目的地。如果设置了 副本因子 ，顺序的在之后的token中查找不同的Ingester做为副本的目的地。

Hash环可存储于etcd、consul中。另外Loki使用Memberlist实现了集群内部的KV存储，如不想依赖etcd或consul ，可采用此方案。

Distributor的输入主要是以HTTP协议批量的方式接受上报日志，日志封装格式支持JSON和PB ，数据封装结构：

[
  {
   "stream": { 
     "label1": "value1",
     "label1": "value2"
   },
   "values": [
     ["<timestamp nanoseconds>","log content"],
     ["<timestamp nanoseconds>","log content"]
   ]
  }
  ......
]

Distributor以grpc方式向ingester发送数据，数据封装结构：

{
  "streams": [
    {
      "labels": "{label1=value1, label2=value2}",
      "entries": [
          {"ts": <unix epoch in nanoseconds>, "line:":"<log line>" },
          {"ts": <unix epoch in nanoseconds>, "line:":"<log line>" },
      ]
    }
    ....
   ]
}

Ingester

作为Loki的写入模块，Ingester主要任务是缓存并写入数据到底层存储。根据写入数据在模块中的生命周期，ingester大体上分为校验、缓存、存储适配三层结构。

校验

Loki有个重要的特性是它不整理数据乱序，要求 同一日志流的数据必须严格遵守时间戳单调递增顺序 写入。所以除对数据的长度、频率等做校验外，至关重要的是日志顺序检查。 Ingester对每个日志流里每一条日志都会和上一条进行 时间戳和内容的对比 ，策略如下：

与上一条日志相比，本条日志时间戳更新，接收本条日志；
与上一条日志相比，时间戳相同内容不同，接收本条日志；
与上一条日志相比，时间戳和内容都相同，忽略本条日志；
与上一条日志相比，本条日志时间戳更老，返回乱序错误。

缓存

日志在内存中的缓存采用多层树形结构对不同租户、日志流做出隔离。同一日志流采用顺序追加方式写入分块，整体结构如下：

Instances：以租户的userID为键Instance为值的Map结构；

Instance：一个租户下所有日志流 (stream) 的容器；

Streams：以_日志流_的指纹 (streamFP) 为键，Stream为值的Map结构；

Stream：一个_日志流_所有Chunk的容器；

Chunks：Chunk的列表；

Chunk：持久存储读写最小单元在内存态的结构；

Block：Chunk的分块，为已压缩归档的数据；

HeadBlock：尚在开放写入的分块；

Entry：单条日志单元，包含时间戳 (timestamp) 和日志内容 (line) 。

Chunks

在向内存写入数据前，ingester首先会根据 租户ID (userID)和由标签计算的指纹 (streamPF) 定位到 日志流 (stream)及 Chunks 。

Chunks由按时间升序排列的chunk组成，最后一个chunk接收最新写入的数据，其他则等刷写到底层存储。当最后一个chunk的 存活时间 或 数据大小 超过指定阈值时，Chunks尾部追加新的chunk 。

Chunk

Chunk为Loki在底层存储上读写的最小单元在内存态下的结构。其由若干block组成，其中headBlock为正在开放写入的block ，而其他Block则已经归档压缩的数据。

Block

Block为数据的压缩单元，目的是为了在读取操作那里避免因为每次解压整个Chunk 而浪费计算资源，因为很多情况下是读取一个chunk的部分数据就满足所需数据量而返回结果了。

Block存储的是日志的压缩数据，其结构为按时间顺序的 日志时间戳 和 原始内容 ，压缩可采用gzip、snappy 、lz4等方式。

HeadBlock

正在接收写入的特殊block ，它在满足一定大小后会被压缩归档为Block ，然后新headBlock会被创建。

存储适配

由于底层存储要支持S3、Cassandra、BigTable、DnyamoDB等系统，适配层将各种系统的读写操作抽象成统一接口，负责与他们进行数据交互。

输出

Chunk

Loki以Chunk为单位在存储系统中读写数据。在持久存储态下的Chunk具有如下结构

meta：封装chunk所属stream的指纹、租户ID，开始截止时间等元信息；
data：封装日志内容，其中一些重要字段；
encode保存数据的压缩方式；
block-N bytes保存一个block的日志数据；
blocks section byte offset单元记录#block单元的偏移量；
block单元记录一共有多少个block；
entries和block-N bytes一一对应，记录每个block里有日式行数、时间起始点，blokc-N bytes的开始位置和长度等元信息。

Chunk数据的解析顺序：

根据尾部的#blocks section byte offset单元得到#block单元的位置；

根据#block单元记录得出chunk里block数量；

从#block单元所在位置开始读取所有block的entries、mint、maxt、offset、len等元信息；

顺序的根据每个block元信息解析出block的数据

索引

Loki只索引了标签数据，用于实现 标签→日志流→Chunk 的索引映射，以分表形式在存储层存储。

1. 表结构

CREATE TABLE IF NOT EXISTS Table_N (
    hash text,
    range blob，
    value blob,
    PRIMARY KEY (hash, range)
 )

Table_N，根据时间周期分表名；
hash，不同查询类型时使用的索引；
range，范围查询字段；
value，日志标签的值

2. 数据类型

Loki保存了不同类型的索引数据用以实现不同映射场景，对于每种类型的映射数据，Hash/Range/Value三个字段的数据组成如下图所示：

seriesID为 日志流ID ， shard为分片，userID为 租户ID ，labelName为 标签名 ，labelValueHash为 标签值hash ，chunkID为 chunk的ID ，chunkThrough为chunk里 最后一条数据的时间 这些数据元素在映射过程中的作用在Querier环节的查询流程做详细介绍。

上图中三种颜色标识的索引类型从上到下分别为：

数据类型1：用于根据用户ID搜索查询所有日志流的ID；
数据类型2：用于根据用户ID和标签查询日志流的ID；
数据类型3：用于根据日志流ID查询底层存储Chunk的ID；

除了采用分表外，Loki还采用分桶、分片的方式优化索引查询速度。

分桶

以天分割：

bucketID = timestamp / secondsInDay。

以小时分割：

bucketID = timestamp / secondsInHour。

分片

将不同日志流的索引分散到不同分片，shard = seriesID%分片数。

Chunk状态

Chunk作为在Ingester中重要的数据单元，其在内存中的生命周期内分如下四种状态：

Writing：正在写入新数据；
Waiting flush：停止写入新数据，等待写入到存储；
Retain：已经写入存储，等待销毁；
Destroy：已经销毁。

四种状态之间的转换以writing -> waiting flush -> retain -> destroy顺序进行。

1. 状态转换时机

协作触发：有新的数据写入请求；
定时触发： 刷写周期 触发将chunk写入存储， 回收周期 触发将chunk销毁。

2. writing转为waiting flush

chunk初始状态为writing，标识正在接受数据的写入，满足如下条件则进入到等待刷写状态：

chunk空间满（协作触发）；
chunk的 存活时间 （首末两条数据时间差）超过阈值（定时触发）；
chunk的 空闲时间 （连续未写入数据时长)超过设置（定时触发）。

3. waiting flush转为etain

Ingester会定时的将等待刷写的chunk写到底层存储，之后这些chunk会处于”retain“状态，这是因为ingester提供了对最新数据的搜索服务，需要在内存里保留一段时间，retain状态则解耦了数据的 刷写时间 以及在内存中的 保留时间 ，方便视不同选项优化内存配置。

4. destroy，被回收等待GC销毁

总体上，Loki由于针对日志的使用场景，采用了顺序追加方式写入，只索引元信息，极大程度上简化了它的数据结构和处理逻辑，这也为Ingester能够应对高速写入提供了基础。

Querier

查询服务的执行组件，其负责从底层存储拉取数据并按照LogQL语言所描述的筛选条件过滤。它可以直接通过API提供查询服务，也可以与queryFrontend结合使用实现分布式并发查询。

查询类型

范围日志查询
单日志查询
统计查询
元信息查询

在这些查询类型中，范围日志查询应用最为广泛，所以下文只对范围日志查询做详细介绍。

并发查询

对于单个查询请求，虽然可以直接调用Querier的API进行查询，但很容易会由于大查询导致OOM，为应对此种问题querier与queryFrontend结合一起实现查询分解与多querier并发执行。

每个querier都与所有queryFrontend建立grpc双向流式连接，实时从queryFrontend中获取已经分割的子查询求，执行后将结果发送回queryFrontend。具体如何分割查询及在querier间调度子查询将在queryFrontend环节介绍。

查询流程

1. 解析logQL指令

2. 查询日志流ID列表

Loki根据不同的标签选择器语法使用了不同的索引查询逻辑，大体分为两种：

=，或多值的正则匹配=~ ，工作过程如下：

以类似下SQL所描述的语义查询出 标签选择器 里引用的每个 标签键值对 所对应的 日志流ID(seriesID) 的集合。

SELECT * FROM Table_N WHERE hash=？ AND range>=？    AND value=labelValue

◆ hash为租户ID(userID)、分桶(bucketID)、标签名(labelName)组合计算的哈希值；◆ range为标签值(labelValue)计算的哈希值。

将根据 标签键值对 所查询的多个seriesID集合取并集或交集求最终集合。

比如，标签选择器{file="app.log", level=~"debug|error"}的工作过程如下：

查询出file="app.log"，level="debug", level="error" 三个标签键值所对应的seriesID集合，S1 、S2、S3；2. 根据三个集合计算最终seriesID集合S = S1∩cap (S2∪S3)。

!=，=，!，工作过程如下：

以如下SQL所描述的语义查询出 标签选择器 里引用的每个标签所对应seriesID集合。

SELECT * FROM Table_N WHERE hash = ?

◆ hash为租户ID(userID)、分桶(bucketID)、标签名(labelName)。

根据标签选择语法对每个seriesID集合进行过滤。
将过滤后的集合进行并集、交集等操作求最终集合。

比如，{file~="mysql*", level!="error"}的工作过程如下：

查询出标签“file”和标签"level"对应的seriesID的集合，S1、S2；2. 求出S1中file的值匹配mysql*的子集SS1，S2中level的值!="error"的子集SS2；3. 计算最终seriesID集合S = SS1∩SS2。

3. 以如下SQL所描述的语义查询出所有日志流所包含的chunk的ID

SELECT * FROM Table_N Where hash = ?

hash为分桶(bucketID)和日志流(seriesID)计算的哈希值。

4. 根据chunkID列表生成遍历器来顺序读取日志行

遍历器作为数据读取的组件，其主要功能为从存储系统中拉取chunk并从中读取日志行。其采用多层树形结构，自顶向下逐层递归触发方式弹出数据。具体结构如下图所示：

batch Iterator：以批量的方式从存储中下载chunk原始数据，并生成iterator树；

stream Iterator：多个stream数据的遍历器，其采用堆排序确保多个stream之间数据的保序；

chunks Iterator：多个chunk数据的遍历器，同样采用堆排序确保多个chunk之间保序及多副本之间的去重；

blocks Iterator：多个block数据的遍历器；

block bytes Iterator：block里日志行的遍历器。

5. 从Ingester查询在内存中尚未写入到存储中的数据

由于Ingester是定时的将缓存数据写入到存储中，所以Querier在查询时间范围较新的数据时，还会通过grpc协议从每个ingester中查询出内存数据。需要在ingester中查询的时间范围是可配置的，视ingester缓存数据时长而定。

上面是日志内容查询的主要流程。至于指标查询的流程与其大同小异，只是增加了指标计算的遍历器层用于从查询出的日志计算指标数据。其他两种则更为简单，这里不再详细展开。

QueryFrontend

Loki对查询采用了计算后置的方式，类似于在大量原始数据上做grep，所以查询势必会消耗比较多的计算和内存资源。如果以单节点执行一个查询请求的话很容易因为大查询造成OOM、速度慢等性能瓶颈。为解决此问题，Loki采用了将单个查询分解在多个querier上并发执行方式，其中查询请求的分解和调度则由queryFrontend完成。

queryFrontend在Loki的整体架构上处于querier的前端，它作为数据读取操作的入口服务，其主要的组件及工作流程如下图所示：

分割Request：将单个查询分割成子查询subReq的列表；

Feeder: 将子查询顺序注入到缓存队列 Buf Queue；

Runner: 多个并发的运行器将Buf Queue中的查询并注入到子查询队列，并等待返回查询结果；

Querier通过grpc协议实时从子查询队列弹出子查询，执行后将结果返回给相应的Runner；

所有子请求在Runner执行完毕后汇总结果返回API响应。

查询分割

queryFrontend按照固定时间跨度将查询请求分割成多个子查询。比如，一个查询的时间范围是6小时，分割跨度为15分钟，则查询会被分为6*60/15=24个子查询

查询调度

Feeder

Feeder负责将分割好的子查询逐一的写入到缓存队列Buf Queue，以生产者/消费者模式与下游的Runner实现可控的子查询并发。

Runner

从Buf Queue中竞争方式读取子查询并写入到下游的请求队列中，并处理来自Querier的返回结果。Runner的并发个数通过全局配置控制，避免因为一次分解过多子查询而对Querier造成巨大的徒流量，影响其稳定性。

子查询队列

队列是一个二维结构，第一维存储的是不同租户的队列，第二维存储同一租户子查询列表，它们都是以FIFO的顺序组织里面的元素的入队出队

分配请求

queryFrontend是以被动方式分配查询请求，后端Querier与queryFrontend实时的通过grpc监听子查询队列，当有新请求时以如下顺序在队列中弹出下一个请求：

以循环的方式遍历队列中的租户列表，寻找下一个有数据的租户队列；

弹出该租户队列中的最老的请求。

三、总结

Loki作为一个正在快速发展的项目，最新版本已到2.0，相较1.6增强了诸如日志解析、Ruler、Boltdb-shipper等新功能，不过基本的模块、架构、数据模型、工作原理上已处于稳定状态，希望本文的这些尝试性的剖析能够能够为大家提供一些帮助，如文中有理解错误之处，欢迎批评指正。

推荐阅读：

欢迎点击【京东智联云】，了解开发者社区

更多精彩技术实践与独家干货解析

欢迎关注【京东智联云开发者】公众号

还在用ELK？ 是时候了解一下轻量化日志服务Loki了