flume的一些基本概念以及原理分析

468 阅读3分钟

1. flume定义

flume是一个高可用分布式的海量日志采集聚集传输的系统

image.png

2. flume优点

  1. 可以和任意存储进程集成(使用范围可以很广)
  2. 输入的的数据速率大于写入目的存储的速率,flume会进行缓冲,减小hdfs的压力(自带缓冲,高可用)
  3. flume中的事务基于channel,使用了两个事务模型(sender + receiver),确保消息被可靠发送。(高可靠性)

3. flume的2个独立事务

1. source => channel

一旦事务中所有的数据全部成功提交到channel,那么source才认为该数据读取完成

2. channel => sink

只有成功被sink写出去的数据,才会从channel中移除

4. flume组成架构

1. flume的基本架构图

image.png

2. 详细架构图解

image.png

5. flume架构中组件

1. Agent

Agent是一个JVM进程,它以事件的形式将数据从源头送至目的。

Agent主要有3个部分组成,Source、Channel、Sink。

2. source

Source是负责接收数据到Flume Agent的组件

source可以处理各种类型,各种格式的日志数据

avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy

3. channel

Channel是位于Source和Sink之间的缓冲区。因此,Channel允许Source和Sink运作在不同的速率上。Channel是线程安全的,可以同时处理几个Source的写入操作和几个Sink的读取操作。

Flume自带2种channel

  1. Memory Channel

    内存队列,对于数据丢失要求不是很高的场景比较适合,速度快,但是可能会存在数据丢失

  2. File Channel

    File Channel将所有事件**写到磁盘,**数据不会丢失,但是对于速度要求高的场景不是很适合。

4. sink

Sink不断地轮询Channel中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。

1. sink是完全事务性的

在从Channel批量删除数据之前,每个Sink用Channel启动一个事务。批量事件一旦成功写出到存储系统或下一个Flume Agent,Sink就利用Channel提交事务。事务一旦被提交,该Channel从自己的内部缓冲区删除事件。

2. sink的目的地(很广泛)

包括hdfs、logger、avro、thrift、ipc、file、null、HBase、solr、自定义。

5. Event

传输单元,Flume数据传输的基本单元,以事件的形式将数据从源头送至目的地。 Event由可选的header和载有数据的一个byte array 构成。Header是容纳了key-value字符串对的HashMap。

6. flume的拓扑结构

1. 多flume顺序连接

这种模式是将多个flume给顺序连接起来了,从最初的source开始到最终sink传送的目的存储系统。此模式不建议桥接过多的flume数量, flume数量过多不仅会影响传输速率,而且一旦传输过程中某个节点flume宕机,会影响整个传输系统

image.png

2. 单source,多channel,sink

对于需要发送到多个存储进程中,可以采用该方式,优点是可以多个地方去接收到相同的一份数据

image.png

3. flume负载均衡

Flume支持使用将多个sink逻辑上分到一个sink组,flume将数据发送到不同的sink,主要解决负载均衡和故障转移问题

image.png

4. flume日志聚合(很常用)

这种模式是我们最常见的,也非常实用,日常web应用通常分布在上百个服务器,大者甚至上千个、上万个服务器。产生的日志,处理起来也非常麻烦。用flume的这种组合方式能很好的解决这一问题,每台服务器部署一个flume采集日志,传送到一个集中收集日志的flume,再由此flume上传到hdfs、hive、hbase、jms等,进行日志分析。

image.png

7. Flume Agent内部原理

image.png