1. flume定义

flume是一个高可用，分布式的海量日志采集，聚集和传输的系统

2. flume优点

可以和任意存储进程集成（使用范围可以很广）

输入的的数据速率大于写入目的存储的速率，flume会进行缓冲，减小hdfs的压力（自带缓冲，高可用）

flume中的事务基于channel，使用了两个事务模型（sender + receiver），确保消息被可靠发送。（高可靠性）

3. flume的2个独立事务

1. source => channel

一旦事务中所有的数据全部成功提交到channel，那么source才认为该数据读取完成

2. channel => sink

只有成功被sink写出去的数据，才会从channel中移除

4. flume组成架构

1. flume的基本架构图

2. 详细架构图解

5. flume架构中组件

1. Agent

Agent是一个JVM进程，它以事件的形式将数据从源头送至目的。

Agent主要有3个部分组成，Source、Channel、Sink。

2. source

Source是负责接收数据到Flume Agent的组件

source可以处理各种类型，各种格式的日志数据

avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy

3. channel

Channel是位于Source和Sink之间的缓冲区。因此，Channel允许Source和Sink运作在不同的速率上。Channel是线程安全的，可以同时处理几个Source的写入操作和几个Sink的读取操作。

Flume自带2种channel

Memory Channel

内存队列，对于数据丢失要求不是很高的场景比较适合，速度快，但是可能会存在数据丢失
File Channel

File Channel将所有事件**写到磁盘,**数据不会丢失，但是对于速度要求高的场景不是很适合。

4. sink

Sink不断地轮询Channel中的事件且批量地移除它们，并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。

1. sink是完全事务性的

在从Channel批量删除数据之前，每个Sink用Channel启动一个事务。批量事件一旦成功写出到存储系统或下一个Flume Agent，Sink就利用Channel提交事务。事务一旦被提交，该Channel从自己的内部缓冲区删除事件。

2. sink的目的地(很广泛)

包括hdfs、logger、avro、thrift、ipc、file、null、HBase、solr、自定义。

5. Event

传输单元，Flume数据传输的基本单元，以事件的形式将数据从源头送至目的地。 Event由可选的header和载有数据的一个byte array 构成。Header是容纳了key-value字符串对的HashMap。

6. flume的拓扑结构

1. 多flume顺序连接

这种模式是将多个flume给顺序连接起来了，从最初的source开始到最终sink传送的目的存储系统。此模式不建议桥接过多的flume数量， flume数量过多不仅会影响传输速率，而且一旦传输过程中某个节点flume宕机，会影响整个传输系统。

2. 单source，多channel，sink

对于需要发送到多个存储进程中，可以采用该方式，优点是可以多个地方去接收到相同的一份数据

3. flume负载均衡

Flume支持使用将多个sink逻辑上分到一个sink组，flume将数据发送到不同的sink，主要解决负载均衡和故障转移问题。

4. flume日志聚合（很常用）

这种模式是我们最常见的，也非常实用，日常web应用通常分布在上百个服务器，大者甚至上千个、上万个服务器。产生的日志，处理起来也非常麻烦。用flume的这种组合方式能很好的解决这一问题，每台服务器部署一个flume采集日志，传送到一个集中收集日志的flume，再由此flume上传到hdfs、hive、hbase、jms等，进行日志分析。

flume的一些基本概念以及原理分析

1. flume定义

2. flume优点

3. flume的2个独立事务

1. source => channel

2. channel => sink

4. flume组成架构

1. flume的基本架构图

2. 详细架构图解

5. flume架构中组件

1. Agent

2. source

3. channel

4. sink

5. Event

6. flume的拓扑结构

1. 多flume顺序连接

2. 单source，多channel，sink

3. flume负载均衡

4. flume日志聚合（很常用）

7. Flume Agent内部原理