1. flume定义
flume是一个高可用,分布式的海量日志采集,聚集和传输的系统
2. flume优点
- 可以和任意存储进程集成(使用范围可以很广)
- 输入的的数据速率大于写入目的存储的速率,flume会进行缓冲,减小hdfs的压力(自带缓冲,高可用)
- flume中的事务基于channel,使用了两个事务模型(sender + receiver),确保消息被可靠发送。(高可靠性)
3. flume的2个独立事务
1. source => channel
一旦事务中所有的数据全部成功提交到channel,那么source才认为该数据读取完成
2. channel => sink
只有成功被sink写出去的数据,才会从channel中移除
4. flume组成架构
1. flume的基本架构图
2. 详细架构图解
5. flume架构中组件
1. Agent
Agent是一个JVM进程,它以事件的形式将数据从源头送至目的。
Agent主要有3个部分组成,Source、Channel、Sink。
2. source
Source是负责接收数据到Flume Agent的组件
source可以处理各种类型,各种格式的日志数据
avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy
3. channel
Channel是位于Source和Sink之间的缓冲区。因此,Channel允许Source和Sink运作在不同的速率上。Channel是线程安全的,可以同时处理几个Source的写入操作和几个Sink的读取操作。
Flume自带2种channel
-
Memory Channel
内存队列,对于数据丢失要求不是很高的场景比较适合,速度快,但是可能会存在数据丢失
-
File Channel
File Channel将所有事件**写到磁盘,**数据不会丢失,但是对于速度要求高的场景不是很适合。
4. sink
Sink不断地轮询Channel中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。
1. sink是完全事务性的
在从Channel批量删除数据之前,每个Sink用Channel启动一个事务。批量事件一旦成功写出到存储系统或下一个Flume Agent,Sink就利用Channel提交事务。事务一旦被提交,该Channel从自己的内部缓冲区删除事件。
2. sink的目的地(很广泛)
包括hdfs、logger、avro、thrift、ipc、file、null、HBase、solr、自定义。
5. Event
传输单元,Flume数据传输的基本单元,以事件的形式将数据从源头送至目的地。 Event由可选的header和载有数据的一个byte array 构成。Header是容纳了key-value字符串对的HashMap。
6. flume的拓扑结构
1. 多flume顺序连接
这种模式是将多个flume给顺序连接起来了,从最初的source开始到最终sink传送的目的存储系统。此模式不建议桥接过多的flume数量, flume数量过多不仅会影响传输速率,而且一旦传输过程中某个节点flume宕机,会影响整个传输系统。
2. 单source,多channel,sink
对于需要发送到多个存储进程中,可以采用该方式,优点是可以多个地方去接收到相同的一份数据
3. flume负载均衡
Flume支持使用将多个sink逻辑上分到一个sink组,flume将数据发送到不同的sink,主要解决负载均衡和故障转移问题。
4. flume日志聚合(很常用)
这种模式是我们最常见的,也非常实用,日常web应用通常分布在上百个服务器,大者甚至上千个、上万个服务器。产生的日志,处理起来也非常麻烦。用flume的这种组合方式能很好的解决这一问题,每台服务器部署一个flume采集日志,传送到一个集中收集日志的flume,再由此flume上传到hdfs、hive、hbase、jms等,进行日志分析。