课程目的
搭建基于hadoop+flume的日志采集平台
日志作为系统运行的重要支撑数据越来越被企业看重.尤其是对一线互联网公司,生产服务器成百上千台,如何实时收集和存储海量的日志信息,并以此诊断系统的运行状态和故障修复已经成为一种常态化需求. 日志分析的前提是能有效的收集日志.本课程的目的就是基于业界成熟的方案来实现上述需求
课程原理
课程基于Hadoop和 Apache flume来实现,同时借助章鱼大数据平台丰富的大数据生态组件,教授学生如何快速熟悉企业级的日志采集平台的搭建
Hadoop HDFS作为成熟的海量数据存储技术已经被广泛应用,同时Apache flume作为apache顶级项目之一,在性能和稳定性上为海量日志的传输和存储提供了必要保障.
课程内容:
第一天上午:
- Apache flume 核心概念讲解:Source,channel,sink
- Flume如何保证数据在传输过程中的完整性
- 练习:如何配置和启动Flume
- Linux 常用命令讲解
- 练习: linux命令
第一天下午:
- Hadoop核心概念的讲解
- 练习:hadoop的配置启动
- 练习:集成hadoop和flume
- 实战项目背景介绍
第二天上午:
- 企业级开发流程介绍(基于敏捷开发)
- 项目环境搭建
- 项目模块一:收集单台系统日志
第二天下午:
- 项目模块二:整合多台系统日志
- 项目模块三:日志数据的查询和维护
第三天上午:
- 项目模块四:负载均衡和故障转移
- 项目模块五:项目部署
第三天下午:
- 项目模块六:系统监控和故障排查
- 案例总结