一、大数据的特点(5V特征)
- Volume:数据体量大,采集、存储、计算的数据量大;
- Variety:种类来源多样化,结构化、半结构化、非结构化数据,文本、图片、音频、视频数据;
- Value:低价值密度,数据海量但是价值密度低;
- Velocity:速度快,数据增长、获取、处理的速度快;
- Veracity:数据的质量,数据的准确性和可信赖度;
二、大数据业务分析的基本步骤
- 明确分析的目的和思路
- 数据收集
- 数据处理
- 数据分析
- 数据展现
- 报告撰写
三、分布式和集群的区别
- 分布式:多台机器,每台机器部署不同的组件。比如多台机器分别部署系统a,b,c;
- 集群:多台机器,每台机器部署相同组件。比如多台机器都部署a,提高a系统的性能;
四、分布式系统需要具备的技术
1、负载均衡
- 将负载(工作任务)进行平衡、分摊到多个操作单元上进行运行
- 单个无法处理所有任务,多个一起处理
- 更侧重于集群的概念,因为多个操作单元上都是干的同一个事情,只是被分成了多份
2、故障转移
- 当活动的服务或者应用意外终止时,快速启用备份的服务器、系统、硬件或者网络接替他们的工作
- 故障转移系统也称之为容错系统,所谓容错指的是可以容忍错误的发生
- 故障转移的核心是设置备份,出现故障时,主备切换
- 主备切换的前提是数据状态保持一致
- 故障转移极大的降低了单点故障造成的影响,基本在没被察觉到的时候,就完成了主备切换
- 保证了业务的连续
3、伸缩性
- 伸缩性也叫弹性,可扩展性
- 指系统可以根据需求动态的扩容、缩容
- 比如双十一业务高峰期间,增加服务器;业务低峰期,减少服务器
五、Hadoop特性优点
- 扩容能力:Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可以方便的扩展到数以千计的节点中;
- 成本低:Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据,所以成本很低;
- 效率高:通过并发数据,Hadoop可以在节点间动态并行的移动数据,速度非常快;
- 可靠性:能自动维护多份备份,并且任务失败后会自动重新部署(redeploy)计算任务;
六、Hadoop发行版本
- 开源社区版:apache官方版本,优点:更新迭代快;缺点:兼容稳定性不佳
- 商业公司发行版:商业公司发行,某些服务需要收费,优点:兼容稳定性好;缺点:收费,版本更新慢
六、Hadoop架构变迁
1、Hadoop 1.0
- HDFS(分布式文件存储)
- MapReduce(资源管理和分布式数据处理)
2、Hadoop 2.0
- HDFS(分布式文件存储)
- YARN(集群资源管理、任务调度),并且支持其他计算引擎,不再局限于MapReduce
- MapReduce(分布式数据处理)
3、Hadoop 3.0
相较于2.0,架构组件类似,着重于性能优化
- 通用
精简内核、类路径隔离、shell脚本重构 - Hadoop HDFS
EC纠删码、多NameNode支持 - Hadoop MapReduce
任务本地化优化、内存参数自动推断 - Hadoop YARN
Timeline Service V2、队列配置