大数据作为一个生态体系,不但有各种直接进行大数据处理的平台和框架,比如 HDFS、MapReduce、Spark,还有很多周边的支撑工具,而大数据基准测试工具就是其中一个大类。
大数据基准测试的主要用途是对各种大数据产品进行测试,检验大数据产品在不同硬件平台、不同数据量、不同计算任务下的性能表现。
好的工作不光是对公司有利,对员工也是有利的。工作不是公司在压榨员工的过程,而是公司创造价值,同时员工实现自我价值的过程。
而如何才能创造出好的工作也不只是公司的责任,主要还是要靠员工自己,去发现哪些事情能够让自己、公司、社会都获益,然后去推动这些事情的落实,虽然有的时候推动比发现更困难。同时拥有发现和推动能力的人,毫无例外都是一些出类拔萃的人,
HiBench 使用非常简单,只需要三步:1. 配置,配置要测试的数据量、大数据运行环境和路径信息等基本参数。2. 初始化数据,生成准备要计算的数据,比如要测试 1TB 数据的排序,那么就生成 1TB 数据。3. 执行测试,运行对应的大数据计算程序。具体初始化和执行命令也非常简单,比如要生成数据,只需要运行 bin 目录下对应 workload 的 prepare.sh 就可以自动生成配置大小的数据。
Impala VS Hive 的基准测试报告里,发现当数量很大的时候做 join 查询,Impala 会失去响应,是因为 Impala 比 Hive 更消耗内存,当内存不足时,就会失去响应。
spark的内存策略更多样当内存不足时会使用磁盘,所以容错能力更强。
此文章为11月Day04学习笔记,内容来源于极客时间《从0开始学习大数据》,强烈推荐该课程