大数据基准测试的应用大数据作为一个生态体系，不但有各种直接进行大数据处理的平台和框架，比如 HDFS、MapReduce

大数据作为一个生态体系，不但有各种直接进行大数据处理的平台和框架，比如 HDFS、MapReduce、Spark，还有很多周边的支撑工具，而大数据基准测试工具就是其中一个大类。

大数据基准测试的主要用途是对各种大数据产品进行测试，检验大数据产品在不同硬件平台、不同数据量、不同计算任务下的性能表现。

好的工作不光是对公司有利，对员工也是有利的。工作不是公司在压榨员工的过程，而是公司创造价值，同时员工实现自我价值的过程。

而如何才能创造出好的工作也不只是公司的责任，主要还是要靠员工自己，去发现哪些事情能够让自己、公司、社会都获益，然后去推动这些事情的落实，虽然有的时候推动比发现更困难。同时拥有发现和推动能力的人，毫无例外都是一些出类拔萃的人，

HiBench 使用非常简单，只需要三步：1. 配置，配置要测试的数据量、大数据运行环境和路径信息等基本参数。2. 初始化数据，生成准备要计算的数据，比如要测试 1TB 数据的排序，那么就生成 1TB 数据。3. 执行测试，运行对应的大数据计算程序。具体初始化和执行命令也非常简单，比如要生成数据，只需要运行 bin 目录下对应 workload 的 prepare.sh 就可以自动生成配置大小的数据。

Impala VS Hive 的基准测试报告里，发现当数量很大的时候做 join 查询，Impala 会失去响应，是因为 Impala 比 Hive 更消耗内存，当内存不足时，就会失去响应。

spark的内存策略更多样当内存不足时会使用磁盘，所以容错能力更强。

此文章为11月Day04学习笔记，内容来源于极客时间《从0开始学习大数据》，强烈推荐该课程