获得徽章 9
- 7月26日打卡,今日学习了《基于代价的慢查询优化建议》。sql执行的越慢,消耗的cpu或io资源越多,容易引发业务故障,所以需要关注如何优化慢查询。直接有效的方法是选择一个效率高的索引,但基于代价的推荐这种方法更为普适。当读者遇到一些复杂的sql,可以通过添加多个候选索引,使用基于代价的推荐选择最合适的索引,优化慢查询。评论2
- 7月27日打卡,今日学习了《Flink实时引擎项目实战》。Flink是流式处理平台,能够妙计出数据结果,并且有更加明确的语义说明输入输出,对数据处理进行了抽象,能够更加方便且高效去处理数据。本文主要讲解了作者如何在austin应用了流式处理平台,如何安装,访问,构建,可以通过部署体验学习。评论2
- 7月28日打卡,今日学习了《大数据Hadoop之——实时计算流计算引擎Flink(Flink环境部署)》。通过此文了解了Flink是流执行引擎,支持流处理和批处理,Flink的工作原理,核心概念,以及如何进行环境部署。Flink对比其他的实时计算框架是有低延时高吞吐率的,,他的容错机制比较轻量,所以对吞吐量影响较小,并且拥有图和调度上的一些优化。评论2
- 7月29日打卡,今日学习《分布式第一弹:分布式一致性》,通过这篇文章的学习,主要了解了一些数据库的基础理论,ACID,还有CAP理论,BASE理论,以及分布式一致性协议,并了解到了新的三段提交协议,以及最终一致性模式,为学习分布式打了一些基础。评论2
- 7月30日打卡,今日学习《SparkSQL在企业级数仓建设的优势》。Hive 作为数据仓库的构建基础是一个非常好的选择,它稳定,低门槛,生态丰富,扩展方便,安全,集成成本低。但仍然有一些局限性,他的性能不如同类计算框架Spark,资源配置需要很高,并发受限,事务成本高,部署成本也容易高,所以企业选择Spark更为合适。评论2
- 8月1日打卡,今日学习了《你需要的不是实时数仓|你需要的是一款强大的OLAP数据库》。
在实时数仓建设中,解决方案成熟,消息队列Kafka、Redis、Hbase已经非常成熟,而OLAP的选择则制约整个实时数仓的能力。此文介绍了几个最常用的OLAP开源数据引擎。目前市面上主流的开源OLAP引擎包含不限于:Hive、Hawq、Presto、Kylin、Impala、Sparksql、Druid、Clickhouse、Greeplum等。通过此文,我们可以了解这几个引擎的优劣势,进行综合选择。展开评论2 - 7月31日打卡,今日学习了《Spark的Shuffle总结分析》。Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂。本文介绍了两类hash Shuffle和Sort Shuffle,把shuffle的机制原理介绍的非常详细,推荐学习。12