获得徽章 1
- 8月5日打卡,今日学习《带你入坑大数据(一) --- HDFS基础概念篇》:本文首先介绍了HDFS的主要概念,包括Hadoop架构、核心概念block、接着介绍了HDFS的三大组件NameNode、metaData、SecondaryNameNode,最后介绍了HDFS的心跳机制评论点赞
- 8月4日打卡,今日学习《字节跳动10万节点HDFS集群多机房架构演进之路》:本文首先介绍了Apache 社区的 HDFS架构和字节跳动版的 HDFS结构,然后介绍了双机房架构的数据放置,容灾设计,旁路系统,引出了多机房的设计方案。评论点赞
- 8月3日打卡,今日学习《Spark的Shuffle总结分析》:本文首先介绍了shuffle的概念:对数据进行重组。 接着以Spark为例介绍了shuffle的具体实现:包含Hash Shuffle 和 Sort Shuffle 两种,并详细说明了将会使用到的参数评论点赞
- 8月1日打卡,今日学习《SparkSQL 在企业级数仓建设的优势》:本文介绍了企业级数仓构建需求,企业级数仓技术选择思考的维度,企业级数仓技术大多选择Hive的原因及Hive的主要局限,突出了当下Spark SQL比Hive更突出的优势,接下来介绍SparkSQL如何支撑企业级数仓,字节跳动 EMR 产品在 Spark SQL 的优化实践,推荐企业在考虑数据仓库构建体系使用Spark SQL。展开评论点赞
- 7月31日打卡,今日学习《DolphinDB节点启动时的流计算自动订阅教程》:本教程主要根据一个金融交易实时 Level2 的股票快照数据流计算案例,结合业务逻辑处理代码详细讲述了节点启动时的流计算自动订阅部署步骤,以及在开发部署过程中的常用调试手段。评论点赞
- 7月30日打卡,今日学习《大数据Hadoop之——实时计算流计算引擎Flink(Flink环境部署)》:本文介绍Flink工作原理,Flink核心概念,并对比了常用的实时计算框架Strom、Spark streaming、Flink的特点,展示了Flink的高吞吐量、低延时、轻量级容错的优势,接着介绍了Flink的环境部署,分别介绍了Local(单机模式)、Standalone(独立集群模式)、On Yarn模式,最后对比Spark与Flink。展开赞过评论1
- 7月29日打卡,今日学习《基于Flink和规则引擎的实时风控解决方案》:本文就介绍一种实时风控解决方案。讨论了风控系统和分析系统,其中风控系统为业务系统提供支持,根据业务系统传来的数据或埋点信息来判断当前用户或事件有无风险,分析系统衡量系统的整体效果,为系统提供规则/逻辑升级的依据。评论点赞
- 7月28日打卡,今日学习《你需要的不是实时数仓 | 你需要的是一款强大的OLAP数据库(下)》:本文选取了几个最常用的OLAP(联机分析处理)开源数据引擎:Hive、Hawq、Spark SQL、Presto、Kylin、Impala、Druid、Greeplum、ClickHouse进行分析,通过分析发现还没有一个OLAP系统能够满足各种场景的查询需求,其本质原因是,没有一个系统能同时在数据量、性能、和灵活性三个方面做到完美。每个系统在设计时都需要在这三者间做出取舍。展开评论点赞
- 7月27日打卡,今日学习《火山引擎 A/B 测试的思考与实践》:本文整理自火山引擎开发者社区 Meetup 第四期同名演讲,主要为大家介绍了为什么要做 A/B 测试(A/B 测试可以帮助业务做最终决策)火山引擎 A/B 测试系统架构及最佳实践。评论点赞