大数据 - Slim就是我的收藏集 - 掘金

大数据

更多收藏集

7篇文章 · 0订阅

工业级数仓分层及高并发松耦合大数据平台架构深入剖析-DW商业环境实战

版权声明：本套技术专栏是作者（秦凯新）平时工作的总结和升华，通过从真实商业环境抽取案例进行总结和分享，并给出商业应用的调优建议和集群环境容量规划等内容，请持续关注本套博客。QQ邮箱地址：1120746959@qq.com，如有任何技术交流，可随时联系。屏蔽业务的影响，不必改一…

技术洞察TIC
7年前
2.6k
5
评论

初识MapReduce的应用场景（附JAVA和Python代码）

从这篇文章开始，我会开始系统性地输出在大数据踩坑过程中的积累，后面会涉及到实战项目的具体操作，目前的规划是按照系列来更新，力争做到一个系列在5篇文章之内总结出最核心的干货，如果是涉及到理论方面的文章，会以画图的方式来讲解，如果是涉及到操作方面，会以实际的代码来演示。这篇是Ma…

spacedong
7年前
4.7k
12
评论

工作流调度工具Airflow1.8搭建及使用

最近工作任务需要把原来使用Kettle的ETL流程迁移到Hadoop平台上，就需要找一个替代Kettle工作流部分的工具。在大数据环境下，常用的无非是Oozie，Airflow或者Azkaban。经过简单的评估之后，我们选择了轻量化的Airflow作为我们的工作流工具。 Air…

wait4friend
7年前
6.8k
30
6

聊一聊数据倾斜那些坑

数据倾斜是大数据领域绕不开的拦路虎，当你所需处理的数据量到达了上亿甚至是千亿条的时候，数据倾斜将是横在你面前一道巨大的坎。迈的过去，将会海阔天空！迈不过去，就要做好准备：很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。先大致解释一下什么是数据倾斜再根据几个场景…

木东居士的茶水间
8年前
1.0k
22
评论

Spark 系列：『 Spark 』6. 深入研究 spark 运行原理之 job, stage, task

know more, do better

taotaoli
9年前
2.5k
29
评论

Spark 系列：『 Spark 』6. 深入研究 spark 运行原理之 job, stage, task

Hadoop 学习系列（三）之 YARN 详细解析

Apache Hadoop YARN 是开源 Hadoop 分布式处理框架中的资源管理和作业调度技术。作为 Apache Hadoop 的核心组件之一，YARN 负责将系统资源分配给在 Hadoop 集群中运行的各种应用程序，并调度要在不同集群节点上执行的任务。 YARN 的基…

PeTu9465
7年前
3.4k
7
评论