首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
hadoop
订阅
GKleong
更多收藏集
微信扫码分享
微信
新浪微博
QQ
12篇文章 · 0订阅
漫谈千亿级数据优化实践:数据倾斜(纯干货)
数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。 迈的过去,将会海阔天空!迈不过去,就要做好准备:很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。
在新的一年里,选个关注热度上升的大数据工具学习下吧
本文列举了大数据相关的部分热门项目,盘点了该生态圈目前流行的一些开源产品和工具,并用 google 热度趋势图体现了它们的受关注程度。从不同的热度趋势,可以了解到每一个产品在近 5 年来全球受关注的走势,是越来越受重视还是渐渐淡出。
[译]Hadoop 正在走下坡路
长期以来,Hadoop 这个词铺天盖地,几乎成了大数据的代名词。三年之前,提起超越 Hadoop 这件事,似乎还显得难以想象。但三年后的今天,这一情况发生了一些改变。
初入Hadoop生态系统
说起Hadoop,知道它是一个开源的、可运行于大规模集群上的分布式计算平台,实现了MapReduce计算模型和分布式文件系统HDFS等功能;但对Hadoop整个的生态不够了解,本着爱学习的态度,一块来探探hadoop的生态圈。 日常生活中我们一看到大数据和大数据相关的信息就会想…
浅谈Hbase与中间的一些设计策略
前面的文章初入Hadoop生态系统里面有涉及到Hbase的一些特点和数据模型,这里来着重谈谈Hbase和其中的一些设计策略。 rowKey决定Region(区域),columnFamily(列族)决定HFile,并且由于Hbase的多版本性,不同的HFile也有不同的Times…
一文读懂Apache Flink技术
Flink是一款分布式的计算引擎,它可以用来做批处理,即处理静态的数据集、历史的数据集;也可以用来做流处理,即实时地处理一些实时数据流,实时地产生数据的结果;也可以用来做一些基于事件的应用,比如说滴滴通过Flink CEP实现实时监测用户及司机的行为流来判断用户或司机的行为是否…
吐血推荐珍藏的 Chrome 插件二
了解我的人知道,我一直是 Chrome 的死忠粉,Chrome 那丰富的插件可能是我这么钟爱 Chrome 的原因之一,我在去年的时候写过一篇文章,推荐了一些我常用的 Chrome 插件给大家,很多读者是因为那篇文章从此也爱上了 Chrome,那么时隔一年多的时间,今天再给大家…
淘宝大数据之路
2003 年至今淘宝网从零开始飞速发展,走过了 13 个年头,支撑淘宝业务野蛮式生长背后是一套不断完善的技术平台,淘宝大数据平台,就是其中非常重要的一个组成部分,承担了数据采集、加工处理、数据应用的职责,淘宝大数据平台一路到今天,总共经历了三个大的阶段(如图 1),不同阶段面临了不一样的挑战,随着我的理解回顾下这些年大数据所经历过的故事: 图 1 数据仓库平台发展三个阶段 第一个阶段:RAC 时代 &n
大数据相关开源项目汇总
大数据相关开源项目汇总