稀土掘金 稀土掘金
    • 首页
    • AI Coding NEW
    • 沸点
    • 课程
    • 直播
    • 活动
    • AI刷题
    • APP
      插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
    • vip
      会员
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
0 /100
mr
订阅
avatar
妙言
更多收藏集

微信扫码分享

微信
新浪微博
QQ

3篇文章 · 0订阅
  • Hive 千亿级数据倾斜解决方案
    数据倾斜问题剖析 数据倾斜是分布式系统不可避免的问题,任何分布式系统都有几率发生数据倾斜,但有些小伙伴在平时工作中感知不是很明显。这里要注意本篇文章的标题—“千亿级数据”,为什么说千亿级,因为如果一个
    • 编程学习网
    • 4年前
    • 571
    • 1
    • 评论
    Apache Hive
  • 细品数据倾斜(建议收藏)
    数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。 迈的过去,将会海阔天空!迈不过去,就要做好准备:很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。 话题比较大,技术要求也比较高,笔者尽最大的能…
    • 爱Rap篮球写代码的蔡徐
    • 5年前
    • 4.0k
    • 9
    • 评论
    大数据
  • 再谈Shuffle(Spark&MR)
    Map的输出并不是简单的直接写到磁盘,先写到缓冲区,当缓冲区要spill磁盘的时候对缓冲区内容进行排序。 每个MapTask(计算一个split)都有一个环形缓冲区(默认100MB,这是一个调优点,不过应该再也不写MR了),当缓冲区达到阈值(80%,这也是个可调优的地方),有一…
    • 霍云
    • 5年前
    • 1.3k
    • 1
    • 评论
    Spark