稀土掘金 稀土掘金
    • 首页
    • 沸点
    • 课程
    • 数据标注 HOT
    • AI Coding
    • 更多
      • 直播
      • 活动
      • APP
      • 插件
    • 直播
    • 活动
    • APP
    • 插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
驰的个人资料头像

驰

掘友等级
掘友1级:预备掘友
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
2
文章 2 沸点 0
赞
2
返回
|
搜索文章
赞
文章( 2 ) 沸点( 0 )
  • Spark读hive text表之非shuffle方式增大并行度
    正常情况下,一个spark task要处理一个partition即128M的数据,因处理过程较耗时而成为任务瓶颈。 大的方向是进行任务拆分,增大并行度。 结论:测试发现,虽然增大了业务处理的并行度,但shuffle操作的开销比较大,因此整体的耗时没有明显减少。 用以实现spar…
    • 源码那些事儿
    • 6年前
    • 2.4k
    • 2
    • 评论
    Spark
  • Spark local模式连接集群hdfs、hive
    Spark提供了local、standalone、on yarn等多种运行模式,但为了保持开发环境与实际运行环境的一致性,通常都是在本地编写代码,然后编译并上传jar包到Spark集群调试运行。 但是面对复杂的处理逻辑,或遇到性能问题要修改代码时,开发人员将不得不多次进行修改、…
    • 源码那些事儿
    • 6年前
    • 3.7k
    • 4
    • 5
    Spark
  • 关注了
    1
    关注者
    0
    收藏集
    0
    关注标签
    0
    加入于
    2019-05-14