首页
AI Coding
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
用户5069935943282
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
5
文章 4
沸点 1
赞
5
返回
|
搜索文章
赞
文章( 4 )
沸点( 1 )
埋点实时化改造
酷家乐埋点实时化改造,大大提升时效性以及数仓DAG稳定性。 时效性:从原有T+1提升到20分钟。 稳定性:脱离大单节点困扰,埋点就绪时间从03:00提前到00:30。
MPP大规模并行处理架构详解(满满干货,需细嚼慢咽)
面试官:说下你知道的MPP架构的计算引擎? 这个问题不少小伙伴在面试时都遇到过,因为对MPP这个概念了解较少,不少人都卡壳了,但是我们常用的大数据计算引擎有很多都是MPP架构的,像我们熟悉的Impal
如何在Hive/SparkSQL处理引擎下使用BloomFilter
前言 BloomFilter,布隆过滤器,作为一个成熟的算法、数据结构和优化手段,已经在多个MPP数据库下有实现,可以直接被调用,比如在Doris可以作为指标列类型的一种——bitmap, 支持将多行
Hive:select count(distinct)优化以及hive.groupby.skewindata
好家伙,有一个Reduce Task执行了10个小时,另个一执行了近2小时,其余Reduce Task的执行时间很短。 简而言之:SQL 中的 Group By 字段会决定某条数据最终落在哪一个 Reducer 上处理。 其实 Hive 早就考虑到这个场景,并且贴心的提供了 h…
关注了
12
关注者
1
收藏集
1
关注标签
25
加入于
2021-06-17