首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
lshua
掘友等级
大数据开发
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
5
文章 4
沸点 1
赞
5
返回
|
搜索文章
最新
热门
SeaTunnel & SeaTunnel Web部署
SeaTunnel & SeaTunnel Web部署 我这边已经配置成功就没有那些不成功的截图了,可以参考一下几点逐步确认: 1. 确认下`$SEATUNNEL_HOME/lib`目录下有没有`d
kudu数据目录切换(新增、删除或调整)
将数据目录配置修改成新的数据目录路径,如果加就添加,减就删除即可,多个目录用英文逗号分隔。切记不要在管理页面执行一次性修改所有节点,不管是cm还是ambri或者公有云的大数据服务
spark shuffle
shuffle即对数据进行重组,并不是spark特有的知识点,之前也写过mapreduce中shuffle的处理流程可以查看:mapreduce之shuffle。不过spark中shuffle的处理更为复杂,但核心也都是数据在一个任务中处理完如何落地,另一个任务如何获取数据进行…
JVM之运行时数据区
JVM是Java Virtual Machine(java虚拟机)的简写,是个概念。java每个版本发布的时候都会发布对应版本的java虚拟机规范The Java® Virtual Machine Specification定义了java虚拟机的各种规范信息: ... 此外要注…
tez-ui部署
在HDP平台3.0版本之后移除了TEZ view组件。但是hive默认跑的引擎就是tez,yarn自带的resourcemanager ui看到的任务日志是applicaion级别的,且看不到执行的sql,日志看起来非常麻烦不好定位问题。部署tez-ui的话可以看到sql,ti…
clickhouse优化(持续更新...)
clickhouse中有非常多的表引擎,用得最多的当属*MergeTree表引擎,*MergeTree是clickhouse中最为强大的表引擎(the most robust)。应根据应用场景选择不用的表引擎比如我们临时表用的表引擎为Memory,这里主要谈谈MergeTree…
hive优化
第一次写优化相关的文章,先简单谈谈关于优化看法。首先一点是很多优化设计不管是缓存、索引还是排序等等,其核心的思想就是减少IO。然后在分布式场景下效率还遵循木桶效应,任务是并行执行的,最后执行完的任务决定了整个任务的耗时。所以均衡各个任务节点的任务是在分布式场景下的重要优化思路。…
mapreduce之shuffle
shuffle是mapreduce任务中耗时比较大的一个过程,面试中也经常问。简单来说shuffle就是map之后,reduce之前的所有操作的过程,包含map task端对数据的分区、排序,溢写磁盘和合并操作,以及reduce task端从网络拉取数据、对数据排序合并等一系列…
clickhouse集群
首先,根据我目前查看的官方文档和网上大部分的clickhouse集群相关博客来看,clickhouse集群并没有HA的方案,或者说有HA(某个节点挂了集群还可用),但是没有自动故障转移。 clickhouse既没有hdfs那样通过namespaces去根据故障自动切换主节点,也…
无外网情况下配置时间同步
说明在集群相关服务搭建的时候都会要求服务器之间的时间同步,但是一般私有云的服务器是没有外部网络连接的,可通过在一台服务器上搭建ntpd服务(局域网机器,且有外网,就可保证时间通过网络同步),其他服务器
下一页
个人成就
文章被点赞
41
文章被阅读
51,769
掘力值
912
关注了
17
关注者
23
收藏集
5
关注标签
21
加入于
2020-05-06