首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Coderlxl
掘友等级
大数据架构
博观约取,厚积薄发
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
DistCp 性能优化
3.修改 distcp 源码,在指定 -direct 参数情况下,不需要删除 .distcp.tmp. 文件(HADOOP-16872) 针对,优化策略中的第 3 点进行详细分析。 通过分析 distcp 相关代码,发现是卡在了删除临时文件的逻辑上。该逻辑中的 targetFS…
Hive CBO 导致 hang 住
Hive SQL 卡很久后,才提交到 Yarn。日志如下:可以看到卡住了4个多小时候,才开始 Compiling 2.jstack 查看 提交任务的 进程,发现 Hive Client 端异步提交完后,就 wait 结果了。排除 client 端原因 4.查看 HiveServ…
排查-文件热读 DN 问题
1.业务 job 反馈延迟,去 yarn web 页面查看 job 详情,找到慢 task 机器,查看主机监控,发现有些机器的出吞吐量被打高。 2.因为机器上混跑,job 较多,也未发现某个出 ip 的流量巨大的情况,流量相对比较分散. 3.从 YARN 上摘掉其中一个有问题的…
排查 - 大量慢 rpc 导致 NN 性能下降问题
2.登陆机器,定位流出到某个机器的流量最大。 5.找到相应业务,由于上线速度慢。先回收掉目录权限,让请求快速失败。再次观察指标,迅速下降 6.分析业务代码,发现是调用的 python 库,做大量的上传日志操作,upload 方法会检测目标路径的状态。 7.协助业务,重新规划 H…
Hive 修改 partition 逻辑分析
由于传递 hive 分区数据到 cos,传递完数据后,需要修改 hive 表分区的 location。此时,有个问题需要考虑,hive 分区字段的类型,支持很多种,是不是一定得 严格按照 分区字段的实际类型,去写 修改 hive 分区 location 的 alter 语句呢?…
Hive SQL 访问 COS 比 HDFS 慢
经过对比,发现 COS job 的 mapper 数非常少。 1.如果数据在 HDFS 上面,那么 node 就是文件所有 blks 在的 datanodes,因此,node 会比较多,nodeToBlocks 保存的是 dn -> blks, 相当于对 blks 做了打散。 …
Flink SqlClient 解析 Cos Response 失败
使用 flink sqlclient 查询 cos 数据,显示 s3 接口解析 response 报错,查询 hdfs 是正常的。 1.首先,远程 debug flink,但是发现涉及到多个 flink 模块,里面的 jar 包版本冲突较为验证,很难在报错的位置, 断点到对应的…
DistCp to Cos 参数失效问题
使用 distcp -update 参数同步 hdfs 数据到 cos,发现重复执行的时候,发生的是 overwrite 行为,不是 skip 行为,这点和 hdfs 上的行为不一致。 查看 blockFactory 的具体实现类, blockSize 参数实际控制的是 buf…
HDFS Decommission 实践
一. 代码流程 主要是调用 isReplicationInProgress 对 DN 上的「所有 blk」的副本进行状态(坏块/下线/冗余/LIVE ...)统计。 5.上一步说了,需要复制的 blk 会放入 neededReplications,内部维护了 List<…
FastCopy 踩坑
FastCopy 是 Hadoop 的一个 patch,目的是加速 Federation 数据的迁移速度。采用了 hardLink 的方式实现,相比 distcp,几乎不需要做 数据拷贝和搬移。 <4> 创建 BlockCopyRPC 提交到线程池执行。线程内部调用 …
下一页
个人成就
文章被阅读
5,298
掘力值
92
关注了
0
关注者
1
收藏集
0
关注标签
1
加入于
2021-03-01