mayishijie

研发工程师

赞

28

|

搜索文章

hadoop之mr开发总结

![image.png](https://p6-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/cc1bdff7a53342fdb36a3643f2056ff3~tplv

4年前
108
点赞
评论

hadoop之OutputFormat

1. OutputFormat接口实现类 1. TextputFormat:文本输出（默认格式） 2. SequenceFileOutputFormat 3. 自定义outputFormat

4年前
321
点赞
评论

hadoop之MapTask，ReduceTask

1. MapTask工作机制 1. mapTask流程图 2. 详解 2. ReduceTask工作机制 1. reduceTask工作流程图 2. 详解过程 3. reduce并行度 4. 注意事项

4年前
222
1
评论

Hadoop之分区,排序以及combiner

1. 自定义分区步骤 2. 在job驱动中，设置自定义partitioner 2. 分区总结 3. WritableComparable排序 4. combiner 5. 自定义combiner

4年前
120
点赞
评论

Hadoop之shuffle

1. shuffle源码 2. shuffle流程图 3. shuffle过程

4年前
165
点赞
评论

Hadoop之调优

1. mr跑的慢的原因 2. mr优化6大方面 1. 数据输入 2. map阶段 3. reduce阶段 4. I/O传输 5. 数据倾斜问题 6. 常用的调优参数 | mapreduce.map.memory.mb | 一个MapTask可使用的资源上限（单位:MB），默认为…

4年前
245
点赞
评论

Hadoop之InputFormat数据输入

1. 切片与MapTask并行度决定机制 1. MapTask并行度决定机制 2. job提交源码以及切片源码关键信息 2. FileInputFormat切片源码解析 3. 切片参数设置 3. CombineTextInputFormat切片机制 4. inputFormat…

4年前
164
点赞
评论

Flink之时间语义与wartermark

1. 时间语义 2. wartermark-水位线 1. 概念与理解 2. watermark的引入 3. 自定义抽取时间戳以上两个接口都继承自TimestampAssigner。 a. 顺序数据流 b. 乱序流

4年前
177
点赞
评论

实现UDF函数，实现更细粒度的控制。 1. 函数类(Function Classes) 2. 匿名函数类(Lambda Functions) 3. 富函数 Rich Function有一个生命周期的概念。典型的生命周期方法有：

4年前
218
点赞
评论

Flink之Transform

1. map 2. flatMap 3. filter 4. keyBy DataStream → KeyedStream：逻辑地将一个流拆分成不相交的分区，每个分区包含具有相同key的元素，在内部以hash的形式实现的。 key相同的元素肯定在一个slot里面。 5. 滚动聚…

4年前
132
点赞
评论

个人成就

文章被点赞 75

文章被阅读 40,667

掘力值 1,449

加入于

2021-01-22