首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
二十六画生的博客
掘友等级
大数据研发工程师
|
某头部大厂
技术、旅行、低调
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
47
文章 47
沸点 0
赞
47
返回
|
搜索文章
二十六画生的博客
大数据研发工程师 @某头部大厂
·
3年前
关注
Leetcode 22. Generate Parentheses - 生成指定数量的有效圆括号,比如输入2,输出()()、(())
Leetcode 22. Generate Parentheses - 生成指定数量的有效圆括号,比如输入2,输出()()、(())...
1
评论
分享
二十六画生的博客
大数据研发工程师 @某头部大厂
·
4年前
关注
关于maven依赖中的<scope>provided</scope>使用
今天开发web的时候,需要用到servlet-api,于是在pom.xml中添加依赖 通过插件启动tomcat的时候,报错,里面有一段是这样的: 产生的原因是:tomcat...
4
评论
分享
二十六画生的博客
大数据研发工程师 @某头部大厂
·
4年前
关注
Spark 解决倾斜
1 提前过滤异常值 2 增大shuffle并行度 3 两阶段聚合(局部聚合+全局聚合)【仅仅适用于聚合类的shuffle操作,适用范围相对较窄】 4 异常值 join .....
2
评论
分享
二十六画生的博客
大数据研发工程师 @某头部大厂
·
4年前
关注
Mysql表到多大数据量才开始分库分表?垂直切分/水平切分
关系型数据库本身比较容易成为系统瓶颈,单机存储容量、连接数、处理能力都有限。当单表的数据量达到 1000W 或 100G 以后,由于查询维度较多,即使添加从库、优化索引,做...
3
评论
分享
二十六画生的博客
大数据研发工程师 @某头部大厂
·
4年前
关注
Java cas 与 synchronized 的区别
1、对于资源竞争较少的情况:性能cas>synchronized,使用synchronized同步锁进行线程阻塞和唤醒切换以及用户态内核态间的切换操作额外浪费消耗cpu资源...
2
评论
分享
二十六画生的博客
大数据研发工程师 @某头部大厂
·
4年前
关注
Flink Event Time / Processing Time / Ingestion Time (事件时间/处理时间/摄取时间)
概念 Flink supports different notions of time in streaming programs. flink支持不同的 time 流媒体...
2
评论
分享
二十六画生的博客
大数据研发工程师 @某头部大厂
·
4年前
关注
Spark distinct去重原理 (distinct会导致shuffle)
distinct算子原理: 含有reduceByKey则会有shuffle 贴上spark源码: 示例代码: end...
3
评论
分享
二十六画生的博客
大数据研发工程师 @某头部大厂
·
4年前
关注
Java 根据CPU核心数确定线程池并发线程数
一、抛出问题 关于如何计算并发线程数,一般分两派,来自两本书,且都是好书,到底哪个是对的?问题追踪后,整理如下: 第一派:《Java Concurrency in Prac...
5
评论
分享
二十六画生的博客
大数据研发工程师 @某头部大厂
·
4年前
关注
Flink On Yarn 架构/Job启动流程/部署模式
Flink On Yarn 架构 主要启动流程 1. 启动进程 首先我们通过下面的命令行启动flink on yarn的集群 bin/yarn-session.sh -n ...
3
评论
分享
二十六画生的博客
大数据研发工程师 @某头部大厂
·
4年前
关注
Kafka 消息队列如何保证顺序性?
主要思路:相同key值的消息写入同一个partition(partition内的消息是有序的),一个partition的消息只会被一个消费者消费。 如果一个消费者是多个线程...
13
1
分享
二十六画生的博客
大数据研发工程师 @某头部大厂
·
4年前
关注
Kafka中的ISR、AR又代表什么?ISR的伸缩又指什么?/unclean.leader.election
SR and AR 简单来说,分区中的所有副本统称为 AR (Assigned Replicas)。所有与leader副本保持一定程度同步的副本(包括leader副本在内)...
2
评论
分享
二十六画生的博客
大数据研发工程师 @某头部大厂
·
4年前
关注
Kafka中的选举有多少?
面试官在考查你Kafka知识的时候很可能会故弄玄虚的问你一下:Kafka中的选举时怎么回事?除非问你具体的哪种选举,否则问这种问题的面试官多半也是对Kafka一知半解,这个...
2
评论
分享
二十六画生的博客
大数据研发工程师 @某头部大厂
·
4年前
关注
Hive:行式存储和列式存储的比较
行式存储: 优点:数据被保存在一起了,insert和update更加容易 缺点:选择(selection)时即时只涉及某几列,所有数据也都会被读取 列式存储: 优点:查询时...
2
评论
分享
二十六画生的博客
大数据研发工程师 @某头部大厂
·
4年前
关注
Hive 常用的存储格式/压缩格式/创建lzo索引
常用的存储格式 1.Textfile Hive数据表的默认格式,数据不做压缩,磁盘开销大,数据解析开销大。存储方式:行存储。 可以使用Gzip压缩算法,但压缩后的文件不支持...
1
评论
分享
二十六画生的博客
大数据研发工程师 @某头部大厂
·
4年前
关注
Redis HyperLogLog 统计UV / 去重统计 /基数统计
Redis 在 2.8.9 版本添加了 HyperLogLog 结构。 Redis HyperLogLog 是用来做基数统计的算法,HyperLogLog 的优点是,在输入...
1
评论
分享
二十六画生的博客
大数据研发工程师 @某头部大厂
·
4年前
关注
Spark:常用transformation 转换操作 及action 行动操作
一、常用transformation介绍 操作 介绍 map 将RDD中的每个元素传入自定义函数,获取一个新的元素,然后用新的元素组成新的RDD filter 对RDD中每...
1
评论
分享
二十六画生的博客
大数据研发工程师 @某头部大厂
·
4年前
关注
HDFS块大小为何是128MB ? block.size
块大小取决于dfs.blocksize,2.x默认为128M,1.x默认为64M(128M指的是块的最大大小!每个块最多存储128M的数据,如果当前块存储的数据不满128M...
2
评论
分享
二十六画生的博客
大数据研发工程师 @某头部大厂
·
4年前
关注
Redis为何那么快?/多路I/O复用模型,非阻塞IO
Redis为什么这么快 1、基于内存,绝大部分请求是纯粹的内存操作,非常快速。数据存在内存中,类似于HashMap,HashMap的优势就是查找和操作的时间复杂度都是O(1...
6
1
分享
二十六画生的博客
大数据研发工程师 @某头部大厂
·
4年前
关注
Kafka 设置分区副本数 replication.factor
副本数是1 ,意思是就一个分区,同时也是主分区 副本数是2,意思是有2个分区,1个是主分区,1个是从分区 副本数已把主分区数包含在内。 设置replication.fact...
3
评论
分享
二十六画生的博客
大数据研发工程师 @某头部大厂
·
4年前
关注
kafka是如何保证消息不丢失的?生产端/消费端
前提条件 任何消息组件不丢数据都是在特定场景下一定条件的,kafka要保证消息不丢,有两个核心条件。 第一,必须是已提交的消息,即committed message。kaf...
6
评论
分享
下一页
个人成就
文章被点赞
105
文章被阅读
59,838
掘力值
1,567
关注了
0
关注者
10
收藏集
0
关注标签
2
加入于
2021-06-18