mayishijie

研发工程师

赞

28

|

搜索文章

赞

文章( 28 ) 沸点( 0 )

Hbase原理分析（3）

1. 架构原理保存实际数据的物理文件，storeFile以HFile的形式存储在hdfs上，每个store会有一个或者多个storeFile（HFile），数据在每个storeFile中都是有序的。写缓存，由于HFile中的数据要求是有序的，所以数据是先存储在MemStor…

mayishijie
4年前
355
3
评论

javaSE_collection，泛型

集合：集合是java中提供的一种容器，可以用来存储多个数据。数组的长度是固定的。集合的长度是可变的。数组中存储的是同一类型的元素，可以存储基本数据类型值。集合存储的都是对象。而且对象的类型可以不一致。在开发中一般当对象多的时候，使用集合进行存储。 JAVASE提供了满足各种…

mayishijie
4年前
135
2
评论

javaSE_List、Set、数据结构、Collections

1. 常见数据结构 1. 栈 stack,又称堆栈，它是运算受限的线性表，其限制是仅允许在标的一端进行插入和删除操作，不允许在其他任何位置进行添加、查找、删除等操作。栈的入口、出口的都是栈的顶端位置。压栈：就是存元素。即，把元素存储到栈的顶端位置，栈中已有元素依次向栈底方…

mayishijie
4年前
144
3
评论

使用Nginx做页面采集, Kafka收集到对应Topic

模拟线上的实时流，比如用户的操作日志，采集到数据后，进行处理，暂时只考虑数据的采集，使用Html+Jquery+Nginx+Ngx_kafka_module+Kafka来实现，其中Ngx_kafka_module 是开源的专门用来对接Nginx和Kafka的一个组件。 1.3 …

Hoult丶吴邪
4年前
1.2k
2
3

sparkSql_数据加载与保存

1. 通用的加载与保存方式 1. 加载数据注意：加载数据的相关参数需写到上述方法中，如：textFile需传入加载数据的路径，jdbc需传入JDBC相关参数。 json表示文件的格式. 后面的文件具体路径需要用反引号括起来. 2. 保存数据注意：保存数据的相关参数需写到上述…

mayishijie
4年前
1.2k
3
评论

spark_键值对RDD数据分区

1. 概述 spark支持Hash分区(当前默认是Hash)和Range分区，以及用户自定义分区。分区器决定了RDD中分区的个数，RDD中每条数据经过shuffle后进入那个分区和Reduce的个数。（2）每个RDD的分区ID范围：0~numPartitions-1，决定这…

mayishijie
4年前
519
2
评论

spark_RDD持久化，检查点、缓存

1. RDD Cache缓存 RDD通过Cache或者Persist方法将前面的计算结果缓存，默认情况下会把数据以序列化的形式缓存在JVM的堆内存中。但是并不是这两个方法被调用时立即缓存，而是触发后面的action时，该RDD将会被缓存在计算节点的内存中，并供后面重用。实际场…

mayishijie
4年前
416
3
2

kafka集群安装和配置

1）解压安装包2）修改解压后的文件名称3）在/opt/module/kafka目录下创建logs文件夹4）修改配置文件5）配置环境变量6）分发安装包7）启动集群8）关闭集群9)kafka群启脚本10)

mayishijie
4年前
329
2
评论

1. Kafka是如何保障数据不丢失的？ kafka如何保障数据不丢失，也就是kafka提供了什么机制或者架构来保障数据的可靠性。 1. 副本机制 kafka的topic可以分为多个副本，该配置可以通过replication.factor实现。副本类型可以分为领导者副本（le…

mayishijie
4年前
1.7k
3
评论

spark_创建RDD以及分区，切片规则

1. 创建RDD 1. 从集合中创建RDD 2. 从外部系统数据集创建本地文件系统，还有所有Hadoop支持的数据集，比如HDFS,HBase等。 3. 从其它RDD创建主要是通过一个RDD运算完后，再产生新的RDD。 2. 分区规则 1. 默认分区源码（RDD从集合中创建…

mayishijie
4年前
1.5k
3
评论

个人成就

文章被点赞 75

文章被阅读 37,727

掘力值 1,443

加入于

2021-01-22