首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
mayishijie
掘友等级
研发工程师
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
28
文章 28
沸点 0
赞
28
返回
|
搜索文章
赞
文章( 28 )
沸点( 0 )
Hbase原理分析(3)
1. 架构原理 保存实际数据的物理文件,storeFile以HFile的形式存储在hdfs上,每个store会有一个或者多个storeFile(HFile),数据在每个storeFile中都是有序的。 写缓存,由于HFile中的数据要求是有序的,所以数据是先存储在MemStor…
javaSE_collection,泛型
集合:集合是java中提供的一种容器,可以用来存储多个数据。 数组的长度是固定的。集合的长度是可变的。 数组中存储的是同一类型的元素,可以存储基本数据类型值。集合存储的都是对象。而且对象的类型可以不一致。在开发中一般当对象多的时候,使用集合进行存储。 JAVASE提供了满足各种…
javaSE_List、Set、数据结构、Collections
1. 常见数据结构 1. 栈 stack,又称堆栈,它是运算受限的线性表,其限制是仅允许在标的一端进行插入和删除操作,不允许在其 他任何位置进行添加、查找、删除等操作。 栈的入口、出口的都是栈的顶端位置。 压栈:就是存元素。即,把元素存储到栈的顶端位置,栈中已有元素依次向栈底方…
使用Nginx做页面采集, Kafka收集到对应Topic
模拟线上的实时流,比如用户的操作日志,采集到数据后,进行处理,暂时只考虑数据的采集,使用Html+Jquery+Nginx+Ngx_kafka_module+Kafka来实现,其中Ngx_kafka_module 是开源的专门用来对接Nginx和Kafka的一个组件。 1.3 …
sparkSql_数据加载与保存
1. 通用的加载与保存方式 1. 加载数据 注意:加载数据的相关参数需写到上述方法中,如:textFile需传入加载数据的路径,jdbc需传入JDBC相关参数。 json表示文件的格式. 后面的文件具体路径需要用反引号括起来. 2. 保存数据 注意:保存数据的相关参数需写到上述…
spark_键值对RDD数据分区
1. 概述 spark支持Hash分区(当前默认是Hash)和Range分区,以及用户自定义分区。 分区器决定了RDD中分区的个数,RDD中每条数据经过shuffle后进入那个分区和Reduce的个数。 (2)每个RDD的分区ID范围:0~numPartitions-1,决定这…
spark_RDD持久化,检查点、缓存
1. RDD Cache缓存 RDD通过Cache或者Persist方法将前面的计算结果缓存,默认情况下会把数据以序列化的形式缓存在JVM的堆内存中。但是并不是这两个方法被调用时立即缓存,而是触发后面的action时,该RDD将会被缓存在计算节点的内存中,并供后面重用。 实际场…
kafka集群安装和配置
1)解压安装包2)修改解压后的文件名称3)在/opt/module/kafka目录下创建logs文件夹4)修改配置文件5)配置环境变量6)分发安装包7)启动集群8)关闭集群9)kafka群启脚本10)
kafka问题
1. Kafka是如何保障数据不丢失的? kafka如何保障数据不丢失,也就是kafka提供了什么机制或者架构来保障数据的可靠性。 1. 副本机制 kafka的topic可以分为多个副本,该配置可以通过replication.factor实现。 副本类型可以分为领导者副本(le…
spark_创建RDD以及分区,切片规则
1. 创建RDD 1. 从集合中创建RDD 2. 从外部系统数据集创建 本地文件系统,还有所有Hadoop支持的数据集,比如HDFS,HBase等。 3. 从其它RDD创建 主要是通过一个RDD运算完后,再产生新的RDD。 2. 分区规则 1. 默认分区源码(RDD从集合中创建…
下一页
个人成就
文章被点赞
75
文章被阅读
37,727
掘力值
1,443
关注了
8
关注者
8
收藏集
4
关注标签
43
加入于
2021-01-22