大数据开发

大数据开发

大数据开发

从零入门大数据

等 6 人订阅共60篇文章创建于2022-08-29

大数据开发Kafka相关技巧（第四十篇）

一、JVM参数调优登录服务器，使用jps查看kafka的进程id 使用jstat查看GC信息 YGC：年轻代GC发生的次数 YGCT：年轻代GC的消耗的时间修改kafka-server-start

3年前
133
点赞
评论

大数据开发Kafka高级特性（第三十九篇）

一、Broker扩展 https://kafka.apache.org/documentation/#brokerconfigs 配置文件：server.properties Log Flush Po

3年前
140
点赞
评论

大数据开发Kafka入门（第三十八篇）

#### 一、什么是消息队列 0. 消息队列（Message Queue）简称MQ 0. 顾名思义，消息+队列，保存消息的队列 0. 主要提供生成、消费接口供外部调用做数据的存储和读取 ##### 1

3年前
142
点赞
评论

大数据开发SparkSQL集成Hive（第三十七篇）

一、相关概念 SparkSQL集成Hive其实就是在SparkSQL中直接操作Hive中的表。在SparkSQL中操作Hive表，底层走的就不是MapReduce引擎了，而是Spark引擎，Spark

3年前
310
点赞
评论

大数据开发快速上手SparkSQL（第三十六篇）

一、Spark SQL Spark SQL是Spark的一个模块，主要用于进行结构化数据的处理，它提供的最核心的编程抽象，就是DataFrame DataFrame=RDD+Schema，它其实和关系

3年前
215
点赞
评论

大数据开发Spark性能优化之算子优化（第三十五篇）

1.1、map与mapPartitions map：一次处理一条数据 mapPartitions：一次处理一个分区的数据 mapPartitions 创建数据库链接，使用mapPartitions，放

3年前
125
点赞
评论

大数据开发Spark程序性能优化（第三十四篇）

携手创作，共同成长！这是我参与「掘金日新计划 · 12 月更文挑战」的第11天，点击查看活动详情一、性能优化分析一个计算任务的执行主要依赖于CPU、内存、带宽实际工作中计算任务的性能瓶颈一般会出

3年前
312
点赞
评论

大数据开发Spark高级特性（第三十三篇）

携手创作，共同成长！这是我参与「掘金日新计划 · 12 月更文挑战」的第10天，点击查看活动详情一、宽依赖和窄依赖窄依赖（Norrow Dependency）指父RDD的每个分区只被子RDD的一个

3年前
203
点赞
评论

大数据开发Spark之RDD持久化（第三十二篇）

携手创作，共同成长！这是我参与「掘金日新计划 · 12 月更文挑战」的第9天，点击查看活动详情一、RDD持久化实战 scala代码 java 二、共享变量的工作原理默认情况下，一个算子函数中使用到

3年前
159
点赞
评论

大数据开发Spark的Transformation与Action开发实战（第三十一篇）

携手创作，共同成长！这是我参与「掘金日新计划 · 12 月更文挑战」的第8天，点击查看活动详情一、创建RDD的三种方式 RDD是Spark编程的核心，在进行Spark编程时，首要任务是创建一个初识的

3年前
181
点赞
评论

大数据开发Spark实战（第三十篇）

携手创作，共同成长！这是我参与「掘金日新计划 · 12 月更文挑战」的第7天，点击查看活动详情一、WordCount程序读取文件中的所有内容，计算每个单词出现的次数 1.1、创建Scala项目创

3年前
332
点赞
评论

大数据开发初识Spark（第二十九篇）

一、什么是Spark Spark是一个用于大规模数据处理的统一计算引擎 Spark中一个最重要的特征就是基于内存进行计算，从而让它的速度可以达到MapReduce的几十倍甚至上百倍 1.1、Spark

3年前
259
点赞
评论

大数据开发Scala函数式编程（第二十八篇）

一、什么是函数式编程 Scala是一门既面向对象，又面向过程的语言在Scala中，函数与类、对象一样，都是一等公民。Java中，函数不能脱离类存在的 Scala中的函数是一等公民，可以独立定义，独立

3年前
1.1k
点赞
评论

大数据开发Scala面向对象（第二十七篇）

一、类（class） 1.1、class定义 Scala中定义和Java一样，都是使用class关键字和Java一样，使用new关键字创建对象 1.2、构造函数constructor Scala的主

3年前
183
点赞
评论

大数据开发初识Scala（第二十六篇）

一、什么是Scala Scala是一门多范式编程语言，一种类似Java编程语言 Scala基于Java虚拟机，也就是基于JVM的一门编程语言 Scala和Java可以无缝相互操作，Scala可以任意调

3年前
262
点赞
评论

大数据开发HBase架构原理（第二十五篇）

一、Region概念 Region可以翻译为区域，在HBase里面，一个表中的数据，会按照行被横向划分为多个Region。每个Region，是按照存储的RowKey的最小行键和最大行键指定的，使用区

3年前
236
点赞
评论

大数据开发HBase Java Api操作（第二十四篇）

一、HBase的增删改查操作命令解释 put 添加数据、修改数据 get 查看数据 count 查看表中数据总条数 scan 扫描表中的数据 delete/deleteall 删除数据 1.1、添

3年前
543
点赞
评论

大数据开发HBase初体验（第二十三篇）

一、HBase介绍 HBase是一个开源的NoSQL数据库，参考的Google的Big Table建模，用Java语言实现的，运行于HDFS文件系统上，为Hadoop提供类似的BigTable的服务。

3年前
429
点赞
评论

大数据开发Hive数据存储格式（第二十二篇）

hive没有专门的数据存储格式，默认keyi直接加载文本文件TextFile，还支持SequenceFile、RCFile等。https://cwiki.apache.org/confluence/d

3年前
213
点赞
评论

大数据开发Hive数据压缩格式（第二十一篇）

一、常见的数据压缩格式前面的hive默认使用的TextFile格式的数据，这种格式的数据，在存储层面占用的空间比较大，影响存储能力，也影响计算效率，所以为了提高Hive中数据的存储能力，及计算性能。

3年前
158
点赞
评论