首页
AI Coding
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大数据开发
落叶飞逝的恋
创建于2022-08-29
订阅专栏
从零入门大数据
等 6 人订阅
共60篇文章
创建于2022-08-29
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据开发Kafka相关技巧(第四十篇)
一、JVM参数调优 登录服务器,使用jps查看kafka的进程id 使用jstat查看GC信息 YGC:年轻代GC发生的次数 YGCT:年轻代GC的消耗的时间 修改kafka-server-start
大数据开发Kafka高级特性(第三十九篇)
一、Broker扩展 https://kafka.apache.org/documentation/#brokerconfigs 配置文件:server.properties Log Flush Po
大数据开发Kafka入门(第三十八篇)
#### 一、什么是消息队列 0. 消息队列(Message Queue)简称MQ 0. 顾名思义,消息+队列,保存消息的队列 0. 主要提供生成、消费接口供外部调用做数据的存储和读取 ##### 1
大数据开发SparkSQL集成Hive(第三十七篇)
一、相关概念 SparkSQL集成Hive其实就是在SparkSQL中直接操作Hive中的表。在SparkSQL中操作Hive表,底层走的就不是MapReduce引擎了,而是Spark引擎,Spark
大数据开发快速上手SparkSQL(第三十六篇)
一、Spark SQL Spark SQL是Spark的一个模块,主要用于进行结构化数据的处理,它提供的最核心的编程抽象,就是DataFrame DataFrame=RDD+Schema,它其实和关系
大数据开发Spark性能优化之算子优化(第三十五篇)
1.1、map与mapPartitions map:一次处理一条数据 mapPartitions:一次处理一个分区的数据 mapPartitions 创建数据库链接,使用mapPartitions,放
大数据开发Spark程序性能优化(第三十四篇)
携手创作,共同成长!这是我参与「掘金日新计划 · 12 月更文挑战」的第11天,点击查看活动详情 一、性能优化分析 一个计算任务的执行主要依赖于CPU、内存、带宽 实际工作中计算任务的性能瓶颈一般会出
大数据开发Spark高级特性(第三十三篇)
携手创作,共同成长!这是我参与「掘金日新计划 · 12 月更文挑战」的第10天,点击查看活动详情 一、宽依赖和窄依赖 窄依赖(Norrow Dependency)指父RDD的每个分区只被子RDD的一个
大数据开发Spark之RDD持久化(第三十二篇)
携手创作,共同成长!这是我参与「掘金日新计划 · 12 月更文挑战」的第9天,点击查看活动详情 一、RDD持久化实战 scala代码 java 二、共享变量的工作原理 默认情况下,一个算子函数中使用到
大数据开发Spark的Transformation与Action开发实战(第三十一篇)
携手创作,共同成长!这是我参与「掘金日新计划 · 12 月更文挑战」的第8天,点击查看活动详情 一、创建RDD的三种方式 RDD是Spark编程的核心,在进行Spark编程时,首要任务是创建一个初识的
大数据开发Spark实战(第三十篇)
携手创作,共同成长!这是我参与「掘金日新计划 · 12 月更文挑战」的第7天,点击查看活动详情 一、WordCount程序 读取文件中的所有内容,计算每个单词出现的次数 1.1、创建Scala项目 创
大数据开发初识Spark(第二十九篇)
一、什么是Spark Spark是一个用于大规模数据处理的统一计算引擎 Spark中一个最重要的特征就是基于内存进行计算,从而让它的速度可以达到MapReduce的几十倍甚至上百倍 1.1、Spark
大数据开发Scala函数式编程(第二十八篇)
一、什么是函数式编程 Scala是一门既面向对象,又面向过程的语言 在Scala中,函数与类、对象一样,都是一等公民。Java中,函数不能脱离类存在的 Scala中的函数是一等公民,可以独立定义,独立
大数据开发Scala面向对象(第二十七篇)
一、类(class) 1.1、class定义 Scala中定义和Java一样,都是使用class关键字 和Java一样,使用new关键字创建对象 1.2、构造函数constructor Scala的主
大数据开发初识Scala(第二十六篇)
一、什么是Scala Scala是一门多范式编程语言,一种类似Java编程语言 Scala基于Java虚拟机,也就是基于JVM的一门编程语言 Scala和Java可以无缝相互操作,Scala可以任意调
大数据开发HBase架构原理(第二十五篇)
一、Region概念 Region可以翻译为区域,在HBase里面,一个表中的数据,会按照行被横向划分为多个Region。 每个Region,是按照存储的RowKey的最小行键和最大行键指定的,使用区
大数据开发HBase Java Api操作(第二十四篇)
一、HBase的增删改查操作 命令 解释 put 添加数据、修改数据 get 查看数据 count 查看表中数据总条数 scan 扫描表中的数据 delete/deleteall 删除数据 1.1、添
大数据开发HBase初体验(第二十三篇)
一、HBase介绍 HBase是一个开源的NoSQL数据库,参考的Google的Big Table建模,用Java语言实现的,运行于HDFS文件系统上,为Hadoop提供类似的BigTable的服务。
大数据开发Hive数据存储格式(第二十二篇)
hive没有专门的数据存储格式,默认keyi直接加载文本文件TextFile,还支持SequenceFile、RCFile等。https://cwiki.apache.org/confluence/d
大数据开发Hive数据压缩格式(第二十一篇)
一、常见的数据压缩格式 前面的hive默认使用的TextFile格式的数据,这种格式的数据,在存储层面占用的空间比较大,影响存储能力,也影响计算效率,所以为了提高Hive中数据的存储能力,及计算性能。
下一页