首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
神相
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
25
文章 25
沸点 0
赞
25
返回
|
搜索文章
最新
热门
大数据面试题之Spark(7)
Spark实现wordcount 在Spark中实现Word Count是一个经典的入门级示例,展示了如何处理和统计文本文件中的单词数量。下面分别给出使用Scala、Python(PySpark)和J
大数据面试题之Spark(6)
Spark输出文件的个数,如何合并小文件? 在Apache Spark中,输出文件的个数通常由RDD(弹性分布式数据集)或DataFrame/Dataset在进行保存操作(如saveAsTextFil
大数据面试题之Spark(5)
Spark SQL与DataFrame的使用? Spark SQL 是 Apache Spark 中的一个重要模块,它允许用户使用 SQL 查询或者 DataFrame API 来处理结构化和半结构化
大数据面试题之Spark(4)
Executor内存分配? 在Apache Spark中,Executor的内存分配是通过一系列配置参数来控制的,旨在优化资源利用和提高执行效率。以下是对Executor内存分配的关键点概述: 1、E
大数据面试题之Spark(3)
Spark的哪些算子会有shuffle过程? 在Apache Spark中,以下是一些常见的会导致shuffle过程的算子: 1、reduceByKey: 这个算子会对RDD中的元素按键进行分组,并对
大数据面试题之Spark(2)
介绍下Spark Shuffle及其优缺点 Spark Shuffle是Spark中用于处理数据在Map和Reduce阶段之间交换和重组的关键机制。它通常发生在数据需要在不同的节点之间进行交换和重组时
大数据面试题之Spark(1)
Spark的任务执行流程 Apache Spark 的任务执行流程主要分为以下几个阶段: 初始化与作业提交 创建SparkContext:Spark应用程序启动时,首先创建一个SparkContext
大数据面试题之HBase(3)
HBase的预分区 HBase的预分区(Pre-Splitting)是一种优化手段,用于在创建表时提前规划好表的分区结构,以减少数据写入过程中自动分区(Region Split)所带来的资源消耗和性能
大数据面试题之HBase(2)
列式数据库的适用场景和优势?列式存储的特点? HBase的rowkey设计原则 HBase的rowkey为什么不能超过一定的长度?为什么要唯一?rowkey太长会影响Hfile的存储是吧? HBa
大数据面试题之HBase(1)
介绍下HBase HBase优缺点 说下HBase原理 介绍下HBase架构 HBase读写数据流程 HBase的读写缓存 在删除HBase中的一个数据的时候,它什么时候真正的进行删除呢?
下一页
个人成就
文章被点赞
35
文章被阅读
22,826
掘力值
632
关注了
1
关注者
9
收藏集
1
关注标签
3
加入于
2020-03-19