首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据
神相
创建于2024-06-25
订阅专栏
收集大数据相关的资料
暂无订阅
共52篇文章
创建于2024-06-25
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据面试题之Flink(1)
Flink架构 Apache Flink 是一个开源的流处理和批处理框架,设计用于高吞吐、低延迟、状态管理和容错的分布式计算。Flink 的架构设计使其能够高效地处理无界和有界数据流,支持复杂的事件
大数据面试题之Spark(7)
Spark实现wordcount 在Spark中实现Word Count是一个经典的入门级示例,展示了如何处理和统计文本文件中的单词数量。下面分别给出使用Scala、Python(PySpark)和J
大数据面试题之Spark(6)
Spark输出文件的个数,如何合并小文件? 在Apache Spark中,输出文件的个数通常由RDD(弹性分布式数据集)或DataFrame/Dataset在进行保存操作(如saveAsTextFil
大数据面试题之Spark(5)
Spark SQL与DataFrame的使用? Spark SQL 是 Apache Spark 中的一个重要模块,它允许用户使用 SQL 查询或者 DataFrame API 来处理结构化和半结构化
大数据面试题之Spark(4)
Executor内存分配? 在Apache Spark中,Executor的内存分配是通过一系列配置参数来控制的,旨在优化资源利用和提高执行效率。以下是对Executor内存分配的关键点概述: 1、E
大数据面试题之Spark(3)
Spark的哪些算子会有shuffle过程? 在Apache Spark中,以下是一些常见的会导致shuffle过程的算子: 1、reduceByKey: 这个算子会对RDD中的元素按键进行分组,并对
大数据面试题之Spark(2)
介绍下Spark Shuffle及其优缺点 Spark Shuffle是Spark中用于处理数据在Map和Reduce阶段之间交换和重组的关键机制。它通常发生在数据需要在不同的节点之间进行交换和重组时
大数据面试题之Spark(1)
Spark的任务执行流程 Apache Spark 的任务执行流程主要分为以下几个阶段: 初始化与作业提交 创建SparkContext:Spark应用程序启动时,首先创建一个SparkContext
大数据面试题之HBase(3)
HBase的预分区 HBase的预分区(Pre-Splitting)是一种优化手段,用于在创建表时提前规划好表的分区结构,以减少数据写入过程中自动分区(Region Split)所带来的资源消耗和性能
大数据面试题之HBase(2)
列式数据库的适用场景和优势?列式存储的特点? HBase的rowkey设计原则 HBase的rowkey为什么不能超过一定的长度?为什么要唯一?rowkey太长会影响Hfile的存储是吧? HBa
大数据面试题之HBase(1)
介绍下HBase HBase优缺点 说下HBase原理 介绍下HBase架构 HBase读写数据流程 HBase的读写缓存 在删除HBase中的一个数据的时候,它什么时候真正的进行删除呢?
大数据面试题之Kafka(5)
Kafka在哪些地方会有选举过程,使用什么工具支持选举? Kafka搭建过程要配置什么参数? Kafka的单播和多播 Kafka的高水位和Leader Epoch Kafka的分区器、拦截器、序列化器
大数据面试题之Kafka(4)
Kafka如何保证数据的ExactlyOnce? Kafka消费者怎么保证ExactlyOnce Kafka监控实现? Kafka中的数据能彻底删除吗? Kafka复制机制? Kafka分区多副本
大数据面试题之Kafka(3)
Kafka支持什么语义,怎么实现ExactlyOnce? Kafka的消费者和消费者组有什么区别?为什么需要消费者组? Kafka producer的写入数据过程? Kafka producer
大数据面试题之Kafka(2)
Kafka的工作原理? Kafka怎么保证数据不丢失,不重复? Kafka分区策略 Kafka如何尽可能保证数据可靠性? Kafka数据丢失怎么处理? Kafka如何保证全局有序? 生产者
大数据面试题之Kafka(1)
目录 介绍下Kafka,Kafka的作用?Kafka的组件?适用场景? Kafka作为消息队列,它可解决什么样的问题? 说下Kafka架构 说下Kafka的特点,优缺点 Kafka相比于其它消息组
大数据面试题之Flume
介绍下Flume Flume架构 Flume有哪些Source 说下Flume事务机制 介绍下Flume采集数据的原理?底层实现? Flume如何保证数据的可靠性 Flume传输数据时如何
大数据面试题之Hive(3)
Hive的函数:UDF、UDAF、UDTF的区别? UDF是怎么在Hive里执行的 row_number,rank,dense_rank的区别 Hive count(distinct)有几个reduc
大数据面试题之Hive(2)
Hive的join操作原理,leftjoin、right join、inner join、outer join的异同? Hive如何优化join操作 Hive的mapjoin Hive语句的运行机制,
大数据面试题之Hive(1)
说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么? 说下Hive是什么?跟数据仓库区别? Hive架构 Hive内部表和外部表的区别? 为什么内部表的删除,就会将数据全部删除,而外部表
下一页