大数据

大数据

大数据

收集大数据相关的资料

等 1 人订阅共60篇文章创建于2024-06-25

大数据面试题之数据库(3)

数据库有必要建索引吗? 数据库建立索引是非常必要的，但是否为每个表或每个列创建索引则需根据实际情况权衡。索引的存在可以带来诸多好处，同时也伴随着一些成本。以下是建立索引的主要原因及考虑因素：建立索引

1年前
215
点赞
评论

大数据面试题之数据库(2)

数据库中存储引擎MylSAM与InnoDB的区别 1、事务处理： MyISAM：不支持事务处理，这意味着在MyISAM表上的操作无法进行回滚、提交等事务管理操作。 InnoDB：支持事务处理，遵循AC

1年前
178
点赞
评论

大数据面试题之数据库(1)

数据库中的事务是什么，MySQL中是怎么实现的数据库中的事务（Transaction）是一种机制，它将一组数据库操作封装成一个逻辑工作单元，确保这组操作要么全部成功执行，要么全部失败回滚，以此维护

1年前
166
点赞
评论

大数据面试题之数仓(2)

维度表和事实表的区别? 什么是ER模型? OLAP、OLTP解释(区别)三范式是什么，举些例子维度设计过程，事实设计过程维度设计中有整合和拆分，有哪些方法，并详细说明事实表设

1年前
393
点赞
评论

大数据面试题之数仓(1)

目录介绍下数据仓库数仓的基本原理数仓架构数据仓库分层(层级划分)，每层做什么?分层的好处? 数据分层是根据什么? 数仓分层的原则与思路知道数仓建模常用模型吗?区别、优缺点? 星型模型和雪

1年前
519
点赞
评论

大数据面试题之Flink(4)

Flink广播流 Apache Flink 中的广播流（Broadcast State）是一种特殊类型的状态管理机制，它允许将一个流中的数据广播到所有并行实例上的所有或者部分 operator 实例中

1年前
304
点赞
评论

大数据面试题之Flink(4)

大数据面试题之Flink(3)

如何确定Flink任务的合理并行度? 1. 理解任务特性和需求任务类型：CPU密集型任务可能需要较高的并行度来充分利用计算资源，而I/O密集型任务可能需要较低的并行度以减少资源竞争和网络开销。数

1年前
310
点赞
评论

大数据面试题之Flink(3)

大数据面试题之Flink(2)

Flink中Checkpoint超时原因在 Apache Flink 中，Checkpoint 超时是一个常见的问题，它可能由多种因素导致，以下是一些主要的原因及其排查方向： 1、资源限制：

1年前
300
点赞
评论

大数据面试题之Flink(2)

大数据面试题之Flink(1)

Flink架构 Apache Flink 是一个开源的流处理和批处理框架，设计用于高吞吐、低延迟、状态管理和容错的分布式计算。Flink 的架构设计使其能够高效地处理无界和有界数据流，支持复杂的事件

1年前
277
点赞
评论

大数据面试题之Flink(1)

大数据面试题之Spark(7)

Spark实现wordcount 在Spark中实现Word Count是一个经典的入门级示例，展示了如何处理和统计文本文件中的单词数量。下面分别给出使用Scala、Python（PySpark）和J

1年前
260
点赞
评论

大数据面试题之Spark(7)

大数据面试题之Spark(6)

Spark输出文件的个数，如何合并小文件? 在Apache Spark中，输出文件的个数通常由RDD（弹性分布式数据集）或DataFrame/Dataset在进行保存操作（如saveAsTextFil

1年前
379
点赞
评论

大数据面试题之Spark(6)

大数据面试题之Spark(5)

Spark SQL与DataFrame的使用? Spark SQL 是 Apache Spark 中的一个重要模块，它允许用户使用 SQL 查询或者 DataFrame API 来处理结构化和半结构化

1年前
254
点赞
评论

大数据面试题之Spark(5)

大数据面试题之Spark(4)

Executor内存分配? 在Apache Spark中，Executor的内存分配是通过一系列配置参数来控制的，旨在优化资源利用和提高执行效率。以下是对Executor内存分配的关键点概述： 1、E

1年前
144
点赞
评论

大数据面试题之Spark(4)

大数据面试题之Spark(3)

Spark的哪些算子会有shuffle过程? 在Apache Spark中，以下是一些常见的会导致shuffle过程的算子： 1、reduceByKey: 这个算子会对RDD中的元素按键进行分组，并对

1年前
325
点赞
评论

大数据面试题之Spark(3)

大数据面试题之Spark(2)

介绍下Spark Shuffle及其优缺点 Spark Shuffle是Spark中用于处理数据在Map和Reduce阶段之间交换和重组的关键机制。它通常发生在数据需要在不同的节点之间进行交换和重组时

1年前
287
点赞
评论

大数据面试题之Spark(2)

大数据面试题之Spark(1)

Spark的任务执行流程 Apache Spark 的任务执行流程主要分为以下几个阶段：初始化与作业提交创建SparkContext：Spark应用程序启动时，首先创建一个SparkContext

1年前
279
点赞
评论

大数据面试题之Spark(1)

大数据面试题之HBase(3)

HBase的预分区 HBase的预分区（Pre-Splitting）是一种优化手段，用于在创建表时提前规划好表的分区结构，以减少数据写入过程中自动分区（Region Split）所带来的资源消耗和性能

1年前
217
点赞
评论

大数据面试题之HBase(3)

大数据面试题之HBase(2)

列式数据库的适用场景和优势?列式存储的特点? HBase的rowkey设计原则 HBase的rowkey为什么不能超过一定的长度?为什么要唯一?rowkey太长会影响Hfile的存储是吧? HBa

1年前
149
点赞
评论

大数据面试题之HBase(2)

大数据面试题之HBase(1)

介绍下HBase HBase优缺点说下HBase原理介绍下HBase架构 HBase读写数据流程 HBase的读写缓存在删除HBase中的一个数据的时候，它什么时候真正的进行删除呢?

1年前
324
点赞
评论

大数据面试题之Kafka(5)

Kafka在哪些地方会有选举过程，使用什么工具支持选举? Kafka搭建过程要配置什么参数? Kafka的单播和多播 Kafka的高水位和Leader Epoch Kafka的分区器、拦截器、序列化器

1年前
226
点赞
评论

大数据面试题之Kafka(5)