首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据
神相
创建于2024-06-25
订阅专栏
收集大数据相关的资料
暂无订阅
共52篇文章
创建于2024-06-25
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Doris FE内存占用持续上升直至无法使用
环境 操作系统:CentOS Linux release 7.6.1810 (Core) Doris版本:doris-2.1.5-bin-x64 Java版本:jdk1.8.0_181 3台机器组成的
MySQL和Doris开窗函数LAG执行时的区别
目标表的表结构 在mysql8中执行报错的SQL 上述的SQL在MySQL执行时会报SQL错误[1292][22001] incorrect datetime value:'',而在Doris下不会有
大数据面试题之Hudi(1)
Hudi的发展历史 Hudi(Hadoop Upserts and Deletes Incrementally)的发展历史可以追溯到2016年,最初由Uber的工程师团队开发,目的是为了解决大规模数据
大数据面试题之数据湖
什么是数据湖 数据湖(Data Lake)是一个大型数据存储和处理系统, 它能够存储各种类型和格式的数据,包括结构化数据、半结构化数据和非结构化数据。以下是关于数据湖的详细解释: 定义与特点 数据存储
大数据面试题之ElasticSearch(2)
ElasticSearch的单播、多播和广播 在Elasticsearch集群中,节点间的发现和通信机制是确保集群稳定性和可扩展性的关键部分。Elasticsearch提供了三种不同的发现方式来帮助节
大数据面试题之ElasticSearch(1)
ElasticSearch介绍 Elasticsearch 是一个开源的、分布式的搜索引擎和分析引擎,建立在Apache Lucene库之上。它被广泛用于全文检索、结构化搜索、数据分析以及实时应用中。
大数据面试题之Presto[Trino](6)
如何诊断Presto查询慢的问题? 诊断Presto查询慢的问题通常需要一个系统化的方法,结合监控、日志分析、查询优化策略和系统配置调整等多个方面。以下是一些具体的步骤和建议: 1、查看Presto
大数据面试题之Presto[Trino](5)
Presto的扩展性如何? Presto的设计特别强调了其扩展性,使其能够高效处理大规模数据集的查询。以下是Presto扩展性的几个关键方面: 水平扩展:Presto采用分布式架构,可以轻松地通过增
大数据面试题之Presto[Trino](4)
如何监控和调优Presto查询性能? 监控和调优Presto查询性能是一个涉及多个层面的过程,包括数据存储优化、SQL查询优化、系统配置调整以及利用Presto内置的监控和管理工具。以下是一些关键的步
大数据面试题之Presto[Trino](3)
Presto如何处理数据的聚合操作? Presto处理数据聚合操作的方式遵循SQL标准,主要通过GROUP BY子句来实现对数据集的分组聚合。以下是Presto处理聚合操作的基本步骤和高级特性: 1、
大数据面试题之Presto[Trino](2)
描述Presto中的Connector是什么? 在Presto中,Connector是连接Presto查询引擎与外部数据存储系统的桥梁。它是一个插件化的组件,允许Presto与多种不同的数据源无缝集
大数据面试题之Presto[Trino](1)
什么是Presto,它主要用于解决什么问题? Presto是一款高性能、分布式的SQL查询引擎,专为大规模数据分析而设计。它最初由Facebook开发,并于2013年开源。Presto的主要目标是解决
大数据面试题之数据库(3)
数据库有必要建索引吗? 数据库建立索引是非常必要的,但是否为每个表或每个列创建索引则需根据实际情况权衡。索引的存在可以带来诸多好处,同时也伴随着一些成本。以下是建立索引的主要原因及考虑因素: 建立索引
大数据面试题之数据库(2)
数据库中存储引擎MylSAM与InnoDB的区别 1、事务处理: MyISAM:不支持事务处理,这意味着在MyISAM表上的操作无法进行回滚、提交等事务管理操作。 InnoDB:支持事务处理,遵循AC
大数据面试题之数据库(1)
数据库中的事务是什么,MySQL中是怎么实现的 数据库中的事务(Transaction)是一种机制,它将一组数据库操作封装成一个逻辑工作单元,确保这组操作要么全部成功执行,要么全部失败回滚,以此维护
大数据面试题之数仓(2)
维度表和事实表的区别? 什么是ER模型? OLAP、OLTP解释(区别)三范式是什么,举些例子 维度设计过程,事实设计过程 维度设计中有整合和拆分,有哪些方法,并详细说明 事实表设
大数据面试题之数仓(1)
目录 介绍下数据仓库 数仓的基本原理 数仓架构 数据仓库分层(层级划分),每层做什么?分层的好处? 数据分层是根据什么? 数仓分层的原则与思路 知道数仓建模常用模型吗?区别、优缺点? 星型模型和雪
大数据面试题之Flink(4)
Flink广播流 Apache Flink 中的广播流(Broadcast State)是一种特殊类型的状态管理机制,它允许将一个流中的数据广播到所有并行实例上的所有或者部分 operator 实例中
大数据面试题之Flink(3)
如何确定Flink任务的合理并行度? 1. 理解任务特性和需求 任务类型:CPU密集型任务可能需要较高的并行度来充分利用计算资源,而I/O密集型任务可能需要较低的并行度以减少资源竞争和网络开销。 数
大数据面试题之Flink(2)
Flink中Checkpoint超时原因 在 Apache Flink 中,Checkpoint 超时是一个常见的问题,它可能由多种因素导致,以下是一些主要的原因及其排查方向: 1、资源限制:
下一页