BigData共享

赞

6

|

搜索文章

优化 StarRocks INSERT INTO FILES 的内存超限问题

问题背景在 StarRocks 中，通过 ETL 处理后的结果数据需导出到 HDFS，使用 INSERT INTO FILES 语句实现。导出过程中遇到以下问题：导出sql 因为 BE 内存超限导致

6月前
110
点赞
评论

StarRocks 内表导入性能波动分析与优化

问题背景为了加速数据即席查询，需要将离线 Hive 表数据通过 ETL 写入 StarRocks 内表，采用 INSERT INTO 按天分区导入数据。Hive 表各分区数据量相差不大，但导入耗时在

6月前
109
点赞
评论

Paimon小文件问题分析和解决方案

Apache Paimon 是一种高性能的流批一体数据湖存储引擎，广泛用于实时和离线数据处理场景。它通常与HDFS（Hadoop Distributed File System）集成，作为底层存储系统

7月前
216
点赞
评论

StarRocks 逻辑分片 tablet & segment 文件

逻辑分片 tablet 和副本 Tablet 是表的逻辑分片。一张表可以有多个 Tablet，每个 Tablet 有 replication_num 个副本，默认3个 replication。St

7月前
173
点赞
评论

StarRocks 查询探秘（一）：SELECT语句的解析之旅

在StarRocks中，用户提交的SQL查询文本在FE需要经过一系列处理，最终生成分布式执行计划并分发到各个Backend（BE）节点进行计算。核心流程包括以下五个步骤： Parser解析：将SQL文

7月前
237
点赞
评论

StarRocks 使用 JNI 读取数据湖表引发的堆内存溢出分析

使用StarRocks用于数据湖，实时或离线数仓表查询是一个常见的需求。而大部分湖仓（如Paimon、Iceberg、Hive 等）是Java生态，StarRocks 通过 JNI（Java Nati

8月前
153
点赞
评论

StarRocks元数据管理和HA高可用

StarRocks元数据管理主要由 FE 节点负责，元数据内容包含Catalog、数据库、表、物化视图、节点、心跳、用户权限等信息，元数据的核心特点如下：内存存储：元数据主要存储在 FE 节点的内存

8月前
229
点赞
评论

StarRocks fragment的执行流程

在 StarRocks 中，SQL 查询的生命周期分为三个阶段：查询解析（Parsing）、查询规划（Planning）和查询执行（Execution）。查询计划由 Frontend (FE) 生成并

8月前
159
点赞
评论

极致性能背后的黑科技？这个世上没有“银弹”！(三)

在《极致性能背后的黑科技？这个世上没有“银弹”！（一）》中，我们从“越多的并发处理，越快的速度”这一视角，探讨了通过MPP架构，pipeline引擎，向量化执行等提升查询性能的思路。更多线程、更高效的

8月前
175
2
评论

极致性能背后的黑科技？这个世上没有“银弹”！(二)

上一篇文章极致性能背后的黑科技？这个世上没有“银弹”！(一), 本质讲的就是一件事，"越多的并发处理，越快的速度"。那么怎么尽可能的提高并发呢？通过机器节点的横向扩展，单机cpu核数的充分利用，单个

8月前
74
1
评论

个人成就

文章被点赞 9

文章被阅读 3,351

加入于

2025-01-10