大数据

大数据

大数据

专注于大数据的技术

等 1 人订阅共35篇文章创建于2024-03-25

Flink全量快照的实现

在 Apache Flink 中，全量快照（Full Checkpointing）是一种用于确保作业状态一致性的机制，它会捕获作业所有算子（operator）和状态后端的完整状态，并将其保存到持久化存

1年前
193
点赞
评论

Flink增量快照的实现

在 Apache Flink 中，增量快照（Incremental Checkpointing）是一种优化的状态快照机制，用于减少 Flink 作业的状态快照的时间和存储需求。增量快照的核心思想是只存

1年前
472
点赞
评论

Flilnk sql 中实现UDF

在 Apache Flink SQL 中使用用户自定义函数（User-Defined Function，UDF）可以帮助你实现复杂的业务逻辑或数据处理操作。Flink SQL 支持多种类型的 UDF，

1年前
978
点赞
评论

大数据技术 - Apache Celeborn

Apache Celeborn 是一个开源的分布式存储系统，专门设计用于优化大规模数据处理框架（如 Apache Spark）的 Shuffle 操作性能。Shuffle 是大数据处理中的一个重要过程

1年前
413
点赞
评论

Flink 连接Kafka主题域名未找到问题

如果你的 Flink 服务器不能解析 Kafka 和 ZooKeeper 机器的域名，可能会导致连接问题。为了解决这个问题，可以通过以下几种方式来确保 Flink 服务器能够正确解析这些域名：方法

1年前
610
点赞
评论

大数据技术 - Apache SeaTunnel

Apache SeaTunnel（原名 Waterdrop）是一个高性能、分布式的数据集成框架，主要用于处理和传输大规模的数据。SeaTunnel 设计为易于使用、灵活并且具有扩展性，支持多种数据源和

1年前
327
点赞
评论

Flink中窗口的详细分类

在 Apache Flink 中，每种窗口类型都有其更细致的分类，具体取决于它们基于时间特征的不同方式（例如事件时间或处理时间）和触发条件。以下是每种窗口类型的详细分类： 1. 滚动窗口（Tumbli

1年前
336
点赞
评论

数仓建设规范指南

建设一个高效、可靠的数据仓库（Data Warehouse，简称数仓）需要遵循一系列规范和最佳实践，以确保数据的准确性、一致性、性能和可维护性。以下是数仓建设的规范指南： 1. 需求分析 1.1 业务

1年前
359
点赞
评论

Flink 大状态作业调优指南 - Datastream 作业篇

Flink 状态简介：大状态作业导致的问题：大状态作业诊断调优整体思路： Flink Datastream 作业大状态导致反压的调优原理与方法：推荐文章 https://mp.weixin.qq

2年前
260
点赞
评论

Doris 是什么？ Apache Doris 是一个高性能、实时的分析型数据库，它由百度开源，定位于 OLAP 场景，擅长处理海量数据并快速返回分析结果。简单来说，Doris 就像一个高效的“数据

2年前
495
点赞
评论

Hadoop1X，Hadoop2X和hadoop3X的区别

介绍 Hadoop 1.x：发布于 2011 年。使用 MapReduce 处理模型，但不支持非 MapReduce 工具。仅支持单租户。有单点故障（SPOF），因为只有一个 Namenode

2年前
183
点赞
评论

数据治理平台介绍

介绍当谈到数据治理平台时，我们需要考虑一系列的流程、策略和技术，以确保组织的数据在其生命周期内得到有效管理。数据治理的目标是提高数据质量、可见性、安全性和合规性，从而支持更深入的业务洞察。如何建设

2年前
218
点赞
评论

数据库服务 - VectorDB

介绍 VectorDB 是一种由腾讯云提供的高性能、弹性伸缩、可扩展的 NoSQL 数据库服务。特点海量向量数据支持：VectorDB能轻松应对PB级别的向量数据存储需求，支持高容错性和伸缩性。

2年前
334
点赞
评论

大数据技术 - KRaft

KRaft KRaft是一种新的Kafka架构模式，旨在改进Kafka集群的可靠性和可管理性。特点不再依赖ZooKeeper：KRaft取消了对ZooKeeper的依赖，使Kafka能够独立运行。

2年前
822
点赞
评论

Redis的两种持久化机制：RDB（Redis DataBase）和AOF（Append Only File）

RDB持久化： RDB是一种快照持久化方式，它会在指定的时间间隔内将内存中的数据集快照写入磁盘。 RDB文件是一个压缩的二进制文件，通常用于备份和灾难恢复。 RDB的生成可以通过save命令触发，但这

2年前
102
点赞
评论