首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
数据
数据智能老司机
创建于2023-05-27
订阅专栏
数据相关
等 60 人订阅
共300篇文章
创建于2023-05-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
数据工程设计模式——ETL和ELT
引言(Introduction) 本章将探讨 ETL(Extract, Transform, Load:抽取-转换-加载) 与 ELT(Extract, Load, Transform:抽取-加载-转
数据工程设计模式——Lambda架构
引言(Introduction) 本章将深入探讨 Lambda 架构这一数据工程模式,并使读者熟悉如何用该模式构建解决方案。内容将涵盖 Lambda 模式能够解决的用例;还将基于开源与云技术讲解如何设
数据工程设计模式——微批
引言(Introduction) 本章将深入剖析微批(micro-batching) 设计模式,并让读者熟悉如何用该模式构建解决方案。内容将涵盖微批可解决的用例;还将基于开源技术讲解如何设计采用微批的
数据工程设计模式——实时摄取与处理
引言(Introduction) 本章将深入解析实时(real-time)模式,并让读者熟悉如何用该模式构建解决方案。内容涵盖实时模式可解决的用例;同时讨论如何使用开源技术设计实时系统,并通过示例应用
数据工程设计模式——批量摄取与处理
引言(Introduction) 在本章中,我们将深入理解批处理(batch)模式的细节,让读者熟悉如何用批处理模式构建解决方案。内容将覆盖批处理模式能够解决的用例;我们还会讨论如何使用开源技术设计批
数据工程设计模式——数据工程的模式、术语与技术栈
引言(Introduction) 本章将对常见的数据工程模式做一个高层概览,说明其重要性以及如何有效运用这些模式来解决领域中的常见挑战。文中还包含这些模式的示例,展示它们如何解决数据工程中经常遇到的典
数据工程设计模式——理解数据工程
翻译 引言(Introduction) 本章将回顾数据工程在构建与管理数据管道中的基础概念、流程与角色。我们将贯穿数据生命周期——从采集与转换到存储与分析——并突出实现可扩展、高效数据管理的关键技术、
Apache Polaris权威指南——使用 Apache Polaris 开源版
在前面的章节中,我们深入探讨了 Apache Polaris、其关键特性以及 API。现在,是时候走出理论,动手在本地部署并使用 Apache Polaris 了。通过实操,你将理解各组件如何协同工作
Apache Polaris权威指南——Polaris REST API
在本章中,我们将深入介绍 Apache Polaris 提供的 REST API,用于管理 catalogs、roles、namespaces、tables 与 views。Polaris REST
Apache Polaris权威指南——外部目录
在某些情况下,组织会同时管理多个 Iceberg 目录(catalog) ,以满足特定的工作负载、团队分工、合规要求或运行需求。尽管多目录策略有助于优化数据战略,但也带来了统一访问与无缝集成方面的挑战
Apache Polaris权威指南——Apache Polaris 的安全模型
本章将探讨 Apache Polaris 的安全模型,重点说明它如何实现细粒度访问控制、确保合规,并促进跨团队的无缝协作。通过将 主体(principals) 、主体角色(principal role
Apache Polaris权威指南——Apache Iceberg Catalog 的作用
正如上一章所示,Apache Iceberg 为数据湖仓带来了强大的表管理能力,通过 ACID 事务、Schema 演进与时光回溯等特性,实现可靠且可扩展的数据操作。但要充分释放 Iceberg 表的
Apache Polaris权威指南——数据湖仓架构与 Apache Iceberg
当今组织正在生成海量信息,因此高效地存储、管理与分析这些数据变得至关重要。数据的庞大规模与多样性带来了独特挑战——从确保可访问性到在大规模下维持性能。现代数据架构正是为此而生。要全面理解开源数据湖仓目
将外部系统与 Kafka Connect 集成
本章涵盖 将 Kafka 与数据源和接收端集成 为最佳数据流配置连接器和 worker 使用 REST API 管理 Kafka Connect 创建与修改连接器 使用 JDBC 源和 Debeziu
kafka:清理消息
本章内容概览: Kafka 中消息清理的机制 管理消息保留的可选策略 Kafka 如何处理过期数据的清理 在 Kafka 中,管理消息的生命周期对于维持系统性能和保证数据完整性至关重要。本章介绍两种关
kafka:消费消息
本章内容: Kafka 的基于 fetch 的消费模型 偏移量管理 消费组的作用 Kafka 如何协调任务分配 Range Assignor 与 Round Robin Assignor 的影响 静态
kafka:生产并持久化消息
本章通常使用官方的 Kafka Java 库,或者当生产者不运行在 JVM 中时,使用基于 C 库 librdkafka(https://github.com/confluentinc/librdka
kafka的集群管理
本章内容 使用 KRaft 与 ZooKeeper 进行 Kafka 集群管理 从 ZooKeeper 迁移到 KRaft 客户端如何连接到 Kafka 在前面的章节中,我们已经把 Kafka 作为一
kafka的性能
本章内容包括 提高性能的主题(topic)设置 确定主题最佳分区数 影响性能的 Kafka broker 设置 生产者和消费者的性能调优 在上一章中,我们学习了如何用 Kafka 可靠地生产消息。本章
Kafka的可靠性
本章内容包括 Kafka 的确认(ACK)设置 Kafka 中的数据可用性与容错性 Kafka 的投递保证(delivery guarantees) Kafka 的事务能力 Kafka 中的主从(Le
下一页