首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
数据
数据智能老司机
创建于2023-05-27
订阅专栏
数据相关
等 60 人订阅
共300篇文章
创建于2023-05-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
湖仓的未来
恭喜你! 你已经读完了本书的最后一章。我希望你现在对湖仓架构、其核心概念以及实施湖仓的不同技术选项有了深入的理解。 在上一章中,我们讨论了如何在现实世界中构建湖仓。在本章中,我将讨论一些构建湖仓的替代
全景:设计和实施湖仓平台
在前面的章节中,我们讨论了湖仓架构的各个组成部分及其设计考量。本章将讨论如何将所有这些组件结合在一起,设计和实施一个现代、可扩展且安全的湖仓平台。 本章将帮助数据架构师基于湖仓架构设计一个端到端的平台
湖仓架构中的数据(和 AI)治理与安全
数据平台围绕三个关键支柱展开:人员、流程和技术。在前几章中,我们讨论了实现湖仓的各种技术。本章重点关注湖仓实现中的人员和流程方面。本章将帮助你了解湖仓架构如何在所有数据和ML/AI资产中实施统一的治理
湖仓架构的计算引擎
如果存储是湖仓架构的核心,那么计算引擎就是执行所有计算活动的大脑。你需要一个高性能的计算引擎来摄取、处理和消费数据平台中的数据。计算引擎使数据工程师、数据分析师、数据科学家、业务用户等平台用户能够根据
实用湖仓架构——数仓架构导论
所有数据从业者,无论他们的工作职位如何,都会进行两个共同且基础的活动——提出问题和寻找答案!任何数据人员,无论是数据工程师、数据架构师、数据分析师、数据科学家,还是像首席信息官(CIO)或首席数据官(
Kubernetes 上的大数据——在Kubernetes上部署大数据栈
在本章中,我们将介绍在Kubernetes上部署关键的大数据技术——Spark、Airflow和Kafka。随着容器编排和管理在高效运行数据工作负载中的重要性日益增加,Kubernetes已经成为事实
Kubernetes 上的大数据——现代数据栈
在本章中,我们将探讨用于构建可扩展和灵活的数据平台的现代数据架构。具体来说,我们将讨论Lambda架构模式及其如何实现实时数据处理和批量数据分析。您将了解Lambda架构的关键组件,包括用于历史数据的
Kubernetes 上的大数据——容器入门
世界正在迅速产生大量数据,这些数据来自各种来源——移动设备、社交媒体、电子商务交易、传感器等等。这种数据爆炸通常被称为“大数据”。虽然大数据为企业和组织提供了获取宝贵见解的巨大机会,但它也带来了如何存
使用 Databricks 进行数据工程——使用 Apache Spark 进行数据导入和数据提取
Apache Spark 是一个强大的分布式计算框架,能够处理大规模数据处理任务。在处理数据时,最常见的任务之一是从各种来源加载数据并将其写入各种格式。在本实践章节中,你将学习如何使用 Python
探索 Snowpark
简介 Snowpark 是 Snowflake 最近推出的一项重大创新,它提供了一套直观的库和运行时环境,用于在 Snowflake 中进行大规模的数据查询和处理。本章旨在引导您了解 Snowpark
Schema Registry
本章内容包括: 使用字节意味着序列化规则 什么是模式以及为什么需要使用模式 模式注册表是什么 确保与变更的兼容性 — 模式演进 理解主题名称 使用引用重用模式 在第2章中,你了解了Kafka流平台的核
Apache Flink 与Icebreg整合
Apache Flink 是一个高效的流处理框架,可以以高吞吐量和低延迟处理批处理和实时数据。它具有强大的功能,例如事件时间处理、精确一次语义和多样的窗口机制。将 Apache Flink 和 Apa
优化 Iceberg 表的性能
正如您在第三章中所看到的,Apache Iceberg 表提供了一层元数据,允许查询引擎创建更智能的查询计划,以提升性能。然而,这些元数据只是优化数据性能的开始。 您可以使用各种优化杠杆来提升性能,包
Iceberg的目录
在本章中,我们将深入探讨Iceberg目录。您已经了解目录是Iceberg的关键组件,它确保多个读写者的一致性,并发现环境中可用的表。在本章中,我们将讨论: 目录的一般要求,以及推荐用于生产环境的附加
写入查询和读取查询的生命周期
Apache Iceberg 表格式提供了在读取和写入过程中高性能的查询,使您能够直接在数据湖上运行在线分析处理(OLAP)工作负载。促进这种性能的是 Iceberg 表格式的各种组件设计方式。因此,
Apache Iceberg的架构
本章中,我们将讨论架构和规范,使得Apache Iceberg能够解决Hive表格格式固有的问题,通过深入了解Iceberg表格的内部情况。我们将介绍Iceberg表格的不同结构,以及每个结构提供和启
Apache Iceberg 简介
数据是组织策划关键业务决策所需的信息和洞察的主要资产。无论是用于分析特定产品的年度销售趋势还是预测未来的市场机会,数据都塑造了组织成功的方向。此外,如今数据不仅仅是一种美好的附加条件,而且是一种必需,
工作流管理、监控和数据质量
在本章中,我们将深入探讨工作流管理、事件管理和数据质量这三个在数据集成中至关重要的组成部分。我们将探讨高效的工作流和事件管理在无缝协调数据集成流程中的基本概念和重要性。关键组件如工作流设计、执行、调度
数据集成技术
这一章对将不同数据源整合成统一、可访问格式的策略和方法进行了深入探讨。该章的第一部分介绍了两种主要的数据集成模型:点对点和基于中间件的集成。将详细检验每个模型的优缺点和使用案例,以提供对它们在不同背景
数据存储技术与架构
在今天这个快节奏、数据驱动的世界中,企业必须管理和分析其数据资产,以获得竞争优势。这些数据以各种形式存在,从结构化数据,如商业交易,到非结构化数据,如社交媒体帖子或电子邮件等。快速存储和处理这些多种类
下一页