首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
数据
数据智能老司机
创建于2023-05-27
订阅专栏
数据相关
等 56 人订阅
共247篇文章
创建于2023-05-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
生产环境中的Apache Iceberg
数据工程师负责以高效、可靠和安全的方式收集、存储和处理数据。在将数据投入生产时,他们需要遵循一系列最佳实践,以确保数据的准确性、一致性和可访问性。在本章中,我们将讨论许多用于帮助监控和维护生产环境中的
增强分析(Augmented Analytics)——增强工作流
你已经了解了很多关于员工赋能和成功实施增强分析(AA)所需的组织环境的基础知识。没有高层管理的支持、组织各个部门的分析翻译者提出的创意、推动变革的卓越中心(CoE)以及将创意转化为用例的有效基础设施,
增强分析(Augmented Analytics)——理解增强分析
我们将从解析第1章中介绍的增强分析(AA)定义开始,将其拆解为关键组件。接着,我们将深入介绍这个概念,特别是如何赋能分析用户。你将了解AA是什么、它对业务的好处、它的局限性以及如何将其应用于工作流程。
增强分析(Augmented Analytics)——业务转型
在我们撰写本书的2024年,商业环境的特点是数字技术和实践的日益普及,这通常被称为“业务转型”或“工业转型”。这种转型并不是第一次。迄今为止,世界经历了三次工业转型,每次都由新技术推动:蒸汽动力(大约
现实世界中的湖仓
我们已经接近本书的结尾,到目前为止,我们讨论了实现湖仓平台的各种组件、设计考虑因素、工具和技术以及最佳实践。在所有这些讨论中,我们探讨了构建湖仓的理想设计方法和优化解决方案。然而,正如我们所知,现实与
实用湖仓架构——数据目录
湖仓架构中的存储层非常重要,因为它存储了整个平台的数据。为了搜索、探索和发现这些存储的数据,用户需要一个数据目录。本章将重点介绍数据目录和使湖仓平台用户能够搜索和访问数据的整体元数据管理过程。 在本章
存储:Lakehouse 的核心
在基于 Lakehouse 架构的平台中,存储层在高效持久化各种数据和提升查询性能方面起着重要作用。Lakehouse 存储层由云存储、文件格式和表格式组成。本章将重点介绍这些概念以及实现 Lakeh
湖仓的未来
恭喜你! 你已经读完了本书的最后一章。我希望你现在对湖仓架构、其核心概念以及实施湖仓的不同技术选项有了深入的理解。 在上一章中,我们讨论了如何在现实世界中构建湖仓。在本章中,我将讨论一些构建湖仓的替代
全景:设计和实施湖仓平台
在前面的章节中,我们讨论了湖仓架构的各个组成部分及其设计考量。本章将讨论如何将所有这些组件结合在一起,设计和实施一个现代、可扩展且安全的湖仓平台。 本章将帮助数据架构师基于湖仓架构设计一个端到端的平台
湖仓架构中的数据(和 AI)治理与安全
数据平台围绕三个关键支柱展开:人员、流程和技术。在前几章中,我们讨论了实现湖仓的各种技术。本章重点关注湖仓实现中的人员和流程方面。本章将帮助你了解湖仓架构如何在所有数据和ML/AI资产中实施统一的治理
湖仓架构的计算引擎
如果存储是湖仓架构的核心,那么计算引擎就是执行所有计算活动的大脑。你需要一个高性能的计算引擎来摄取、处理和消费数据平台中的数据。计算引擎使数据工程师、数据分析师、数据科学家、业务用户等平台用户能够根据
实用湖仓架构——数仓架构导论
所有数据从业者,无论他们的工作职位如何,都会进行两个共同且基础的活动——提出问题和寻找答案!任何数据人员,无论是数据工程师、数据架构师、数据分析师、数据科学家,还是像首席信息官(CIO)或首席数据官(
Kubernetes 上的大数据——在Kubernetes上部署大数据栈
在本章中,我们将介绍在Kubernetes上部署关键的大数据技术——Spark、Airflow和Kafka。随着容器编排和管理在高效运行数据工作负载中的重要性日益增加,Kubernetes已经成为事实
Kubernetes 上的大数据——现代数据栈
在本章中,我们将探讨用于构建可扩展和灵活的数据平台的现代数据架构。具体来说,我们将讨论Lambda架构模式及其如何实现实时数据处理和批量数据分析。您将了解Lambda架构的关键组件,包括用于历史数据的
Kubernetes 上的大数据——容器入门
世界正在迅速产生大量数据,这些数据来自各种来源——移动设备、社交媒体、电子商务交易、传感器等等。这种数据爆炸通常被称为“大数据”。虽然大数据为企业和组织提供了获取宝贵见解的巨大机会,但它也带来了如何存
使用 Databricks 进行数据工程——使用 Apache Spark 进行数据导入和数据提取
Apache Spark 是一个强大的分布式计算框架,能够处理大规模数据处理任务。在处理数据时,最常见的任务之一是从各种来源加载数据并将其写入各种格式。在本实践章节中,你将学习如何使用 Python
探索 Snowpark
简介 Snowpark 是 Snowflake 最近推出的一项重大创新,它提供了一套直观的库和运行时环境,用于在 Snowflake 中进行大规模的数据查询和处理。本章旨在引导您了解 Snowpark
Schema Registry
本章内容包括: 使用字节意味着序列化规则 什么是模式以及为什么需要使用模式 模式注册表是什么 确保与变更的兼容性 — 模式演进 理解主题名称 使用引用重用模式 在第2章中,你了解了Kafka流平台的核
Apache Flink 与Icebreg整合
Apache Flink 是一个高效的流处理框架,可以以高吞吐量和低延迟处理批处理和实时数据。它具有强大的功能,例如事件时间处理、精确一次语义和多样的窗口机制。将 Apache Flink 和 Apa
优化 Iceberg 表的性能
正如您在第三章中所看到的,Apache Iceberg 表提供了一层元数据,允许查询引擎创建更智能的查询计划,以提升性能。然而,这些元数据只是优化数据性能的开始。 您可以使用各种优化杠杆来提升性能,包
下一页