首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
数据
数据智能老司机
创建于2023-05-27
订阅专栏
数据相关
等 69 人订阅
共370篇文章
创建于2023-05-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
构建 Apache Iceberg 湖仓架构——Apache Iceberg 的生产运营化
本章内容包括: 自动化 Iceberg maintenance 使用 metadata 进行 health monitoring 执行 retention 和 compliance 跟踪 change
构建 Apache Iceberg 湖仓架构——维护 Iceberg 数据湖仓
本章内容包括: 识别并解决由次优 data files 和 metadata files 导致的性能问题 运行 compaction jobs,以优化 file layout 并提升 query sp
构建 Apache Iceberg 湖仓架构——理解消费层
本章内容包括: 跨工具的 semantic consistency JDBC、ODBC、Arrow Flight 和 MCP 等开放接口 评估 BI 工具、notebook environments
构建 Apache Iceberg 湖仓架构——设计联邦层
本章内容包括: 评估 data federation requirements 设计 federation layer components 比较 Dremio 和 Trino 的 federated
构建 Apache Iceberg 湖仓架构——实现目录层
本章内容包括: 根据审计洞察定义 catalog requirements Catalog layer 在 Apache Iceberg 中的角色 评估 Apache Iceberg catalog
构建 Apache Iceberg 湖仓架构——构建摄入层架构
本章内容包括: Ingestion performance、reliability 和 latency 需求 比较 batch、micro-batch 和 streaming ingestion st
构建 Apache Iceberg 湖仓架构——选择存储层
本章内容包括: 存储性能、安全性和完整性需求 Block storage 和 object storage 架构 Parquet 和 S3 API 作为基础标准 HDFS、MinIO 和 Everpu
构建 Apache Iceberg 湖仓架构——为迁移到 Apache Iceberg 做准备
本章内容包括: 执行基础设施审计 让利益相关方参与进来,以发现技术和组织需求 记录当前工具、存储系统和治理实践 将审计发现转化为有优先级、可执行的需求 关于 data storage、ingestio
构建 Apache Iceberg 湖仓架构——Apache Iceberg 动手实践
本章内容包括: 搭建 Apache Iceberg 环境 在 Spark 中创建 Iceberg tables 在 Dremio 中读取 Iceberg tables 构建商业智能 dashboard
构建 Apache Iceberg 湖仓架构——Apache Iceberg 与数据湖仓
本章内容包括: Apache 的 Iceberg table format 是什么 Apache Iceberg 的优势 基于 Apache Iceberg 的数据湖仓组件 Apache Iceber
构建 Apache Iceberg 湖仓架构——数据湖仓的世界
本章内容包括: 什么是数据湖仓,以及它与传统数据架构有何不同 Apache Iceberg 如何塑造湖仓范式 什么时候以及为什么要实现 Apache Iceberg lakehouse 数据架构的演进
基础扎实的数据分析师——弥合数据科学训练与现实世界之间的鸿沟
本章涵盖 使用一种结果驱动的流程来开展数据分析 通过贴近真实场景的项目来学习重要的数据科学概念 在分析数据和学习新技能时,聚焦于务实的解决方案 下面这种场景,你是否觉得很熟悉?你刚刚收到了组织内某个部
使用 Apache Airflow 构建数据流水线——Airflow DAG 的结构解析
本章将介绍 如何在自己的机器上运行 Airflow 如何编写并运行第一个工作流 如何查看 Airflow 界面的第一个视图 如何在 Airflow 中处理失败任务 到这里,你已经对什么是数据流水线,以
Apache Iceberg 湖仓架构设计——动手实践 Apache Iceberg
我们已经探讨了 Apache Iceberg 湖仓背后的理论——其架构、组件与优势。现在,是时候通过一个动手实操(hands-on)把它“落地”:在你的笔记本电脑上搭建一个可完整运行的 Iceberg
Apache Iceberg 湖仓架构设计——Apache Iceberg 湖仓的世界
数据架构的发展史,始终是在性能、成本与灵活性之间寻找平衡,同时确保数据可访问且受治理。多年来,企业在不同路径之间轮转——数据仓库(面向分析优化的数据库)、数据湖(在分布式存储上的文件进行分析)以及混合
Data Mesh实战——数据网格是否适合你?
本章内容 向你的组织介绍数据网格 在选择数据架构前考虑决策驱动因素 将数据网格与其他流行数据架构进行对比 将你组织的架构转型为数据网格 在第 1 章中,我们解释了数据网格的含义以及为何你的公司应考虑实
Data Mesh实战——数据网格是什么,为什么需要它
本章内容 定义数据网格(data mesh) 介绍数据网格范式的关键概念 了解为何数据网格是一次“社会—技术(socio-technical)”范式转变 看到数据网格的优势 识别落地数据网格可能面临的
Apache Hudi权威指南——构建端到端的湖仓解决方案
在已经为生产级湖仓打下运维基础之后,我们就可以在 Hudi 之上构建一个全面、集成的一体化解决方案。本章将展示如何以 Apache Hudi 为基石,搭建一套端到端的生产级数据湖仓架构。我们不再孤立地
Apache Hudi权威指南——Hudi 的生产级部署与运维
从开发环境迁移到生产环境常会带来一组全新的运维挑战。本章将为你提供在复杂环境中平滑管理 Apache Hudi 部署的工具与最佳实践,帮助以最低开销保障流水线的可靠性。 首先,我们将探讨表管理与恢复相
下一页