首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
数据
数据智能老司机
创建于2023-05-27
订阅专栏
数据相关
等 65 人订阅
共319篇文章
创建于2023-05-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
基础扎实的数据分析师——弥合数据科学训练与现实世界之间的鸿沟
本章涵盖 使用一种结果驱动的流程来开展数据分析 通过贴近真实场景的项目来学习重要的数据科学概念 在分析数据和学习新技能时,聚焦于务实的解决方案 下面这种场景,你是否觉得很熟悉?你刚刚收到了组织内某个部
使用 Apache Airflow 构建数据流水线——Airflow DAG 的结构解析
本章将介绍 如何在自己的机器上运行 Airflow 如何编写并运行第一个工作流 如何查看 Airflow 界面的第一个视图 如何在 Airflow 中处理失败任务 到这里,你已经对什么是数据流水线,以
Apache Iceberg 湖仓架构设计——动手实践 Apache Iceberg
我们已经探讨了 Apache Iceberg 湖仓背后的理论——其架构、组件与优势。现在,是时候通过一个动手实操(hands-on)把它“落地”:在你的笔记本电脑上搭建一个可完整运行的 Iceberg
Apache Iceberg 湖仓架构设计——Apache Iceberg 湖仓的世界
数据架构的发展史,始终是在性能、成本与灵活性之间寻找平衡,同时确保数据可访问且受治理。多年来,企业在不同路径之间轮转——数据仓库(面向分析优化的数据库)、数据湖(在分布式存储上的文件进行分析)以及混合
Data Mesh实战——数据网格是否适合你?
本章内容 向你的组织介绍数据网格 在选择数据架构前考虑决策驱动因素 将数据网格与其他流行数据架构进行对比 将你组织的架构转型为数据网格 在第 1 章中,我们解释了数据网格的含义以及为何你的公司应考虑实
Data Mesh实战——数据网格是什么,为什么需要它
本章内容 定义数据网格(data mesh) 介绍数据网格范式的关键概念 了解为何数据网格是一次“社会—技术(socio-technical)”范式转变 看到数据网格的优势 识别落地数据网格可能面临的
Apache Hudi权威指南——构建端到端的湖仓解决方案
在已经为生产级湖仓打下运维基础之后,我们就可以在 Hudi 之上构建一个全面、集成的一体化解决方案。本章将展示如何以 Apache Hudi 为基石,搭建一套端到端的生产级数据湖仓架构。我们不再孤立地
Apache Hudi权威指南——Hudi 的生产级部署与运维
从开发环境迁移到生产环境常会带来一组全新的运维挑战。本章将为你提供在复杂环境中平滑管理 Apache Hudi 部署的工具与最佳实践,帮助以最低开销保障流水线的可靠性。 首先,我们将探讨表管理与恢复相
Apache Hudi权威指南——基于 Hudi Streamer 构建数据湖仓
在现代组织中,数据孤岛(data silos)带来的不只是碎片化的数据,更是碎片化的努力。各业务团队常常各自为政地解决相同的数据工程问题,重复建设类似的 ETL 工具,并为模式(schemas)与格式
Apache Hudi权威指南——Hudi 中的并发控制
在数据库与数据湖仓(data lakehouse)的世界中,并发控制(concurrency control)是一个关键概念,它在面对多个并发操作时确保数据的完整性与一致性。并发控制定义了不同进程(无
Apache Hudi权威指南——维护与优化 Hudi 表
就像我们会定期打理房子以保持最佳状态一样,维护 Apache Hudi 表对一个运转良好的数据湖仓至关重要。正如房子需要定期整理、清理与重置,才能保持通透易找,表也必须周期性地审视与组织,才能保持高效
Apache Hudi权威指南——通过index提高效率
湖仓系统必须能够在分布式存储之上、面对复杂且常常不可预测的变更模式时,仍然同时保持写入效率与查询性能,去管理 PB 级数据集。这类系统运行规模巨大,需要同时支持分析型与事务型混合负载。为满足这些要求,
Apache Hudi权威指南——从Hudi读
高效地读取与查询数据是任何数据湖仓的最终目的,它直接影响分析与机器学习的速度与灵活性。因此,深入理解 Hudi 的读侧能力——以及它如何与各类查询引擎集成——对构建高性能且可靠的数据平台至关重要。基于
Apache Hudi权威指南——写入Hudi
写入操作是任何数据湖仓中的关键职能,直接影响其可靠性与性能。因此,深入理解 Hudi 写入器(writer)的内部行为——以及在你的特定用例中应当利用哪些功能——至关重要。基于第 2 章关于表布局、时
Apache Hudi权威指南——Hudi 快速入门
在第 1 章中,我们探讨了促使 Apache Hudi 成为现代数据架构有力之选的基础概念:数据湖如何演进为湖仓、Hudi 在生态中的定位、其高层架构、Hudi 技术栈以及关键特性概览。尽管理论为理解
Apache Hudi权威指南——什么是Apache Hudi?
没有人会在工作清闲的时候翻开一本讲数据平台的书。 原因很简单:搭建数据平台不是胆小者的活儿。它往往意味着大量的定制开发与试验,需要你持续跟踪瞬息万变的开源生态,并在数月甚至数年的时间里反复打磨架构。没
AutoComp:面向数据湖日志结构表的自动化数据压缩
摘要(Abstract) 数据湖中小文件激增会带来一系列挑战:查询性能下降、存储成本上升,以及分布式存储系统的可扩展性瓶颈。Delta Lake、Apache Iceberg 与 Apache Hud
论文精读:Open Data Fabric:去中心化数据交换/转换协议,兼具完整可复现与溯源能力
原文:https://arxiv.org/abs/2111.06364 摘要(ABSTRACT) 数据是我们手中最强大的决策工具。然而,尽管全球产生的数据量呈指数级增长,要将其有效利用仍面临诸多挑战:
Open Data Fabric:重构 AI 规模化时代的数据架构
企业级 AI 代理:从概念验证到量产的加速度 从客服聊天机器人到财务分析工具,各行各业的组织正将代理部署到关键业务岗位上,且速度前所未有。然而,一个令人担忧的模式正在浮现:那些在受控演示中表现出色的代
用 Altair 和 AI 进行数据叙事——数据叙事入门
本章内容包括 什么是数据叙事 数据叙事的重要性 为什么在数据叙事中使用 Python 的 Altair 与生成式 AI 工具 何时 Altair 与生成式 AI 工具不适用于数据叙事 如何阅读本书 数
下一页