首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
数据
数据智能老司机
创建于2023-05-27
订阅专栏
数据相关
等 69 人订阅
共370篇文章
创建于2023-05-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Apache Hudi权威指南——基于 Hudi Streamer 构建数据湖仓
在现代组织中,数据孤岛(data silos)带来的不只是碎片化的数据,更是碎片化的努力。各业务团队常常各自为政地解决相同的数据工程问题,重复建设类似的 ETL 工具,并为模式(schemas)与格式
Apache Hudi权威指南——Hudi 中的并发控制
在数据库与数据湖仓(data lakehouse)的世界中,并发控制(concurrency control)是一个关键概念,它在面对多个并发操作时确保数据的完整性与一致性。并发控制定义了不同进程(无
Apache Hudi权威指南——维护与优化 Hudi 表
就像我们会定期打理房子以保持最佳状态一样,维护 Apache Hudi 表对一个运转良好的数据湖仓至关重要。正如房子需要定期整理、清理与重置,才能保持通透易找,表也必须周期性地审视与组织,才能保持高效
Apache Hudi权威指南——通过index提高效率
湖仓系统必须能够在分布式存储之上、面对复杂且常常不可预测的变更模式时,仍然同时保持写入效率与查询性能,去管理 PB 级数据集。这类系统运行规模巨大,需要同时支持分析型与事务型混合负载。为满足这些要求,
Apache Hudi权威指南——从Hudi读
高效地读取与查询数据是任何数据湖仓的最终目的,它直接影响分析与机器学习的速度与灵活性。因此,深入理解 Hudi 的读侧能力——以及它如何与各类查询引擎集成——对构建高性能且可靠的数据平台至关重要。基于
Apache Hudi权威指南——写入Hudi
写入操作是任何数据湖仓中的关键职能,直接影响其可靠性与性能。因此,深入理解 Hudi 写入器(writer)的内部行为——以及在你的特定用例中应当利用哪些功能——至关重要。基于第 2 章关于表布局、时
Apache Hudi权威指南——Hudi 快速入门
在第 1 章中,我们探讨了促使 Apache Hudi 成为现代数据架构有力之选的基础概念:数据湖如何演进为湖仓、Hudi 在生态中的定位、其高层架构、Hudi 技术栈以及关键特性概览。尽管理论为理解
Apache Hudi权威指南——什么是Apache Hudi?
没有人会在工作清闲的时候翻开一本讲数据平台的书。 原因很简单:搭建数据平台不是胆小者的活儿。它往往意味着大量的定制开发与试验,需要你持续跟踪瞬息万变的开源生态,并在数月甚至数年的时间里反复打磨架构。没
AutoComp:面向数据湖日志结构表的自动化数据压缩
摘要(Abstract) 数据湖中小文件激增会带来一系列挑战:查询性能下降、存储成本上升,以及分布式存储系统的可扩展性瓶颈。Delta Lake、Apache Iceberg 与 Apache Hud
论文精读:Open Data Fabric:去中心化数据交换/转换协议,兼具完整可复现与溯源能力
原文:https://arxiv.org/abs/2111.06364 摘要(ABSTRACT) 数据是我们手中最强大的决策工具。然而,尽管全球产生的数据量呈指数级增长,要将其有效利用仍面临诸多挑战:
Open Data Fabric:重构 AI 规模化时代的数据架构
企业级 AI 代理:从概念验证到量产的加速度 从客服聊天机器人到财务分析工具,各行各业的组织正将代理部署到关键业务岗位上,且速度前所未有。然而,一个令人担忧的模式正在浮现:那些在受控演示中表现出色的代
用 Altair 和 AI 进行数据叙事——数据叙事入门
本章内容包括 什么是数据叙事 数据叙事的重要性 为什么在数据叙事中使用 Python 的 Altair 与生成式 AI 工具 何时 Altair 与生成式 AI 工具不适用于数据叙事 如何阅读本书 数
算法交易系统与策略——开发交易系统的主流方法
在你动手打造自己的系统之前,必须先考察可行的实现路径。也许你的点子早有人做过,你就没必要再自己写一套程序。即便市面上没有与你想法相同的产品,你仍然可以从现有产品中汲取有价值的洞见。 当前,构建交易系统
解密营销漏斗:识别流失点,提升全链路转化
每个企业都希望更多潜在客户转化为付费用户,而理解营销漏斗是实现这一目标的基础。 无论你是初创公司还是成熟企业,营销漏斗都能帮你梳理客户从初识品牌到成为忠实拥护者的完整路径,找到转化中的关键节点,优化资
使用 OpenAI Agents SDK 构建智能体——环境配置与首个 Agent 开发
是时候上手了。我们将开始动手构建第一个 AI Agent。尽管 OpenAI Agents SDK 相对直观,在此之前仍需要先正确配置开发环境,并理解与 SDK 相关的一些基础 Python 概念。可
Snowflake 数据建模——数据库规范化(Database Normalization)
在前几章里,我们探讨了如何捕捉一个组织真实的业务运作,并用可视化语义对其进行建模。由此得到的模型与配套图表,让领域团队与数据团队更容易就业务的核心实体及其交互达成共识。然而,当建模过程推进到物理阶段时
Snowflake 数据建模——逻辑建模实战
在上一章中,我们看到数据团队与业务团队协作,创建了一个高层次的概念模型,用以表示组织的主要实体及其关系。概念模型有助于在不过度细化的情况下理解数据的整体结构与需求;而建模流程的下一阶段需要更进一步,开
Snowflake 数据建模——概念建模实战
概念数据库建模是一种高层次的数据库设计方法,着重于捕捉业务实体及其相互关系。这种方法能帮助设计者更深入地理解数据,更容易识别设计中的潜在问题或不一致之处;同时也使数据库在未来变更中更具灵活性与可适应性
Snowflake 数据建模——用建模标记看透 Snowflake 架构
在本书中,我们始终借助关系图来支撑示例、阐释那些单靠文字难以说明的思想。虽然前文介绍过多种建模风格与标记,但对可视化语义、各元素及其属性的系统性综述尚未展开。 本章将跑通一套完整的可视化工具箱:既能帮
Snowflake 数据建模——借助 Snowflake 对象来谈建模
在其最纯粹的形式中,关系建模(经规范化的表 + 严格执行的物理约束)最常见于 OLTP(联机事务处理) 数据库。事务型数据库存储的是业务信息的**最新(as-is)版本;而数据仓库则保存历史快照,并随
下一页