首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
数据
数据智能老司机
创建于2023-05-27
订阅专栏
数据相关
等 70 人订阅
共370篇文章
创建于2023-05-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
在 Databricks 上的 Unity Catalog 数据治理——身份识别与管理
在面向客户的岗位上,一个好处是能出差、去不同的城市。如果你和 Karthik 一样,喜欢旅行、住舒适的酒店,那么想象一下:去一座新城市开会,住进一家设施现代的酒店。从订房到退房,中间都有哪些步骤? 第
在 Databricks 上的 Unity Catalog 数据治理——Unity Catalog 的内部机制
2021 年,当 Nexa Boutique(下称 Nexa)的数据架构师在为公司评估数据治理战略时,Databricks 发布了 Unity Catalog。这是一套原生于 Databricks 平
在 Databricks 上的 Unity Catalog 数据治理——现代数据治理栈
在本章中,我们将先介绍数据治理及其重要性。如果你已经对数据治理有总体了解,并且认同它在分析领域的关键作用,可以直接跳到“湖仓一体的曙光”。如果你已熟悉湖仓(lakehouse)范式与 Databric
数据工程设计模式——数据检索模式
引言 在前面的章节里,我们聚焦于基于主键与二级键的各种数据检索设计模式。这类查询通常依赖传统的数据结构(如查找索引、哈希索引等),其返回结果是确定性的——也就是说,结果会与用户给定的谓词精确匹配。 然
数据工程设计模式——数据缓存与低延迟服务
引言 现代大规模 Web 应用对延迟有着极为严格的要求。更高的延迟会带来糟糕的用户体验。许多网站会在特定的延迟指标上投入大量时间和金钱进行优化,例如“登录时间小于 2 秒”“首页加载小于 2 秒”“其
数据工程设计模式——数据复制与分区
引言 在第 9 章《数据库与事务型数据》中,我们讨论了分布式数据库的重要性,以及它们如何在出现部分系统故障时仍能保障业务连续性。我们也从分布式系统的视角出发,说明了传统数据库概念(如一致性与持久性)在
数据工程设计模式——冷热数据存储
引言 在过去十年里,个人、企业与机构产生的数据量激增,这给“超大规模数据”的管理带来了挑战。产生海量数据的企业需要为正在生成的数据寻找合适的管理方案,还要识别数据的访问模式,区分“高频访问数据”和“低
数据工程设计模式——数据湖与勋章架构
引言(Introduction) 本章将不再沿用前面电商网站的示例,转而引入另一类常见行业——出行聚合平台。出行聚合平台提供机票预订、酒店预订、火车票、汽车/巴士票、网约车等多种服务。日常运营中,这些
数据工程设计模式——数据仓库与数据分析
引言(Introduction) 在当今竞争激烈的环境中,理解客户行为至关重要。本章将探讨企业如何将原始的电商数据转化为数据分析与数据仓库驱动的强大洞察。我们将延续前几章的电商网站示例,讨论若干商业智
数据工程设计模式——数据库与事务型数据
引言(Introduction) 本章将介绍关系型数据库与分布式 NoSQL 数据库,并探讨在实际用途中关于视图(views) 、**二级索引(secondary indexes)**等的用例与设计模
数据工程设计模式——数据基础
引言(Introduction) 本章将帮助读者理解数据工程师用来表示与组织数据的各类数据类型与机制。我们将以电商应用为例,进一步讲解数据基础。同时,读者还将接触数据建模(data modeling)
数据工程设计模式——ETL和ELT
引言(Introduction) 本章将探讨 ETL(Extract, Transform, Load:抽取-转换-加载) 与 ELT(Extract, Load, Transform:抽取-加载-转
数据工程设计模式——Lambda架构
引言(Introduction) 本章将深入探讨 Lambda 架构这一数据工程模式,并使读者熟悉如何用该模式构建解决方案。内容将涵盖 Lambda 模式能够解决的用例;还将基于开源与云技术讲解如何设
数据工程设计模式——微批
引言(Introduction) 本章将深入剖析微批(micro-batching) 设计模式,并让读者熟悉如何用该模式构建解决方案。内容将涵盖微批可解决的用例;还将基于开源技术讲解如何设计采用微批的
数据工程设计模式——实时摄取与处理
引言(Introduction) 本章将深入解析实时(real-time)模式,并让读者熟悉如何用该模式构建解决方案。内容涵盖实时模式可解决的用例;同时讨论如何使用开源技术设计实时系统,并通过示例应用
数据工程设计模式——批量摄取与处理
引言(Introduction) 在本章中,我们将深入理解批处理(batch)模式的细节,让读者熟悉如何用批处理模式构建解决方案。内容将覆盖批处理模式能够解决的用例;我们还会讨论如何使用开源技术设计批
数据工程设计模式——数据工程的模式、术语与技术栈
引言(Introduction) 本章将对常见的数据工程模式做一个高层概览,说明其重要性以及如何有效运用这些模式来解决领域中的常见挑战。文中还包含这些模式的示例,展示它们如何解决数据工程中经常遇到的典
数据工程设计模式——理解数据工程
翻译 引言(Introduction) 本章将回顾数据工程在构建与管理数据管道中的基础概念、流程与角色。我们将贯穿数据生命周期——从采集与转换到存储与分析——并突出实现可扩展、高效数据管理的关键技术、
Apache Polaris权威指南——使用 Apache Polaris 开源版
在前面的章节中,我们深入探讨了 Apache Polaris、其关键特性以及 API。现在,是时候走出理论,动手在本地部署并使用 Apache Polaris 了。通过实操,你将理解各组件如何协同工作
Apache Polaris权威指南——Polaris REST API
在本章中,我们将深入介绍 Apache Polaris 提供的 REST API,用于管理 catalogs、roles、namespaces、tables 与 views。Polaris REST
下一页