首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
数据
数据智能老司机
创建于2023-05-27
订阅专栏
数据相关
等 60 人订阅
共300篇文章
创建于2023-05-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
构建 Medallion 架构——打地基
在建房子之前,必须先打好坚实的地基。Medallion 架构亦然。本章作为预备性的桥段,引入我们在讨论 Medallion 架构时会反复出现的关键组件与模式,也为第 3 章的深入讲解(Medallio
构建 Medallion 架构——数据架构的演进
构建稳健的数据架构是数据管理中最具挑战性的环节之一。 从数据采集、转换、分发到最终消费,整条处理流程会因多种因素而显著不同:包括治理方式、所用工具、组织的风险画像、规模与成熟度、用例需求,以及性能、灵
Databricks 的极致数据工程——数据工程基础
引言(Introduction) 在当今数据驱动的世界里,组织正面临如何高效管理并从海量数据中提取价值的挑战。这催生了数据工程(Data Engineering)这一关键学科:专注于数据采集、转换与管
Snowflake Cortex AI:面向生成式 AI 应用的解决方案——机器学习函数概览
引言(Introduction) 在深入探讨 Cortex 的生成式 AI(Generative AI)能力之前,先了解其原生机器学习(ML)函数是有价值的,这将为理解平台的高级分析能力打下坚实基础。
Snowflake Cortex AI:面向生成式 AI 应用的解决方案——理解 Snowflake Cortex
引言(Introduction) 人工智能(AI)与机器学习(ML)的迅猛发展为企业利用数据驱动洞察创造了新机遇。但把 AI 融入既有企业工作流常常面临重大挑战:基础设施复杂度高、数据安全顾虑多、且需
Snowflake Cortex AI:面向生成式 AI 应用的解决方案——Snowflake 生态中的 AI/ML 入门
引言(Introduction) 本章将介绍 Snowflake 生态中的人工智能(AI)与机器学习(ML)。内容涵盖核心 AI 概念、AI 与生成式 AI(Generative AI)的影响与工作原
在 Databricks 上的 Unity Catalog 数据治理——AI 治理
“AI 驱动”已经成了各类组织与产品最常用的形容词。夸张宣传当然不少,但确实有越来越多的公司希望利用自身数据,借助最新的 AI 进展做出有用的东西。就像“数字化转型”,AI 转型也是真实且正在发生的。
在 Databricks 上的 Unity Catalog 数据治理——访问控制与权限模型
在第 1 章里,我们介绍了湖仓范式,并说明 Databricks 平台如何将数据存放在云对象存储中,并提供用于高效查询和 ACID 属性的优化层。第 3 章我们讨论了身份管理的概念,并简单触及了访问管
在 Databricks 上的 Unity Catalog 数据治理——Unity Catalog 与计算
“技术;多用户计算机”(Technology; The Multi-User Computers) 《纽约时报》1984 年 8 月 23 日纸质版刊登了题为“Technology; The Mult
在 Databricks 上的 Unity Catalog 数据治理——身份识别与管理
在面向客户的岗位上,一个好处是能出差、去不同的城市。如果你和 Karthik 一样,喜欢旅行、住舒适的酒店,那么想象一下:去一座新城市开会,住进一家设施现代的酒店。从订房到退房,中间都有哪些步骤? 第
在 Databricks 上的 Unity Catalog 数据治理——Unity Catalog 的内部机制
2021 年,当 Nexa Boutique(下称 Nexa)的数据架构师在为公司评估数据治理战略时,Databricks 发布了 Unity Catalog。这是一套原生于 Databricks 平
在 Databricks 上的 Unity Catalog 数据治理——现代数据治理栈
在本章中,我们将先介绍数据治理及其重要性。如果你已经对数据治理有总体了解,并且认同它在分析领域的关键作用,可以直接跳到“湖仓一体的曙光”。如果你已熟悉湖仓(lakehouse)范式与 Databric
数据工程设计模式——数据检索模式
引言 在前面的章节里,我们聚焦于基于主键与二级键的各种数据检索设计模式。这类查询通常依赖传统的数据结构(如查找索引、哈希索引等),其返回结果是确定性的——也就是说,结果会与用户给定的谓词精确匹配。 然
数据工程设计模式——数据缓存与低延迟服务
引言 现代大规模 Web 应用对延迟有着极为严格的要求。更高的延迟会带来糟糕的用户体验。许多网站会在特定的延迟指标上投入大量时间和金钱进行优化,例如“登录时间小于 2 秒”“首页加载小于 2 秒”“其
数据工程设计模式——数据复制与分区
引言 在第 9 章《数据库与事务型数据》中,我们讨论了分布式数据库的重要性,以及它们如何在出现部分系统故障时仍能保障业务连续性。我们也从分布式系统的视角出发,说明了传统数据库概念(如一致性与持久性)在
数据工程设计模式——冷热数据存储
引言 在过去十年里,个人、企业与机构产生的数据量激增,这给“超大规模数据”的管理带来了挑战。产生海量数据的企业需要为正在生成的数据寻找合适的管理方案,还要识别数据的访问模式,区分“高频访问数据”和“低
数据工程设计模式——数据湖与勋章架构
引言(Introduction) 本章将不再沿用前面电商网站的示例,转而引入另一类常见行业——出行聚合平台。出行聚合平台提供机票预订、酒店预订、火车票、汽车/巴士票、网约车等多种服务。日常运营中,这些
数据工程设计模式——数据仓库与数据分析
引言(Introduction) 在当今竞争激烈的环境中,理解客户行为至关重要。本章将探讨企业如何将原始的电商数据转化为数据分析与数据仓库驱动的强大洞察。我们将延续前几章的电商网站示例,讨论若干商业智
数据工程设计模式——数据库与事务型数据
引言(Introduction) 本章将介绍关系型数据库与分布式 NoSQL 数据库,并探讨在实际用途中关于视图(views) 、**二级索引(secondary indexes)**等的用例与设计模
数据工程设计模式——数据基础
引言(Introduction) 本章将帮助读者理解数据工程师用来表示与组织数据的各类数据类型与机制。我们将以电商应用为例,进一步讲解数据基础。同时,读者还将接触数据建模(data modeling)
下一页