首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
数据
数据智能老司机
创建于2023-05-27
订阅专栏
数据相关
等 56 人订阅
共247篇文章
创建于2023-05-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
CockroachDB权威指南——CockroachDB入门
CockroachDB 是一个分布式、事务性、关系型、云原生的 SQL 数据库系统。听起来很复杂吧!但简而言之,CockroachDB 结合了上一代关系型数据库系统的优点——强一致性、SQL 的强大功
数据科学中的因果推断——引入因果关系
本章内容包括: 为什么以及何时我们需要因果推断 因果推断是如何工作的 观察数据和实验数据之间的区别 相关统计概念回顾 在许多企业和组织中,当我们使用机器学习时,我们的目标通常是对未来会发生什么做出有根
Snowflake数据工程——使用大语言模型输出增强数据
本章内容: 理解外部网络访问 配置外部网络访问 从 Snowpark 调用 API 端点 从 Yelp 等网站获取客户评论 推导客户评论的情感 使用大语言模型解释电子邮件内容以节省时间 Snowfla
Snowflake数据工程——持续数据摄取
本章内容包括: 比较批量数据摄取与持续数据摄取 介绍 Snowpipe 使用云消息配置 Snowpipe 使用和监控 Snowpipe 使用 Snowflake 动态表进行持续数据转换 在本章中,我们
Snowflake数据工程——数据转化
本章内容: 从云存储中摄取半结构化数据 将半结构化数据扁平化为关系型表 使用存储过程封装转换 在存储过程中实现异常处理和日志记录 构建健壮的数据管道 在本章中,我们将增强从云存储摄取数据的数据管道,这
使用 Databricks Lakehouse 构建现代数据应用程序——使用 Terraform 部署、维护和管理 DLT 管道
在本章中,我们将探讨如何使用像 Terraform 这样的自动化工具,在 Databricks 中将数据管道表示为代码,通常称为基础设施即代码(IaC)。我们将学习如何使用流行的代码编辑器(如 VS
使用 Databricks Lakehouse 构建现代数据应用程序——使用 Unity Catalog 查看数据血缘
在本章中,我们将深入探讨数据血缘在 Databricks 数据智能平台中的关键作用。您将学习如何追溯数据的来源,可视化数据集的转化过程,识别上游和下游的依赖关系,并使用目录资源管理器的血缘图功能来记录
使用 Databricks Lakehouse 构建现代数据应用程序——在Unity Catalog中管理数据位置
在本章中,我们将探讨如何使用Unity Catalog中的可安全管理对象有效管理数据存储位置——这些对象允许管理员向用户、组和服务主体授予细粒度的权限。我们将讨论六种类型的可安全管理对象,用于在Uni
使用 Databricks Lakehouse 构建现代数据应用程序——在湖仓中掌握数据治理与Unity Catalog
在本章中,我们将深入探讨如何使用Unity Catalog实现湖仓中的有效数据治理。我们将介绍如何在现有的Databricks工作区启用Unity Catalog,实现数据目录管理以便进行数据发现,如
使用 Databricks Lakehouse 构建现代数据应用程序——使用 Delta Live Tables 应用数据转换
在本章中,我们将直接探讨 Delta Live Tables (DLT) 如何使从各种输入源摄取数据变得简单而直接,无论是将文件存储到云存储中,还是连接到外部存储系统,例如关系数据库管理系统 (RDB
使用 Databricks Lakehouse 构建现代数据应用程序——扩展 DLT 管道
在本章中,我们将探讨几种扩展 Delta Live Tables (DLT) 管道的方法,以应对典型生产环境中的处理需求。我们将涵盖调优 DLT 管道的多个方面,从优化 DLT 集群设置,使管道能够迅
使用 Databricks Lakehouse 构建现代数据应用程序——使用 Delta Live Tables 管理数据质量
本章介绍了几种管理数据管道中数据集质量的技术。我们将介绍 Delta Live Tables(DLT)中的期望,这是一种在将数据合并到下游表之前,对到达的数据强制执行某些数据质量约束的方法。稍后,我们
使用 Databricks Lakehouse 构建现代数据应用程序——Delta Live Tables 简介
在本章中,我们将探讨数据行业在过去几十年中的演变。我们还将讨论为什么实时数据处理与企业如何对最新数据信号作出反应有着密切的关系。我们将解释为什么从零开始构建自己的流处理解决方案可能无法持续,并且为什么
Snowflake数据工程——数据暂存的最佳实践
本章内容 创建外部阶段,从云存储中获取数据文件 使用目录表查看阶段元数据 准备数据文件以提高加载效率 使用外部表查询外部阶段中的数据 使用物化视图提高查询性能 在本章中,我们将继续扩展在第2章中创建的
Snowflake数据工程——创建你的第一个数据管道
本章内容 将文件暂存以便导入 Snowflake 从暂存文件加载数据到暂存表 将数据从暂存表合并到目标表 使用 SQL 转换数据 使用任务自动化数据管道 在本章中,你将学习如何构建你的第一个 Snow
Snowflake数据工程——使用 Snowflake 进行数据工程
本章内容概述 聚焦 Snowflake 的数据工程功能 探讨 Snowflake 数据工程师的职责 使用 Snowflake 构建数据管道 基于 Snowflake 的数据工程应用 几乎每个行业的组织
Delta Lake权威指南——湖仓治理与安全基础
我们每天做很多事情,而不需要刻意思考它们。这些机械化的动作或自动化行为基于我们的日常惯例,以及我们随着时间积累信任的信息。我们的惯例可以是简单的,也可以是复杂的,行动通常会分组并分类到不同的逻辑范畴。
Delta Lake权威指南——成功的设计模式
考虑到Delta Lake在数据应用中的灵活性和适用性,试图涵盖所有可以使用Delta Lake的场景,就像试图描述纸张的所有潜在用途一样。其种类似乎是无限的,价值也极其巨大。尽管如此,在本章中,我们
Delta Lake权威指南——维护你的 Delta Lake
保持 Delta Lake 表格高效运行的过程,类似于任何形式的预防性维护——无论是汽车、摩托车,还是其他交通工具(如自行车、电动滑板车、滑轮鞋)。我们不会等到轮胎漏气才开始处理问题,而是会立即采取行
Delta Lake权威指南——高级特性
本章的重点不再是如何与 Delta Lake 表交互和使用它们,而是介绍一些高级特性,这些特性将对你非常有用。从本质上讲,这些 Delta Lake 特性更多地与元数据相关。在本章中,我们将首先探讨如
下一页