首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
数据
数据智能老司机
创建于2023-05-27
订阅专栏
数据相关
等 56 人订阅
共247篇文章
创建于2023-05-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
《Delta Lake Up & Running》第七章:Schema处理
传统上,数据湖一直遵循“模式在读”(schema on read)的原则,但在写入时始终存在着强制执行“模式在写”(schema on write)的挑战。这意味着在将数据写入存储时没有预定义的模式,
《Delta Lake Up & Running》第六章:使用时间旅行
由于经常会忘记WHERE子句并意外运行DELETE或UPDATE语句导致全表操作,或者需要查看特定时间点的数据或模式,因此对数据库和表进行了操作的人往往会感到恐慌。我们都有过这样的经历。或者您可能会想
《Delta Lake Up & Running》第五章:性能调优
无论是使用传统的关系型数据库管理系统(RDBMS)还是使用Delta表,当存储和检索数据时,如何组织数据的底层存储格式会显著影响执行表操作和查询所需的时间。一般而言,性能调优指的是优化系统性能的过程,
《Delta Lake Up & Running》第四章:表格删除、更新和合并
由于Delta Lake为经典数据湖添加了事务层,因此我们可以执行经典的DML操作,例如更新、删除和合并。当在Delta表上执行删除操作时,操作是在数据文件级别执行的,根据需要删除和添加数据文件。已删
《Delta Lake Up & Running》第三章:Delta表的基本操作
Delta表可以通过多种方式创建。创建表的方式主要取决于您对工具集的熟悉程度。如果您主要是SQL开发人员,可以使用SQL的CREATE TABLE来创建Delta表,而Python用户可能更喜欢使用D
《Delta Lake Up & Running》第二章:开始使用Delta Lake
在上一章中,我们介绍了Delta Lake,并了解了它如何为传统数据湖添加了事务保证、DML支持、审计、统一的流式和批处理模型、模式强制执行以及可扩展的元数据模型。 在本章中,我们将亲自尝试Delta
《Delta Lake Up & Running》第一章:数据架构的演进
作为一名数据工程师,您希望构建大规模的数据、机器学习、数据科学和人工智能解决方案,以提供最先进的性能。您通过摄取大量源数据,然后进行清洗、规范化和数据合并,最终通过易于使用的数据模型将这些数据呈现给下
《构建实时分析系统》——实时分析介绍
在商业环境中,许多数据被视为无限的,因为它随着时间的推移逐渐到达。昨天和今天,客户、雇主和机器产生了数据,并将继续在明天产生更多的数据。除非你破产,否则这个过程永远不会结束,因此数据集在任何有意义的方
《数据可观测性的基础原理》第五章:自动生成数据观察结果
在前一章介绍了低级别日志记录所面临的挑战之后,我们的重点转向探索替代方法,以增强数据可观测性并简化其采用,通过自动化。在本章中,我将介绍捕获和分析数据观察结果的新可能性和策略,为更全面的可观测性框架铺
《数据可观测性的基础原理》第四章:生成数据观察结果
正如第三章所解释的,数据可观察性结合了技术和人员的作用,从数据角度收集系统状态的信息以及对该状态的期望。然后,它利用这些信息来使系统更具适应性或更加弹性。 本章将解释如何应用数据可观察性实践。我将从
《数据可观测性的基础原理》第三章:数据可观测性在数据组织中的角色
在上一章中,您了解了数据可观测性的定义以及数据技术和团队如何拥抱它。在本章中,我将系统地研究数据可观测性,分析它如何融入数据组织,比如数据架构和文化。因为数据文化本身就是一个复杂的系统,所以我将分两个
《数据可观测性的基础原理》第二章:数据可观测性的组成部分
正如在第1章中介绍的,数据可观测性是与其他领域(如应用程序或分析)相交的(IT)可观测性领域的一部分。在本章中,我们将介绍如何将数据可观测性及其交互添加到系统中,如图2-1所示。 正如在第1章中讨论的
《数据可观测性的基础原理》第一章:介绍数据可观测性
从前,有一个年轻的数据分析师,名叫Alex,他对数据充满了深厚的热情。Alex热爱数据能够帮助企业做出明智的决策,推动增长并取得成功的方式。然而,Alex也意识到误解数据或者对数据的可见性不足可能带来
《基于Apache Airflow的数据流管道》第四章:使用Airflow上下文对任务进行模板化
本章包括以下内容: 使用模板化在运行时渲染变量 PythonOperator与其他操作符的变量模板化对比 为调试目的渲染模板化的变量 在外部系统上执行操作 在前面的章节中,我们简单介绍了DAG和操作符
《基于Apache Airflow的数据流管道》第三章:Airflow中的调度
本章涵盖的内容: 在固定时间间隔内运行DAG 构建动态DAG以逐步处理数据 使用回填加载和重新处理过去的数据集 应用可靠任务的最佳实践 在前一章中,我们探索了Airflow的用户界面,并向您展示了如何
《基于Apache Airflow的数据流管道》第二章:Airflow DAG 解剖
本章涵盖内容: 在您自己的机器上运行Airflow 编写并运行您的第一个工作流 查看Airflow界面的第一个视图 处理Airflow中的任务失败 在前一章中,我们了解了为什么在处理数据及其众多工具时
《基于Apache Airflow的数据流管道》第七章:与外部系统通信
这一章涵盖了以下内容: 与Airflow之外的系统进行交互的方法 应用于特定外部系统的操作器 在Airflow中实现A到B的操作器 测试与外部系统连接的任务 在之前的章节中,我们专注于编写Airflo
《基于Apache Airflow的数据流管道》第一章:认识 Apache Airflow
本章内容包括: 展示数据流程如何以任务图的形式在工作流中表示 了解Airflow如何适应工作流管理器的生态系统 判断Airflow是否适合您的需求 人们和企业日益趋向于更加数据驱动,并且正在开发数据流
《Trino权威指南》第六章:连接器
在第3章中,您配置了一个目录,使用连接器访问Trino中的数据源,具体而言,是TPC-H基准数据,并学习了如何使用SQL查询该数据的一些知识。 目录是使用Trino的重要方面。它们定义了与底层数据源和
《Trino权威指南》第三章:使用Trino
恭喜!在前几章中,您已经了解了Trino并学会了如何安装、配置和启动它。现在您可以开始使用它了。 Trino命令行界面 Trino命令行界面(CLI)提供了一个基于终端的交互式shell,用于运行查询
下一页