首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
数据
数据智能老司机
创建于2023-05-27
订阅专栏
数据相关
等 56 人订阅
共247篇文章
创建于2023-05-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Iceberg的目录
在本章中,我们将深入探讨Iceberg目录。您已经了解目录是Iceberg的关键组件,它确保多个读写者的一致性,并发现环境中可用的表。在本章中,我们将讨论: 目录的一般要求,以及推荐用于生产环境的附加
写入查询和读取查询的生命周期
Apache Iceberg 表格式提供了在读取和写入过程中高性能的查询,使您能够直接在数据湖上运行在线分析处理(OLAP)工作负载。促进这种性能的是 Iceberg 表格式的各种组件设计方式。因此,
Apache Iceberg的架构
本章中,我们将讨论架构和规范,使得Apache Iceberg能够解决Hive表格格式固有的问题,通过深入了解Iceberg表格的内部情况。我们将介绍Iceberg表格的不同结构,以及每个结构提供和启
Apache Iceberg 简介
数据是组织策划关键业务决策所需的信息和洞察的主要资产。无论是用于分析特定产品的年度销售趋势还是预测未来的市场机会,数据都塑造了组织成功的方向。此外,如今数据不仅仅是一种美好的附加条件,而且是一种必需,
工作流管理、监控和数据质量
在本章中,我们将深入探讨工作流管理、事件管理和数据质量这三个在数据集成中至关重要的组成部分。我们将探讨高效的工作流和事件管理在无缝协调数据集成流程中的基本概念和重要性。关键组件如工作流设计、执行、调度
数据集成技术
这一章对将不同数据源整合成统一、可访问格式的策略和方法进行了深入探讨。该章的第一部分介绍了两种主要的数据集成模型:点对点和基于中间件的集成。将详细检验每个模型的优缺点和使用案例,以提供对它们在不同背景
数据存储技术与架构
在今天这个快节奏、数据驱动的世界中,企业必须管理和分析其数据资产,以获得竞争优势。这些数据以各种形式存在,从结构化数据,如商业交易,到非结构化数据,如社交媒体帖子或电子邮件等。快速存储和处理这些多种类
列式数据格式及比较
本章我们将继续探讨数据源,具体来说,我们将进入列式数据格式的领域。正如你将会了解到的,这些格式提供了引人注目的优势,特别是对于分析工作负载。然而,它们也带来了一些挑战,需要深思熟虑。 接着,我们将比较
数据集成的架构和历史
在本章中,我们将回顾数据集成的历史,并探索多样化的架构,这对于理解这一迅速发展的主题的轨迹至关重要。俗话说,要知道我们要去哪里,首先必须了解我们曾经在哪里。基于这一理念,我们将回顾数据集成领域的起源、
数据集成介绍
数据集成的重要性在于它为在数据管理和分析领域获得深入见解打下了基础。在当今以数据为驱动的世界中,快速收集和协调数据的能力至关重要,这些数据不断增长,来源多样,复杂度不断提高。 本章将深入探讨数据集成的
DuckDB实战:高级数据聚合和分析
这章的目的是启发您思考如何使用 DuckDB 等分析型数据库来生成报表,相比于使用命令式编程语言编写的庞大代码,这种方法更加高效。虽然我们将以第三章为基础进行讲解,但我们将很快跳过简单的 SELECT
DuckDB快速入门
既然我们已经了解了 DuckDB 的基本概念以及它在 2020 年代初期崛起的原因,现在是时候熟悉它的操作方法了。本章将重点介绍 DuckDB 命令行界面 (CLI)。我们将学习如何在不同环境中安装它
DuckDB介绍
很高兴您拿起这本书,并准备学习一种似乎与我们过去十年所学的大数据系统知识背道而驰的技术。我们使用 DuckDB 的过程中收获了很多乐趣,希望您读完本书后也会和我们一样兴奋。本书将采用实践动手、简洁明了
数据建模与分析
在当今数据驱动の世界 (shì jiè 世界) 中,组织越来越依赖数据分析来获取 valuable insights(宝贵见解)并做出明智决策。数据建模在此过程中发挥着重要作用,为构建和组织数据以支持
数据工程
数据分析的历史发展包含许多重要的里程碑和技术,它们共同塑造了当今的数据分析领域。它始于 20 世纪 80 年代数据仓库的出现,数据仓库为组织和分析业务数据奠定了基础框架。计算机科学家 Bill Inm
使用机器学习自动化数据质量监控
与基于规则的测试和指标监控相比,机器学习是一种具有许多优势的统计方法:它具有可扩展性,可以检测未知的变化,尽管有对人格化的风险,但它是智能的。它可以从先前的输入中学习,利用上下文信息来减少误报,并且随
评估自动化数据质量监控的业务影响
通过使用机器学习自动化数据质量监控,您可以超越传统方法,如指标监控和基于规则的测试。但在我们深入讨论这种方法的实施细节之前,我们想先解决可能存在的疑问(或者至少在页面上)。这样做值得吗? 我们不会假装
数据质量监控策略与自动化的角色
数据质量监控有许多不同的方法。在评估选项之前,先思考成功的标志是什么会有所帮助。在本章中,我们将定义成功的要求。然后我们将逐步介绍传统策略——手动检查、基于规则的测试和指标监控——并看看它们如何衡量。
数据质量的必要性
2022年3月,Equifax正在将其数据从本地系统迁移到新的云基础架构,这是一个众所周知的棘手过程。在某个地方出现了错误,影响了信用评分的计算方式。大约12%的公司信用评分数据受到影响,成千上万的人
使用人工智能的数据织构和数据网格方法——Data Fabric 和 Data Mesh 基础
介绍 回顾历史,数据架构是针对现有IT解决方案的痛点和新业务需求而开发的,通常是在新兴技术时期。了解这种演变有助于将诸如数据织构和数据网格之类的新数据架构趋势置于组织中现有数据景观的背景下。为了展示新
下一页