首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
数据
数据智能老司机
创建于2023-05-27
订阅专栏
数据相关
等 60 人订阅
共300篇文章
创建于2023-05-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
列式数据格式及比较
本章我们将继续探讨数据源,具体来说,我们将进入列式数据格式的领域。正如你将会了解到的,这些格式提供了引人注目的优势,特别是对于分析工作负载。然而,它们也带来了一些挑战,需要深思熟虑。 接着,我们将比较
数据集成的架构和历史
在本章中,我们将回顾数据集成的历史,并探索多样化的架构,这对于理解这一迅速发展的主题的轨迹至关重要。俗话说,要知道我们要去哪里,首先必须了解我们曾经在哪里。基于这一理念,我们将回顾数据集成领域的起源、
数据集成介绍
数据集成的重要性在于它为在数据管理和分析领域获得深入见解打下了基础。在当今以数据为驱动的世界中,快速收集和协调数据的能力至关重要,这些数据不断增长,来源多样,复杂度不断提高。 本章将深入探讨数据集成的
DuckDB实战:高级数据聚合和分析
这章的目的是启发您思考如何使用 DuckDB 等分析型数据库来生成报表,相比于使用命令式编程语言编写的庞大代码,这种方法更加高效。虽然我们将以第三章为基础进行讲解,但我们将很快跳过简单的 SELECT
DuckDB快速入门
既然我们已经了解了 DuckDB 的基本概念以及它在 2020 年代初期崛起的原因,现在是时候熟悉它的操作方法了。本章将重点介绍 DuckDB 命令行界面 (CLI)。我们将学习如何在不同环境中安装它
DuckDB介绍
很高兴您拿起这本书,并准备学习一种似乎与我们过去十年所学的大数据系统知识背道而驰的技术。我们使用 DuckDB 的过程中收获了很多乐趣,希望您读完本书后也会和我们一样兴奋。本书将采用实践动手、简洁明了
数据建模与分析
在当今数据驱动の世界 (shì jiè 世界) 中,组织越来越依赖数据分析来获取 valuable insights(宝贵见解)并做出明智决策。数据建模在此过程中发挥着重要作用,为构建和组织数据以支持
数据工程
数据分析的历史发展包含许多重要的里程碑和技术,它们共同塑造了当今的数据分析领域。它始于 20 世纪 80 年代数据仓库的出现,数据仓库为组织和分析业务数据奠定了基础框架。计算机科学家 Bill Inm
使用机器学习自动化数据质量监控
与基于规则的测试和指标监控相比,机器学习是一种具有许多优势的统计方法:它具有可扩展性,可以检测未知的变化,尽管有对人格化的风险,但它是智能的。它可以从先前的输入中学习,利用上下文信息来减少误报,并且随
评估自动化数据质量监控的业务影响
通过使用机器学习自动化数据质量监控,您可以超越传统方法,如指标监控和基于规则的测试。但在我们深入讨论这种方法的实施细节之前,我们想先解决可能存在的疑问(或者至少在页面上)。这样做值得吗? 我们不会假装
数据质量监控策略与自动化的角色
数据质量监控有许多不同的方法。在评估选项之前,先思考成功的标志是什么会有所帮助。在本章中,我们将定义成功的要求。然后我们将逐步介绍传统策略——手动检查、基于规则的测试和指标监控——并看看它们如何衡量。
数据质量的必要性
2022年3月,Equifax正在将其数据从本地系统迁移到新的云基础架构,这是一个众所周知的棘手过程。在某个地方出现了错误,影响了信用评分的计算方式。大约12%的公司信用评分数据受到影响,成千上万的人
使用人工智能的数据织构和数据网格方法——Data Fabric 和 Data Mesh 基础
介绍 回顾历史,数据架构是针对现有IT解决方案的痛点和新业务需求而开发的,通常是在新兴技术时期。了解这种演变有助于将诸如数据织构和数据网格之类的新数据架构趋势置于组织中现有数据景观的背景下。为了展示新
Trino源码解析(一)——源码阅读环境准备
工具准备 操作系统:Mac OS X or Linux JDK版本要求比较高,目前我下载的JDK版本要求最低是21.0.1 Maven,但是Maven版本并不重要,因为编译的时候会通过./mvnw来使
解读数据架构——现代化技术栈
当您深入研究本章内容时,您首要的决定是在开源解决方案和云服务提供商提供的产品之间做出选择。然而,还有更多需要考虑的因素。我将指导您思考您的数据需求规模以及组织的灵活性要求。 除此之外,我们将探讨云服务
解读数据架构——是否应该采用数据网格?神话、关注点和未来
我要直言不讳——关于数据网格挑战的这一章是本书最长的章节之一。这并不是因为我认为数据网格是一个坏主意,或者我所讨论的其他架构更好;而是因为有很多关于数据网格的神话、关注点和挑战需要您了解。如果您决定构
解读数据架构——数据网格基础
数据网格是一种去中心化数据架构,具有四个特定特征。首先,它要求指定领域内的独立团队拥有他们的分析数据。其次,在数据网格中,数据被视为产品,以帮助数据使用者发现、信任并将其用于任何目的。第三,它依赖于自
解读数据架构——数据湖仓
我已经简要介绍了数据湖仓库作为数据湖和数据仓库概念的融合。数据湖仓库的理念是通过仅使用数据湖来存储所有数据,而不是还有单独的关系型数据仓库来简化事务。为了实现这一点,数据湖需要更多功能来替代关系型数据
解读数据架构——数据存储解决方案和流程
在数字化时代,数据已经成为组织的生命线。但是,正如任何经验丰富的数据专业人士所知,仅仅拥有数据是不够的。真正的价值在于如何有效地管理、存储和处理这些数据。这就是为什么本章是一本全面指南,旨在帮助您在复
解读数据架构——数据编织
数据编织架构是现代数据仓库(MDW)架构的演进:一种高级层次,建立在MDW之上,旨在增强数据的可访问性、安全性、可发现性和可用性。想象一下数据编织在整个公司中蔓延,汇集所有数据并将其提供给需要的每个人
下一页