首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
数据
数据智能老司机
创建于2023-05-27
订阅专栏
数据相关
等 69 人订阅
共370篇文章
创建于2023-05-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
SQL 与 dbt 分析工程实践—dbt 高级主题
dbt 是一个专注于 ELT 流程中 transformation 部分的工具。只要具备 SQL 经验,我们就可以用这个工具开发所有 analytical code。与此同时,我们还可以将这些代码封装
SQL 与 dbt 分析工程实践—使用 dbt 进行数据转换
dbt 的主要目的,是帮助你通过简单编写 SQL statements,以一种简单且集成的方式转换 data platforms 中的数据。当我们把 dbt 放在 ELT workflow 中时,它对
SQL 与 dbt 分析工程实践——SQL 分析实践
在广阔的数据与分析领域中,选择合适的工具和技术来高效处理和操作数据至关重要。有一种工具经受住了时间考验,并始终处于前沿位置,那就是 Structured Query Language(SQL)。它提供
SQL 与 dbt 分析工程实践——面向分析的数据建模
在今天这个 data-driven 的世界中,组织越来越依赖 data analytics 来获得有价值的洞察,并做出 informed decisions。Data modeling 在这个过程中发
SQL 与 dbt 分析工程实践——分析工程
Analytics 的历史发展包含许多重要里程碑和技术,它们共同塑造了今天这个领域。它始于 20 世纪 80 年代 data warehousing 的出现,data warehousing 为组织和
数据工程终极设计模式——数据工程的未来
引言 随着我们进一步进入 data-driven innovation 的时代,data engineering 的角色正在经历一场深刻转型。过去,它曾经围绕 batch ETL jobs 和 rig
数据工程终极设计模式——数据管道的生产运营化
引言 随着 data pipelines 从 proof-of-concept 演进为 production-grade systems,关注点会从构建功能转向确保系统在真实环境中的稳定性、可扩展性和
数据工程终极设计模式——构建端到端数据管道
引言 数据不会停留在一个地方。它会同时在 mobile apps、server logs、sensor networks 和 transaction systems 中生成。在这些数据能够驱动 das
数据工程终极设计模式——可扩展性与性能优化
引言 随着数据量持续增长,分析型 workloads 变得越来越复杂,确保性能和可扩展性已经成为构建可靠、高效数据系统的基础要求。能够以最小延迟处理大规模 datasets,已经不再是竞争优势,而是现
数据工程终极设计模式——数据治理与合规
引言 随着组织越来越依赖数据来驱动决策、优化运营并交付个性化服务,有效治理数据的需求变得前所未有地关键。今天,数据不只是资源,它是战略资产。然而,随着数据价值不断增长,风险也随之增加。无论是未经授权的
数据工程终极设计模式——数据质量模式
引言 在数据驱动决策中,data quality 不只是一个技术问题,它是洞察和模型可靠性的基础。不准确或不完整的数据可能会悄悄侵蚀信任、破坏 machine learning outputs,并误导
数据工程终极设计模式——机器学习工程模式
引言 当我们谈到 machine learning 时,很自然会把注意力放在构建 models 上——调优 hyperparameters、选择 algorithms,以及优化 performance
数据工程终极设计模式——数据转换与增强模式
引言 原始数据通常是混乱的、不一致的、碎片化的,因此不适合直接用于分析或 Machine Learning(ML)。因此,为了释放数据真正的潜力,必须先对其进行清洗和增强。因此,本章将覆盖把原始数据转
数据工程终极设计模式——流处理模式
引言 在实践中,虽然许多系统仍然以 batch mode 运行,但越来越多的数据正在以 real time 的方式生成,并需要被及时处理和分析。无论是一笔 credit card transactio
数据工程终极设计模式——批处理模式
引言 即使在支持连续事件流的架构中,batch processing 仍然是数据工程中的基础模式。许多核心业务功能,例如 financial reporting、regulatory reconcil
数据工程终极设计模式——数据工程中的存储设计模式
引言 在任何数据平台中,存储架构都是一项基础性决策。数据的存储方式决定了它能够被多高效地查询、系统能够多容易地扩展、数据能够多可靠地被治理,以及当 workload 演进时,系统还能保持多强的适应性。
数据工程终极设计模式——数据工程中的数据摄入模式
引言 数据摄入是每一个现代数据平台的基础。在 analytics、reporting 或 Machine Learning(ML)系统能够产生价值之前,数据必须先以可靠且可扩展的方式被收集、传输和存储
数据工程终极设计模式——数据工程中的架构模式
引言 在我们已经学习了数据工程基础之后,接下来将进入新的阶段:学习数据如何在各种架构框架中被摄入、处理、存储和服务。我们将更深入地探讨关键数据工程架构的优势、局限性和真实世界应用。 因此,我们将首先考
数据工程终极设计模式——数据工程基础
引言 组织会从各种数据源接收海量数据,例如 transactional systems、social media、IoT devices 和 enterprise applications。随着数据量
数据工程终极设计模式——数据工程导论
引言 数据工程在帮助组织大规模做出数据驱动决策方面发挥着关键作用。随着企业越来越依赖数据来支持分析、人工智能和运营效率,构建稳健数据系统的需求变得前所未有地重要。 从核心上看,数据工程关注的是设计、构
下一页