首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
数据
数据智能老司机
创建于2023-05-27
订阅专栏
数据相关
等 70 人订阅
共377篇文章
创建于2023-05-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
数据工程终极设计模式——流处理模式
引言 在实践中,虽然许多系统仍然以 batch mode 运行,但越来越多的数据正在以 real time 的方式生成,并需要被及时处理和分析。无论是一笔 credit card transactio
数据工程终极设计模式——批处理模式
引言 即使在支持连续事件流的架构中,batch processing 仍然是数据工程中的基础模式。许多核心业务功能,例如 financial reporting、regulatory reconcil
数据工程终极设计模式——数据工程中的存储设计模式
引言 在任何数据平台中,存储架构都是一项基础性决策。数据的存储方式决定了它能够被多高效地查询、系统能够多容易地扩展、数据能够多可靠地被治理,以及当 workload 演进时,系统还能保持多强的适应性。
数据工程终极设计模式——数据工程中的数据摄入模式
引言 数据摄入是每一个现代数据平台的基础。在 analytics、reporting 或 Machine Learning(ML)系统能够产生价值之前,数据必须先以可靠且可扩展的方式被收集、传输和存储
数据工程终极设计模式——数据工程中的架构模式
引言 在我们已经学习了数据工程基础之后,接下来将进入新的阶段:学习数据如何在各种架构框架中被摄入、处理、存储和服务。我们将更深入地探讨关键数据工程架构的优势、局限性和真实世界应用。 因此,我们将首先考
数据工程终极设计模式——数据工程基础
引言 组织会从各种数据源接收海量数据,例如 transactional systems、social media、IoT devices 和 enterprise applications。随着数据量
数据工程终极设计模式——数据工程导论
引言 数据工程在帮助组织大规模做出数据驱动决策方面发挥着关键作用。随着企业越来越依赖数据来支持分析、人工智能和运营效率,构建稳健数据系统的需求变得前所未有地重要。 从核心上看,数据工程关注的是设计、构
构建 Apache Iceberg 湖仓架构——Apache Iceberg 的生产运营化
本章内容包括: 自动化 Iceberg maintenance 使用 metadata 进行 health monitoring 执行 retention 和 compliance 跟踪 change
构建 Apache Iceberg 湖仓架构——维护 Iceberg 数据湖仓
本章内容包括: 识别并解决由次优 data files 和 metadata files 导致的性能问题 运行 compaction jobs,以优化 file layout 并提升 query sp
构建 Apache Iceberg 湖仓架构——理解消费层
本章内容包括: 跨工具的 semantic consistency JDBC、ODBC、Arrow Flight 和 MCP 等开放接口 评估 BI 工具、notebook environments
构建 Apache Iceberg 湖仓架构——设计联邦层
本章内容包括: 评估 data federation requirements 设计 federation layer components 比较 Dremio 和 Trino 的 federated
构建 Apache Iceberg 湖仓架构——实现目录层
本章内容包括: 根据审计洞察定义 catalog requirements Catalog layer 在 Apache Iceberg 中的角色 评估 Apache Iceberg catalog
构建 Apache Iceberg 湖仓架构——构建摄入层架构
本章内容包括: Ingestion performance、reliability 和 latency 需求 比较 batch、micro-batch 和 streaming ingestion st
构建 Apache Iceberg 湖仓架构——选择存储层
本章内容包括: 存储性能、安全性和完整性需求 Block storage 和 object storage 架构 Parquet 和 S3 API 作为基础标准 HDFS、MinIO 和 Everpu
构建 Apache Iceberg 湖仓架构——为迁移到 Apache Iceberg 做准备
本章内容包括: 执行基础设施审计 让利益相关方参与进来,以发现技术和组织需求 记录当前工具、存储系统和治理实践 将审计发现转化为有优先级、可执行的需求 关于 data storage、ingestio
构建 Apache Iceberg 湖仓架构——Apache Iceberg 动手实践
本章内容包括: 搭建 Apache Iceberg 环境 在 Spark 中创建 Iceberg tables 在 Dremio 中读取 Iceberg tables 构建商业智能 dashboard
构建 Apache Iceberg 湖仓架构——Apache Iceberg 与数据湖仓
本章内容包括: Apache 的 Iceberg table format 是什么 Apache Iceberg 的优势 基于 Apache Iceberg 的数据湖仓组件 Apache Iceber
构建 Apache Iceberg 湖仓架构——数据湖仓的世界
本章内容包括: 什么是数据湖仓,以及它与传统数据架构有何不同 Apache Iceberg 如何塑造湖仓范式 什么时候以及为什么要实现 Apache Iceberg lakehouse 数据架构的演进
基础扎实的数据分析师——弥合数据科学训练与现实世界之间的鸿沟
本章涵盖 使用一种结果驱动的流程来开展数据分析 通过贴近真实场景的项目来学习重要的数据科学概念 在分析数据和学习新技能时,聚焦于务实的解决方案 下面这种场景,你是否觉得很熟悉?你刚刚收到了组织内某个部
下一页