数据

数据相关

等 70 人订阅共377篇文章创建于2023-05-27

有效的 Transformations

最常见的 Spark 程序通常是围绕 RDD 和 Datasets 构建的。大多数使用 RDD API 的 Spark 程序，都会从稳定存储中读取数据并转成 RDD 格式，然后在 RDD 上执行一系列

10天前
14
点赞
评论

有效的 Transformations

Joins，SQL 与 Core

连接数据是许多流水线中的重要组成部分。Spark Core 和 SQL 都支持相同的基本 join 类型。不过，它们有非常不同的执行选项和性能表现。虽然 joins 非常常见也非常强大，但它们值得被特

11天前
11
点赞
评论

Joins，SQL 与 Core

DataFrames、Datasets 与 Spark SQL

2017 年，我们曾预测，Spark 的未来会由 Spark SQL DataFrames 和 Datasets 接口的简单性与易采用性来定义。今天，它们已经成为 Spark 开发者最常使用的能力。凭

11天前
17
点赞
评论

DataFrames、Datasets 与 Spark SQL

从 2.4 到 Spark 4.2 有什么新变化

自 2.4 以来，Spark 已经发生了显著变化。如果只是列举已经解决的问题，完全可以写满一整本书。在本章中，你将理解 Spark 中已经发生的、最重要的性能相关变化，同时也会稍微向前看一看，了解当前

11天前
20
点赞
评论

从 2.4 到 Spark 4.2 有什么新变化

当我们开始撰写本书第二版时，最早要面对的任务之一，就是把示例从 Spark 2.2 升级到 Spark 3.3，后来又升级到 Spark 4；这本书我们花了一段时间才完成。在日常工作中，我们也经常面对

11天前
9
点赞
评论

Spark 如何工作

本章介绍 Spark 的整体设计，以及它在大数据生态系统中的位置。Spark 过去常被拿来与 ASF MapReduce 比较，因为 Spark 也可以与 Hadoop 一起用于分布式数据处理。现在，

11天前
16
点赞
评论

高性能 Spark 入门

什么是 Spark，以及为什么性能很重要 ASF 目前代表 Apache Software Foundation，尽管现在也有人呼吁给这个基金会改名。Spark 是一个高性能、通用的数据并行分布式计算

11天前
14
点赞
评论

FastAPI教程——Web 层

第 3 章快速介绍了如何定义 FastAPI Web 端点、向它们传递简单字符串输入，并获得响应。本章会进一步进入 FastAPI 应用程序的顶层——也可以称为接口层或路由层——以及它与 Servic

1月前
20
点赞
评论

FastAPI教程——Web 层

FastAPI教程——Async、并发与 Starlette 导览

预览上一章简要介绍了开发者在编写一个新的 FastAPI 应用程序时最先会遇到的内容。本章重点介绍 FastAPI 底层的 Starlette 库，尤其是它对异步处理的支持。在概览 Python 中

1月前
37
点赞
评论

FastAPI教程——Async、并发与 Starlette 导览

FastAPI教程——现代python

预览 Python 一直在演进，以跟上不断变化的技术世界。本章会讨论一些适用于上一章所提问题的 Python 特性，以及少量额外内容：工具 API 和服务变量和类型提示数据结构 Web 框架工

1月前
20
点赞
评论

FastAPI教程——现代python

实时和离线口径怎么一致？别让“两个数”毁掉数据平台的信任

做数据平台的人，大概率都遇到过一个很尴尬的问题：运营看实时大屏，今天订单数是 10,238。财务看离线日报，今天订单数是 10,191。老板问：“到底哪个是真的？” 然后数据团队开始解释： “实

1月前
94
点赞
评论

实时和离线口径怎么一致？别让“两个数”毁掉数据平台的信任

IoT 实时链路怎么设计？从设备事件到业务动作的一套架构师级拆解

很多人聊 IoT 实时链路，一上来就问： “用 Kafka 还是 Pulsar？” “Flink 窗口怎么写？” “时序库选 IoTDB、InfluxDB 还是 ClickHouse？” “要不要上湖

1月前
66
点赞
评论

IoT 实时链路怎么设计？从设备事件到业务动作的一套架构师级拆解

权限和隐私不是“加个 RBAC”：一套大数据平台可落地的安全治理架构

很多团队做数据平台，前期都很兴奋：数据接进来了，指标跑起来了，BI 看板也上线了，业务方开始天天要数据。然后问题来了： “这个表谁能看？” “手机号能不能给运营？” “研发查生产数据要不要审批？”

1月前
93
点赞
评论

权限和隐私不是“加个 RBAC”：一套大数据平台可落地的安全治理架构

湖仓到底用什么：Iceberg、Hudi、Delta 怎么选？

过去几年，大家聊湖仓，经常会先问一个问题：这个问题看起来像技术选型，实际上是架构选择。因为 Iceberg、Hudi、Delta 不是简单的“存储格式”，它们本质上是在对象存储、HDFS 或云存储

1月前
104
点赞
评论

湖仓到底用什么：Iceberg、Hudi、Delta 怎么选？

元数据和血缘到底怎么做？从数据治理到 AI 时代的数据平台底座

很多公司做数据平台，前几年最关心的是“数仓怎么分层”“实时数仓怎么建”“湖仓怎么选型”“指标平台怎么做”。但到了后面，真正卡住平台规模化的，往往不是某个计算引擎，也不是某张宽表，而是一个更基础的问题

1月前
119
点赞
评论

元数据和血缘到底怎么做？从数据治理到 AI 时代的数据平台底座

ETL vs. ELT：别再把它当成三个字母的顺序问题

在数据工程里，ETL 和 ELT 是两个很容易被讲“浅”的概念。很多文章会这么解释：这句话没错，但基本等于没说。真正做过数据平台的人都知道，ETL 和 ELT 的差异不只是流程顺序，而是背后一整

1月前
60
点赞
评论

ETL vs. ELT：别再把它当成三个字母的顺序问题

深入解锁 dbt——生产环境中的 dbt

正如你在本书中已经学到的，dbt 是一个非常出色的工具，可以用来构建、维护和扩展你的 data transformation processes。我们已经覆盖了 dbt 的许多方面，包括使用 seed

1月前
49
点赞
评论

深入解锁 dbt——生产环境中的 dbt

深入解锁 dbt——Documentation：项目文档与数据文档

Documentation 是任何 data project 中的关键组成部分，它为理解和有效使用数据提供必要 context 和 insights。然而，它经常没有得到应有的优先级。编写 docum

1月前
42
点赞
评论

深入解锁 dbt——Documentation：项目文档与数据文档

深入解锁 dbt——数据测试

想象一下，你投入了数周甚至数月时间在一个复杂的数据项目上，把大量时间和精力倾注到构建一个 robust solution 中，结果它刚部署到 production 不久就崩塌了。当你发现自己曾经非常确

1月前
28
点赞
评论

深入解锁 dbt——Hooks：在 dbt 运行前后触发自定义操作

SQL 对于将 raw data 转换为下游消费者可使用的有价值 models 非常有用，但你一定会遇到一些时候，需要运行 dbt out of the box 并不支持的 ad hoc SQL。例如

1月前
25
点赞
评论

深入解锁 dbt——Hooks：在 dbt 运行前后触发自定义操作