首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
数据
数据智能老司机
创建于2023-05-27
订阅专栏
数据相关
等 70 人订阅
共377篇文章
创建于2023-05-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
有效的 Transformations
最常见的 Spark 程序通常是围绕 RDD 和 Datasets 构建的。大多数使用 RDD API 的 Spark 程序,都会从稳定存储中读取数据并转成 RDD 格式,然后在 RDD 上执行一系列
Joins,SQL 与 Core
连接数据是许多流水线中的重要组成部分。Spark Core 和 SQL 都支持相同的基本 join 类型。不过,它们有非常不同的执行选项和性能表现。虽然 joins 非常常见也非常强大,但它们值得被特
DataFrames、Datasets 与 Spark SQL
2017 年,我们曾预测,Spark 的未来会由 Spark SQL DataFrames 和 Datasets 接口的简单性与易采用性来定义。今天,它们已经成为 Spark 开发者最常使用的能力。凭
从 2.4 到 Spark 4.2 有什么新变化
自 2.4 以来,Spark 已经发生了显著变化。如果只是列举已经解决的问题,完全可以写满一整本书。在本章中,你将理解 Spark 中已经发生的、最重要的性能相关变化,同时也会稍微向前看一看,了解当前
升级 Spark
当我们开始撰写本书第二版时,最早要面对的任务之一,就是把示例从 Spark 2.2 升级到 Spark 3.3,后来又升级到 Spark 4;这本书我们花了一段时间才完成。在日常工作中,我们也经常面对
Spark 如何工作
本章介绍 Spark 的整体设计,以及它在大数据生态系统中的位置。Spark 过去常被拿来与 ASF MapReduce 比较,因为 Spark 也可以与 Hadoop 一起用于分布式数据处理。现在,
高性能 Spark 入门
什么是 Spark,以及为什么性能很重要 ASF 目前代表 Apache Software Foundation,尽管现在也有人呼吁给这个基金会改名。Spark 是一个高性能、通用的数据并行分布式计算
FastAPI教程——Web 层
第 3 章快速介绍了如何定义 FastAPI Web 端点、向它们传递简单字符串输入,并获得响应。本章会进一步进入 FastAPI 应用程序的顶层——也可以称为接口层或路由层——以及它与 Servic
FastAPI教程——Async、并发与 Starlette 导览
预览 上一章简要介绍了开发者在编写一个新的 FastAPI 应用程序时最先会遇到的内容。本章重点介绍 FastAPI 底层的 Starlette 库,尤其是它对异步处理的支持。在概览 Python 中
FastAPI教程——现代python
预览 Python 一直在演进,以跟上不断变化的技术世界。本章会讨论一些适用于上一章所提问题的 Python 特性,以及少量额外内容: 工具 API 和服务 变量和类型提示 数据结构 Web 框架 工
实时和离线口径怎么一致?别让“两个数”毁掉数据平台的信任
做数据平台的人,大概率都遇到过一个很尴尬的问题: 运营看实时大屏,今天订单数是 10,238。 财务看离线日报,今天订单数是 10,191。 老板问:“到底哪个是真的?” 然后数据团队开始解释: “实
IoT 实时链路怎么设计?从设备事件到业务动作的一套架构师级拆解
很多人聊 IoT 实时链路,一上来就问: “用 Kafka 还是 Pulsar?” “Flink 窗口怎么写?” “时序库选 IoTDB、InfluxDB 还是 ClickHouse?” “要不要上湖
权限和隐私不是“加个 RBAC”:一套大数据平台可落地的安全治理架构
很多团队做数据平台,前期都很兴奋:数据接进来了,指标跑起来了,BI 看板也上线了,业务方开始天天要数据。 然后问题来了: “这个表谁能看?” “手机号能不能给运营?” “研发查生产数据要不要审批?”
湖仓到底用什么:Iceberg、Hudi、Delta 怎么选?
过去几年,大家聊湖仓,经常会先问一个问题: 这个问题看起来像技术选型,实际上是架构选择。 因为 Iceberg、Hudi、Delta 不是简单的“存储格式”,它们本质上是在对象存储、HDFS 或云存储
元数据和血缘到底怎么做?从数据治理到 AI 时代的数据平台底座
很多公司做数据平台,前几年最关心的是“数仓怎么分层”“实时数仓怎么建”“湖仓怎么选型”“指标平台怎么做”。 但到了后面,真正卡住平台规模化的,往往不是某个计算引擎,也不是某张宽表,而是一个更基础的问题
ETL vs. ELT:别再把它当成三个字母的顺序问题
在数据工程里,ETL 和 ELT 是两个很容易被讲“浅”的概念。 很多文章会这么解释: 这句话没错,但基本等于没说。 真正做过数据平台的人都知道,ETL 和 ELT 的差异不只是流程顺序,而是背后一整
深入解锁 dbt——生产环境中的 dbt
正如你在本书中已经学到的,dbt 是一个非常出色的工具,可以用来构建、维护和扩展你的 data transformation processes。我们已经覆盖了 dbt 的许多方面,包括使用 seed
深入解锁 dbt——Documentation:项目文档与数据文档
Documentation 是任何 data project 中的关键组成部分,它为理解和有效使用数据提供必要 context 和 insights。然而,它经常没有得到应有的优先级。编写 docum
深入解锁 dbt——数据测试
想象一下,你投入了数周甚至数月时间在一个复杂的数据项目上,把大量时间和精力倾注到构建一个 robust solution 中,结果它刚部署到 production 不久就崩塌了。当你发现自己曾经非常确
深入解锁 dbt——Hooks:在 dbt 运行前后触发自定义操作
SQL 对于将 raw data 转换为下游消费者可使用的有价值 models 非常有用,但你一定会遇到一些时候,需要运行 dbt out of the box 并不支持的 ad hoc SQL。例如
下一页