首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
数据
数据智能老司机
创建于2023-05-27
订阅专栏
数据相关
等 60 人订阅
共300篇文章
创建于2023-05-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
使用 Apache Arrow 进行内存分析——Acero:一个流式 Arrow 执行引擎
我们已经翻阅了这本书将近一半的内容,但直到现在才开始介绍如何直接使用 Arrow 进行分析计算。这有点奇怪,对吧?不过此时,如果你一直在跟随书中的内容,你应该已经对所有需要掌握的概念有了扎实的理解,从
使用 Apache Arrow 进行内存分析——格式与内存处理
我一直在称赞 Apache Arrow 作为表格数据交换技术的优势,但它与人们常用的数据传输技术相比表现如何呢?对于你的应用程序接口(API),什么时候使用一种技术比另一种更合适呢?要回答这些问题,你
使用 Apache Arrow 进行内存分析——使用关键的 Arrow 规范
分析和计算工具只有在拥有数据的情况下才有用。数据可以存在于本地或远程的多种位置和格式中。Arrow 库提供了一系列功能,用于从不同的格式和位置读取数据并进行交互。在你已经对 Arrow 及其数组操作有
使用 Apache Arrow 进行内存分析——Apache Arrow 入门指南
无论你是数据科学家/工程师、机器学习(ML)专家,还是一名试图构建数据分析工具的软件工程师,你很可能已经听说过或阅读过有关 Apache Arrow 的内容,并可能想要了解更多信息,或好奇它究竟是什么
实现Data Mesh——通过数据契约驱动数据产品
在本章中,我们将首先从实施的角度来看待数据网格,回答以下问题:它的主要组件是什么?然后,我们将与产品思维进行对比,探讨什么是数据产品,最后深入讨论数据契约。本章中的示例遵循我们用例的主题,即Clima
实现Data Mesh——定义Data Mesh架构
本章将讨论数据网格的核心架构组件。内容分为两个主要部分。首先,我们讨论数据产品架构,包括支持广泛工件集所需的组件以及开发、运行和操作数据产品所需的组件。其次,我们重点介绍将所有数据产品整合为一个统一整
实现Data Mesh——我们的案例研究:Climate Quantum Inc.
在本章中,我们将介绍我们的案例研究——Climate Quantum Inc.,并在其中应用数据网格能力来应对一个重要且紧迫的需求:气候变化。 首先,让我们提供一些背景信息。 气候变化渗透到全球社会的
实现Data Mesh——应用数据网格的原则
最简单来说,数据网格就是一个由互相作用的数据产品组成的生态系统,如图2-1所示。和任何生态系统一样,数据网格中有许多独立运行的部分,它们通过共同的标准和通信骨干相互连接。理想情况下,数据网格中的数据产
实现Data Mesh——理解数据网格:基本要素
在快速变化的企业数据管理领域,数据网格(Data Mesh)已从一个新兴概念演变为现代数据架构的基石。其崛起标志着组织在应对日益复杂和庞大的数据生态系统方面的重大转变。Zhamak Dehghani
数据摄取与存储
在上一章中,我们介绍了23种不同的数据云菜单选项,并将其归纳为五种核心能力。本章将深入探讨其中的第一种,即Salesforce数据云的数据摄取与存储能力。我们将探索与以下数据摄取和存储能力相关的三个菜
Data Cloud 菜单选项
在本章中,我们将从总体上回顾每个 Salesforce Data Cloud 菜单选项。在后续章节中,我们会详细探讨这些菜单选项。本章的目的是向您介绍我们在学习过程中将使用的 Salesforce D
Salesforce的业务价值活动
第2章中,我们学习了数据云(Data Cloud)架构是如何从零开始构建的,使得 Salesforce 客户数据平台(CDP)独具特色。与仅使用批处理的传统 CDP 不同,数据云能够以近乎实时的方式运
Salesforce 数据云的基础
正如我们在第1章中看到的,Salesforce数据云可以解决许多问题。虽然它需要一些初始设置,但在日常操作中,数据云将由管理员进行管理。除了管理员之外,可能还有许多不同的最终用户需要访问数据云中的统一
Salesforce 数据云的起源
Salesforce 数据云(简称为 Data Cloud)是一个近乎实时的客户数据平台,能够为组织内的多个不同职能团队提供价值。客户数据平台(CDP)主要是一个数据存储库——一个用于持久存储和管理数
数据治理手册——什么是数据治理?
作为一名数据专业人士,你可能会遇到一些最让人沮丧的数据治理对话。这些对话常常围绕着数据项目被视为一系列的限制因素,而非战略性推动力;或者说,你的工作被认为是在拖慢业务发展,而不是在促进卓越表现。作为在
使用 Helm 在 Kubernetes 上自动化数据库部署
在上一章中,你学习了如何手动在 Kubernetes 上部署单节点和多节点数据库,逐个元素地进行创建。我们故意采用这种“艰难的方式”来帮助你最大限度地理解如何使用 Kubernetes 原语来设置数据
在 Kubernetes 上管理数据存储
没有无状态的架构。所有应用程序都会在某个地方存储状态。 ——Alex Chircop, StorageOS CEO 在上一章中,我们描绘了一个可能的近未来场景,其中强大的、有状态的、数据密集型应用程序
精通Transformer——自动编码语言模型
在上一章中,我们研究了如何使用 Hugging Face 的 Transformers 来应用典型的 Transformer 模型。到目前为止,本书的所有章节都包括了如何使用预训练或预构建模型的说明,
流数据库——部署模式
本章将涵盖多个针对各种用例的部署模型。我们将重点探讨在何种情况下使用流处理数据库最具优势,以及何时其他方法可能更适合。我们会考虑到前几章中讨论的所有流处理属性,包括一致性、工作负载类型、存储格式,以及
流数据库——流处理层面
在上一章中,我们探讨了当今生态系统中的现有实时系统,并介绍了三个不同的数据层面:操作层面、分析层面和流处理层面。操作层面和分析层面主要处理静态数据,侧重于静态信息。相比之下,流处理层面则独特地以动态数
下一页