首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
数据
数据智能老司机
创建于2023-05-27
订阅专栏
数据相关
等 56 人订阅
共247篇文章
创建于2023-05-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Salesforce 数据云的起源
Salesforce 数据云(简称为 Data Cloud)是一个近乎实时的客户数据平台,能够为组织内的多个不同职能团队提供价值。客户数据平台(CDP)主要是一个数据存储库——一个用于持久存储和管理数
数据治理手册——什么是数据治理?
作为一名数据专业人士,你可能会遇到一些最让人沮丧的数据治理对话。这些对话常常围绕着数据项目被视为一系列的限制因素,而非战略性推动力;或者说,你的工作被认为是在拖慢业务发展,而不是在促进卓越表现。作为在
使用 Helm 在 Kubernetes 上自动化数据库部署
在上一章中,你学习了如何手动在 Kubernetes 上部署单节点和多节点数据库,逐个元素地进行创建。我们故意采用这种“艰难的方式”来帮助你最大限度地理解如何使用 Kubernetes 原语来设置数据
在 Kubernetes 上管理数据存储
没有无状态的架构。所有应用程序都会在某个地方存储状态。 ——Alex Chircop, StorageOS CEO 在上一章中,我们描绘了一个可能的近未来场景,其中强大的、有状态的、数据密集型应用程序
精通Transformer——自动编码语言模型
在上一章中,我们研究了如何使用 Hugging Face 的 Transformers 来应用典型的 Transformer 模型。到目前为止,本书的所有章节都包括了如何使用预训练或预构建模型的说明,
流数据库——部署模式
本章将涵盖多个针对各种用例的部署模型。我们将重点探讨在何种情况下使用流处理数据库最具优势,以及何时其他方法可能更适合。我们会考虑到前几章中讨论的所有流处理属性,包括一致性、工作负载类型、存储格式,以及
流数据库——流处理层面
在上一章中,我们探讨了当今生态系统中的现有实时系统,并介绍了三个不同的数据层面:操作层面、分析层面和流处理层面。操作层面和分析层面主要处理静态数据,侧重于静态信息。相比之下,流处理层面则独特地以动态数
流数据库——实时数据的未来状态
你害怕进入的洞穴藏有你寻求的宝藏。 —— 约瑟夫·坎贝尔 在深入探讨流数据处理数据库的部署选项后,本章将稍作停顿,展望实时数据的未来状态,这一状态由本书的核心主题之一塑造:流数据与数据库的加速融合。流
流数据库——Zero-ETL或者Near-Zero-ETL
在第七章中,我们介绍了新兴的混合数据库,这些数据库提供了支持实时分析的替代解决方案。这些系统减少了基础设施需求,使数据对分析工作负载更具可及性。由于混合系统融合了传统上分布式的系统,因此有一种假设认为
流数据库——混合数据系统的出现
在本章中,我们将关注范围扩大到包括那些在应对现代实时事件驱动应用日益增长的需求中浮现出的更广泛的混合系统。这些系统虽然不是我们在本书中定义的流数据库,但它们具备连接关系型、分析型和流处理工作负载的特质
流数据库——一致性
如果你对数据库非常熟悉,你可能会认为一致性是理所当然的。你知道查询的结果将与输入数据一致。然而,假如你敢于从数据库的世界跨越到流处理的世界,你是否可以依靠类似的一致性保证,即使在数据迟到和乱序到达的额
流数据库简介
在电子表格中,你可以在一个单元格中输入一个公式(例如,另一列中单元格的总和),并且当公式中的任何输入发生变化时,公式的结果会自动重新计算。这正是我们在数据系统层面想要实现的效果:当数据库中的一条记录发
流数据库——物化视图
在前几章中,我们只简要提到了物化视图。在真正理解流数据库之前,物化视图将是你需要掌握的最重要的概念。物化视图首次引入是在 1990 年代初期。最初,它们作为某些 OLTP 数据库中的一种功能被开发出来
流数据库——实时数据服务
在第2章中,我们让流处理平台对数据进行了转换并将其放入了汇主题中。预处理后的数据现在驻留在流处理平台的一个主题中。在图3-1中,汇主题和 OLAP 数据存储在分析层中被突出显示。 接下来我们需要做的是
流数据库——流处理平台
在第1章中,我们介绍了一个将实时数据提供给消费者的简单用例。我们还介绍了连接器,以及它们如何将静态数据转换为动态数据(或事件流),然后将其发布到流处理平台中的主题中。 事件流现在可以被读取,但它们很可
流数据库——流处理基础
英雄之旅总是从召唤开始。无论以何种方式,指引者必须出现,对你说:“看,你在梦乡。醒来吧。去旅行吧。你还有一部分意识和存在从未被触及。所以你在这里感到安逸?那么,你在那里还不够。”于是,旅程就此开始。
调优Snowflake数据云——查询优化器
查询优化器在保持原始预期功能的同时,减少查询的成本。此外,查询优化还旨在减少访问的数据量,从而进一步降低成本。Snowflake查询优化器内部发生了很多事情,并不是每一个细节都为广大用户群体所知。我利
Apache Iceberg湖仓的数据治理和安全
随着组织越来越多地采用现代数据湖仓(lakehouse)架构,如 Apache Iceberg lakehouses,他们享受着其灵活性、可扩展性和性能改进带来的诸多好处。然而,这些优势也带来了有关数
迁移到 Apache Iceberg
各类组织不断寻求创新解决方案,以更高效地管理数据。Apache Iceberg 作为数据湖的一种强大框架,提供了一种高性能的表格式,运作方式类似于关系数据库管理系统 (RDBMS) 表。本章深入探讨如
使用 Apache Iceberg 处理流数据
流数据指的是数据的连续生成和处理,通常来自各种来源。这些来源可以包括日志文件、传感器数据、社交媒体动态和金融交易等。数据以小尺寸(或数据包)的形式发送,以便实时获取见解和反应。流数据的本质是它处于不断
下一页