首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
数据
数据智能老司机
创建于2023-05-27
订阅专栏
数据相关
等 56 人订阅
共247篇文章
创建于2023-05-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
数据分析模式的演进
数据分析是一个不断变化的领域。稍微了解一下历史将帮助你欣赏到这一领域取得的进展,以及数据架构模式如何演进以满足不断变化的分析需求。 首先,让我们从一些定义开始: 什么是分析?分析被定义为将数据转化为洞
《Trino权威指南》第八章:在Trino中使用SQL
在安装和运行Trino后,你首先学到了关于Trino中一流SQL支持的核心特性,可以回到“SQL with Trino”中再次查看该内容,如果你需要一个概览或提醒。 在第6章有关连接器的内容中,你了解
《Trino权威指南》第七章:高级连接器示例
现在您已经了解连接器从第6章提供给Trino的功能以及如何配置它们。让我们将这些知识扩展到一些更复杂的使用场景和连接器。这些通常是需要足够智能的连接器,以将底层数据源的存储模式和思想转换为 SQL 和
《Trino权威指南》第五章:生产就绪部署
在第2章中从tar.gz存档中安装Trino,并在第4章中对Trino架构有了新的了解后,现在您准备好更深入地了解安装Trino集群的详细信息。然后,您可以运用这些知识,努力实现一个带有协调器和多个工
《Architecting Data and Machine Learning Platforms》第八章:流处理的架构
在本章中,您将了解为什么行业趋势不可阻挡地从批处理转向流处理。我们将讨论不同的流处理架构以及如何在它们之间进行选择。我们还将深入探讨其中两种架构——微批处理和流处理管道,并讨论如何在这两种架构中支持实
《Architecting Data and Machine Learning Platforms》第七章:湖仓一体
正如您现在所了解的,组织在设计其数据平台时有两种主要方法:遵循数据湖或数据仓库(DWH)范例。这两种方法都有其利弊,但问题是:是否可能使这两种技术共存,实现湖仓一体的架构?在本章中,我们将探讨这个主题
《Architecting Data and Machine Learning Platforms》第六章:使用企业数据仓库进行创新
第3章中,您了解到在云数据平台的核心组件中选择数据湖还是数据仓库取决于您的组织是以工程/科学为先(选择数据湖)还是以分析为先(选择数据仓库)。在第5章中,我们专注于数据湖作为数据平台设计的中心元素的概
《Architecting Data and Machine Learning Platforms》第五章:架构设计数据湖
数据湖是数据平台的一部分,从组织中捕获未经管理的原始数据,并支持Apache生态系统中的计算工具。在本章中,我们将更详细地讨论这一概念,这在设计现代数据平台时非常重要。正如您将在整章中了解到的那样,云
《Learning and Operating Presto 》第五章:开放数据湖仓分析
到目前为止,您已经学会了如何使用标准连接器(如MySQL和Pinot)将Presto连接到数据湖。此外,您还学会了如何使用Presto的Java类和方法编写自定义连接器。最后,您连接了一个客户端到Pr
《Learning and Operating Presto 》第四章:客户端连接
Presto客户端是一个用于查询Presto并显示查询结果的进程,用于各种目的,例如数据分析、即席查询等。Presto提供了各种客户端,使用不同的编程语言编写,包括REST API、R、Python、
《Learning and Operating Presto 》第三章:连接器
一个Presto连接器是连接Presto引擎与外部目录的插件。Presto连接器可用于各种数据源,包括关系型数据库、NoSQL数据库和文件系统。 在本章中,您将学习如何实现自定义连接器。首先,我们将描
《Learning and Operating Presto 》第二章:开始使用Presto
有多种设置Presto的方法。在本章的第一部分,您将看到如何手动安装Presto。我们不会过多讨论手动安装,因为本章的真正目标是在本地构建一个小集群,模拟一个真实的生产环境。 接下来,您将了解如何在D
《Learning and Operating Presto 》第一章:Presto介绍
在过去几年里,用户和机器产生的不同数据日益增多,这给希望理解数据以做出更好决策的组织带来了新的挑战。成为一个以数据驱动为核心的组织对于发现见解、推动变革并开辟新机遇至关重要。虽然这需要大量数据,但其带
《Architecting Data and Machine Learning Platforms》第四章:迁移框架
除非你在一家初创公司,否则你很少会从零开始构建一个数据平台。相反,你将通过从传统系统中迁移数据构建一个新的数据平台。在这一章中,让我们审视迁移过程——在迁移到新数据平台时应该做的所有事情。我们将首先提
《Architecting Data and Machine Learning Platforms》第三章:设计您的数据团队
在设计数据平台时,有几个技术方面需要考虑:性能、成本、运营开销、运营卓越、整合新的分析和机器学习方法等。然而,如果不解决公司文化的问题,这些技术方面将无法发挥作用——采用新技术需要员工愿意改变他们的思
《Architecting Data and Machine Learning Platforms》第二章:创新数据的战略步骤
您的领导之所以为您建立数据平台提供资金,很可能是因为他们希望组织进行创新。他们希望组织能够发现经营的新领域,创造更好的业务运作方式,或为更多客户提供更高质量的产品。这种形式的创新通常通过更好地了解客户
《Architecting Data and Machine Learning Platforms》第一章:现代化您的数据平台:入门概览
数据是一项宝贵的资产,可以帮助您的公司做出更明智的决策,发现新的机会,并改进业务运营。谷歌在2013年启动了一项战略项目,旨在通过提高管理质量来提高员工留任率。即使像管理技能这样宽泛的概念也可以以数据
《Delta Lake Up & Running》第十章:构建在Delta Lake上的数据湖仓
第1章介绍了数据湖仓的概念,它结合了传统数据仓库和数据湖的最佳元素。在本书中,您学到了支持湖仓架构的五个关键功能:存储层、数据管理、SQL分析、数据科学和机器学习,以及勋章架构。在深入探讨在Delta
《Delta Lake Up & Running》第九章:Delta Sharing
今天经济的数据中心特性需要组织与其客户、供应商和合作伙伴之间进行广泛的数据交流。虽然效率和即时可访问性至关重要,但它们常常与安全性的考虑发生冲突。组织需要一种开放而安全的数据共享方法,以在数字经济中蓬
《Delta Lake Up & Running》第八章:流数据的操作
Spark Structured Streaming首次在Apache Spark 2.0中引入。Structured Streaming的主要目标是在Spark上构建准实时流应用程序。Structu
下一页