首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
数据
数据智能老司机
创建于2023-05-27
订阅专栏
数据相关
等 63 人订阅
共317篇文章
创建于2023-05-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
《Learning and Operating Presto 》第三章:连接器
一个Presto连接器是连接Presto引擎与外部目录的插件。Presto连接器可用于各种数据源,包括关系型数据库、NoSQL数据库和文件系统。 在本章中,您将学习如何实现自定义连接器。首先,我们将描
《Learning and Operating Presto 》第二章:开始使用Presto
有多种设置Presto的方法。在本章的第一部分,您将看到如何手动安装Presto。我们不会过多讨论手动安装,因为本章的真正目标是在本地构建一个小集群,模拟一个真实的生产环境。 接下来,您将了解如何在D
《Learning and Operating Presto 》第一章:Presto介绍
在过去几年里,用户和机器产生的不同数据日益增多,这给希望理解数据以做出更好决策的组织带来了新的挑战。成为一个以数据驱动为核心的组织对于发现见解、推动变革并开辟新机遇至关重要。虽然这需要大量数据,但其带
《Architecting Data and Machine Learning Platforms》第四章:迁移框架
除非你在一家初创公司,否则你很少会从零开始构建一个数据平台。相反,你将通过从传统系统中迁移数据构建一个新的数据平台。在这一章中,让我们审视迁移过程——在迁移到新数据平台时应该做的所有事情。我们将首先提
《Architecting Data and Machine Learning Platforms》第三章:设计您的数据团队
在设计数据平台时,有几个技术方面需要考虑:性能、成本、运营开销、运营卓越、整合新的分析和机器学习方法等。然而,如果不解决公司文化的问题,这些技术方面将无法发挥作用——采用新技术需要员工愿意改变他们的思
《Architecting Data and Machine Learning Platforms》第二章:创新数据的战略步骤
您的领导之所以为您建立数据平台提供资金,很可能是因为他们希望组织进行创新。他们希望组织能够发现经营的新领域,创造更好的业务运作方式,或为更多客户提供更高质量的产品。这种形式的创新通常通过更好地了解客户
《Architecting Data and Machine Learning Platforms》第一章:现代化您的数据平台:入门概览
数据是一项宝贵的资产,可以帮助您的公司做出更明智的决策,发现新的机会,并改进业务运营。谷歌在2013年启动了一项战略项目,旨在通过提高管理质量来提高员工留任率。即使像管理技能这样宽泛的概念也可以以数据
《Delta Lake Up & Running》第十章:构建在Delta Lake上的数据湖仓
第1章介绍了数据湖仓的概念,它结合了传统数据仓库和数据湖的最佳元素。在本书中,您学到了支持湖仓架构的五个关键功能:存储层、数据管理、SQL分析、数据科学和机器学习,以及勋章架构。在深入探讨在Delta
《Delta Lake Up & Running》第九章:Delta Sharing
今天经济的数据中心特性需要组织与其客户、供应商和合作伙伴之间进行广泛的数据交流。虽然效率和即时可访问性至关重要,但它们常常与安全性的考虑发生冲突。组织需要一种开放而安全的数据共享方法,以在数字经济中蓬
《Delta Lake Up & Running》第八章:流数据的操作
Spark Structured Streaming首次在Apache Spark 2.0中引入。Structured Streaming的主要目标是在Spark上构建准实时流应用程序。Structu
《Delta Lake Up & Running》第七章:Schema处理
传统上,数据湖一直遵循“模式在读”(schema on read)的原则,但在写入时始终存在着强制执行“模式在写”(schema on write)的挑战。这意味着在将数据写入存储时没有预定义的模式,
《Delta Lake Up & Running》第六章:使用时间旅行
由于经常会忘记WHERE子句并意外运行DELETE或UPDATE语句导致全表操作,或者需要查看特定时间点的数据或模式,因此对数据库和表进行了操作的人往往会感到恐慌。我们都有过这样的经历。或者您可能会想
《Delta Lake Up & Running》第五章:性能调优
无论是使用传统的关系型数据库管理系统(RDBMS)还是使用Delta表,当存储和检索数据时,如何组织数据的底层存储格式会显著影响执行表操作和查询所需的时间。一般而言,性能调优指的是优化系统性能的过程,
《Delta Lake Up & Running》第四章:表格删除、更新和合并
由于Delta Lake为经典数据湖添加了事务层,因此我们可以执行经典的DML操作,例如更新、删除和合并。当在Delta表上执行删除操作时,操作是在数据文件级别执行的,根据需要删除和添加数据文件。已删
《Delta Lake Up & Running》第三章:Delta表的基本操作
Delta表可以通过多种方式创建。创建表的方式主要取决于您对工具集的熟悉程度。如果您主要是SQL开发人员,可以使用SQL的CREATE TABLE来创建Delta表,而Python用户可能更喜欢使用D
《Delta Lake Up & Running》第二章:开始使用Delta Lake
在上一章中,我们介绍了Delta Lake,并了解了它如何为传统数据湖添加了事务保证、DML支持、审计、统一的流式和批处理模型、模式强制执行以及可扩展的元数据模型。 在本章中,我们将亲自尝试Delta
《Delta Lake Up & Running》第一章:数据架构的演进
作为一名数据工程师,您希望构建大规模的数据、机器学习、数据科学和人工智能解决方案,以提供最先进的性能。您通过摄取大量源数据,然后进行清洗、规范化和数据合并,最终通过易于使用的数据模型将这些数据呈现给下
《构建实时分析系统》——实时分析介绍
在商业环境中,许多数据被视为无限的,因为它随着时间的推移逐渐到达。昨天和今天,客户、雇主和机器产生了数据,并将继续在明天产生更多的数据。除非你破产,否则这个过程永远不会结束,因此数据集在任何有意义的方
《数据可观测性的基础原理》第五章:自动生成数据观察结果
在前一章介绍了低级别日志记录所面临的挑战之后,我们的重点转向探索替代方法,以增强数据可观测性并简化其采用,通过自动化。在本章中,我将介绍捕获和分析数据观察结果的新可能性和策略,为更全面的可观测性框架铺
《数据可观测性的基础原理》第四章:生成数据观察结果
正如第三章所解释的,数据可观察性结合了技术和人员的作用,从数据角度收集系统状态的信息以及对该状态的期望。然后,它利用这些信息来使系统更具适应性或更加弹性。 本章将解释如何应用数据可观察性实践。我将从
下一页