Tigris Data推出对象存储桶派生,类似Git。基于快照,仅复制元数据,无需全量数据。实现隔离、版本控制,省成本,支持数据科学、AI与灾备,适用广。
译自:How Bucket Forking Brings GitHub-Style Forking To Object Storage
作者:Jelani Harper
尽管在 GitHub 等代码平台和不同的文件系统中,派生(forking)是相当常规的操作,但它尚未成为对象存储的一项特性。Tigris Data 旨在改变这一现状,推出了存储桶派生(bucket forking)功能,允许组织轻松派生其数据——无需笨重的副本、耗时的延迟、不断上涨的成本、数据治理问题或安全和法规难题——就像您在 GitHub 中派生代码一样简单。
什么是存储桶派生?
存储桶派生以数据快照为基础,快照有效地冻结了数据在特定时间点的状态,以便可以进行派生。
一旦数据被派生,就会生成一个仅包含元数据的存储桶副本,用户可以在其上工作(允许他们修改、添加或删除任何点的数据),而不会影响原始存储桶。正如在 Git 中派生的代码一样,派生出的存储桶和源存储桶彼此隔离;一个中的更改不会出现在另一个中。
对于 PB 级数据而言,对派生数据的访问与对 GB 级数据一样即时。这为数据科学沙盒、在生产环境中测试和部署智能代理以及实施快速备份以加速灾难恢复提供了可扩展的创新方式。
存储桶派生采用不可变、只追加的架构,并使用开源 FoundationDB 作为底层数据对象的基于键值对的元数据存储。这种架构有助于使 Tigris Data 的 AWS S3 兼容对象存储适用于广泛的垂直行业和用例。
基于日志的架构的作用
Tigris Data 对象存储中的存储桶派生功能直接归因于其不可变架构,该架构设计类似于基于日志的系统。
Tigris Data 首席执行官 Ovais Tariq 解释说:“当创建新的对象存储和新文件,或者更新文件的新版本时,它们只是被追加到日志中。”
“因为你知道数据不会被修改或更改,所以你不需要复制整个数据集。”
—Ovais Tariq,Tigris Data 首席执行官
这种只追加的架构意味着无论对象被更新多少次,都会有一个完整的更改历史记录,可用于支持时间回溯。它还有助于维护存储系统的状态。
Tariq 说:“当你修改状态时,会涉及许多边缘情况,你需要考虑并发和冲突。而当你选择只追加、不可变的设计时,其中一些复杂性就会消失。”
理解对象存储中的快照
快照是存储“日志”在时间上的冻结点。它们是通过在存储数据的特定时间状态放置一个标记来创建的。除了揭示截至该时间点数据状态所发生的一切之外,快照还帮助组织从网络安全攻击中恢复或实施灾难恢复。
Tariq 评论道,对组织而言,另一个潜在益处是“因为你知道数据不会被修改或更改,所以你不需要复制整个数据集。”
这种方法可能带来巨大的成本效益。由于没有副本,组织可以对任何规模的数据创建快照,而无需为更大的存储量支付额外费用。他们还可以根据需要实施任意数量的快照,无论是每小时、每天、每周还是每半小时一次,以适应其应用程序。
最重要的是,快照使存储桶派生功能成为可能,Tariq 说,这“涉及无需复制即可创建数据的并行时间线”。
存储桶派生如何支持机器学习
对于多智能体机器学习 (ML) 实验,即时、可扩展的存储桶派生有助于数据科学家试验不同版本的数据和模型。直接内置于存储中的版本控制消除了对外部版本管理工具的需求,鼓励更早、更快的实验。
Tariq 说:“当你有一个共享数据集并想用它运行多个实验时,使用 Tigris,以隔离的方式运行它们非常简单。你只需派生它。”
这种方法对于部署代理可能更有益,尤其是在成功监控、治理和审计它们方面。Tariq 说:“如果你有一个编码代理,并且代理犯了错误,你可以在代理每次更改时都创建快照。”
之后,组织可以简单地将数据回滚到错误发生之前的状态,并相应地更新代理的功能。
许多代理系统采用并行工作的代理,不仅在冲突方面,而且在管理其环境方面都带来了挑战。Tariq 继续说:“当多个代理共享相同的开发环境时,派生提供了安全性和隔离性。”
通过为每个代理使用一个派生,组织可以帮助确保安全性、隔离性和时间点控制。
派生背后的技术:FoundationDB
版本控制是存储桶派生和快照的关键推动因素,它归因于存储在 FoundationDB 中的元数据。Tariq 说,FoundationDB 是一个分布式、有序的键值存储,其中“键范围是有序的”。
键是元数据——主要包括有关存储桶及其对象的信息、对象的键和数据的版本。版本控制通过提供相同对象的元数据的多重性来支持存储桶派生和快照。
正如 Tariq 所解释的:“当我第一次写入一个对象时,它从版本零开始。然后,当我写入下一个副本时,它从下一个版本开始,依此类推。”
尽管 FoundationDB 存储了有关对象的键或元数据“指针”,但底层数据存储在文件存储的磁盘上。这些数据实际上并未复制,这使得组织能够派生数据并像处理副本一样开始对其进行工作——无需将他们支付的存储量增加一倍。
Tariq 解释说,这种方法非常适合法规遵从和数据治理用例,因为“你自动获得所有在存储上执行更改的可验证审计追踪”。
跨行业的广泛适用性
Tigris Data 存储桶派生的潜在价值,并非它为处理测试数据集或备份所提供的易用性、简洁性或成本节约措施。
最重要的因素是,这些好处,包括灾难恢复、可审计性、数据科学实验、多代理部署等,横向适用于各个行业和用例。它们推动了数据领域各个方面的发展,同时提供了对数据所做一切操作的不可变记录——而无需复制它。