谷神星（Arvados）

An open source platform for managing and analyzing biomedical big data

Arvados是一个开源平台，用于管理、处理和共享基因组和其他大型科学和生物医学数据。通过Arvados，生物信息学家可以运行和扩展计算密集型工作流程，开发人员可以创建生物医学应用程序，IT管理员可以管理大型计算和存储资源。

Arvados的关键组成部分是：

Keep：Keep是Arvados的存储系统，用于管理和存储大型文件集。 Keep结合了内容寻址和分布式存储架构，导致高可靠性和高吞吐量。每一个存储在Keep中的文件在每次被检索时都能被准确地验证。 Keep支持创建集合，作为一种灵活的方式来定义数据集，而不需要重新组织或不必要地复制数据。Keep在广泛的底层文件系统和对象存储上工作。
Crunch。Crunch是运行通用工作流语言工作流程的协调系统。它被设计用来维护数据的出处和工作流的可重复性。Crunch通过Keep自动跟踪数据输入和输出，并在Docker容器中执行工作流过程。在云环境中，Crunch通过按需扩展计算来优化成本。
工作台。工作台的网络应用允许用户交互式地访问Arvados功能。它特别有助于查询和浏览数据，可视化出处，并跟踪工作流程的进展。
命令行工具。命令行界面（CLI）提供了从命令行访问Arvados平台中Arvados功能的便利。
API和SDKs。Arvados被设计成与现有的基础设施集成。Arvados的所有服务都是通过RESTful API访问的。SDK可用于Python, Go, R, Perl, Ruby和Java。

快速启动

要在你的本地工作站上试用Arvados，你可以使用Arvbox，它提供了预装在Docker容器中的Arvados组件（需要Docker 1.9以上）。在克隆了Arvados的git仓库后。

$ cd arvados/tools/arvbox/bin
$ ./arvbox start localdemo

在这种模式下，你将只能从同一主机连接到Arvbox。要将Arvbox配置为可通过网络访问，以及其他选项，详见doc.arvados.org/install/arv…。