用于管理和分析生物医学大数据的开源平台

139 阅读2分钟

谷神星(Arvados)

An open source platform for managing and analyzing biomedical big data

Arvados是一个开源平台,用于管理、处理和共享基因组和其他大型科学和生物医学数据。通过Arvados,生物信息学家可以运行和扩展计算密集型工作流程,开发人员可以创建生物医学应用程序,IT管理员可以管理大型计算和存储资源。

Arvados的关键组成部分是:

  • Keep:Keep是Arvados的存储系统,用于管理和存储大型文件集。 Keep结合了内容寻址和分布式存储架构,导致高可靠性和高吞吐量。 每一个存储在Keep中的文件在每次被检索时都能被准确地验证。 Keep支持创建集合,作为一种灵活的方式来定义数据集,而不需要重新组织或不必要地复制数据。Keep在广泛的底层文件系统和对象存储上工作。
  • Crunch。Crunch是运行通用工作流语言工作流程的协调系统。它被设计用来维护数据的出处和工作流的可重复性。Crunch通过Keep自动跟踪数据输入和输出,并在Docker容器中执行工作流过程。在云环境中,Crunch通过按需扩展计算来优化成本。
  • 工作台。工作台的网络应用允许用户交互式地访问Arvados功能。 它特别有助于查询和浏览数据,可视化出处,并跟踪工作流程的进展。
  • 命令行工具。命令行界面(CLI)提供了从命令行访问Arvados平台中Arvados功能的便利。
  • API和SDKs。Arvados被设计成与现有的基础设施集成。Arvados的所有服务都是通过RESTful API访问的。SDK可用于Python, Go, R, Perl, Ruby和Java。

快速启动

要在你的本地工作站上试用Arvados,你可以使用Arvbox,它提供了预装在Docker容器中的Arvados组件(需要Docker 1.9以上)。 在克隆了Arvados的git仓库后。

$ cd arvados/tools/arvbox/bin
$ ./arvbox start localdemo

在这种模式下,你将只能从同一主机连接到Arvbox。 要将Arvbox配置为可通过网络访问,以及其他选项,详见doc.arvados.org/install/arv…