谷神星(Arvados
Arvados是一个开源平台,用于管理、处理和共享基因组和其他大型科学和生物医学数据。通过Arvados,生物信息学家可以运行和扩展计算密集型工作流程,开发人员可以创建生物医学应用程序,IT管理员可以管理大型计算和存储资源。
Arvados的关键组成部分是。
-
Keep。Keep是Arvados的存储系统,用于管理和存储大型
文件集。 Keep结合了内容寻址和
分布式存储架构,导致高可靠性
和高吞吐量。 每一个存储在Keep中的文件在
每次被检索时
都能被准确地
验证。 Keep支持创建
集合,作为一种灵活的方式来定义数据集,而不需要
重新组织或不必要地复制数据。Keep在广泛的
底层文件系统和对象存储
上工作
。 -
Crunch。Crunch是运行通用工作流语言工作流程的协调系统。它被
设计用来维护数据的出处和工作流
的可重复性。Crunch
通过Keep
自动跟踪数据输入和输出
,并在Docker容器中执行工作流过程。 在
云环境
中
,Crunch通过按需扩展计算来优化成本。 -
工作台。工作台的网络应用允许用户交互式地访问
Arvados功能。 它特别有助于查询和
浏览数据,可视化出处,并跟踪
工作流程
的进展
。 -
命令行工具。命令行界面(CLI)提供了
从命令行访问Arvados平台中的
Arvados
功能
的便利
。 -
API和SDKs。Arvados被设计成与现有的基础设施集成。
Arvados的
所有
服务都是通过RESTful API访问的。 SDK
可用于Python, Go, R, Perl, Ruby和Java。
快速启动
要在你的本地工作站上试用Arvados,你可以使用Arvbox,它
提供了预装在Docker容器中的Arvados组件(需要
Docker 1.9以上)。 在克隆了Arvados的git仓库后。
$ cd arvados/tools/arvbox/bin
$ ./arvbox start localdemo
在这种模式下,你将只能从同一主机连接到Arvbox。 要
将Arvbox配置为可通过网络访问,以及其他选项,
详见doc.arvados.org/install/arv…
。