用于管理和分析生物医学大数据的开源平台

236 阅读2分钟

谷神星(Arvados

An open source platform for managing and analyzing biomedical big data

Arvados是一个开源平台,用于管理、处理和共享基因组和其他大型科学和生物医学数据。通过Arvados,生物信息学家可以运行和扩展计算密集型工作流程,开发人员可以创建生物医学应用程序,IT管理员可以管理大型计算和存储资源。

Arvados的关键组成部分是。

  • Keep。Keep是Arvados的存储系统,用于管理和存储大型
    文件集。 Keep结合了内容寻址和
    分布式存储架构,导致高可靠性
    和高吞吐量。 每一个存储在Keep中的文件在
    每次被检索时
    都能被准确地
    验证。 Keep支持创建
    集合,作为一种灵活的方式来定义数据集,而不需要
    重新组织或不必要地复制数据。Keep在广泛的
    底层文件系统和对象存储
    上工作

  • Crunch。Crunch是运行通用工作流语言工作流程的协调系统。它被
    设计用来维护数据的出处和工作流
    的可重复性。Crunch
    通过Keep
    自动跟踪数据输入和输出
    ,并在Docker容器中执行工作流过程。 在
    云环境

    ,Crunch通过按需扩展计算来优化成本。

  • 工作台。工作台的网络应用允许用户交互式地访问
    Arvados功能。 它特别有助于查询和
    浏览数据,可视化出处,并跟踪
    工作流程
    的进展

  • 命令行工具。命令行界面(CLI)提供了
    从命令行访问Arvados平台中的
    Arvados
    功能
    的便利

  • API和SDKs。Arvados被设计成与现有的基础设施集成。
    Arvados的
    所有
    服务都是通过RESTful API访问的。 SDK
    可用于Python, Go, R, Perl, Ruby和Java。

快速启动

要在你的本地工作站上试用Arvados,你可以使用Arvbox,它
提供了预装在Docker容器中的Arvados组件(需要
Docker 1.9以上)。 在克隆了Arvados的git仓库后。

$ cd arvados/tools/arvbox/bin
$ ./arvbox start localdemo

在这种模式下,你将只能从同一主机连接到Arvbox。 要
将Arvbox配置为可通过网络访问,以及其他选项,
详见doc.arvados.org/install/arv…

GitHub

github.com/arvados/arv…