AI驱动科研数据管理平台技术解析

34 阅读7分钟

90%的科学数据正在流失,这款新型AI技术找到了它们

绝大多数科学数据从未充分发挥其推动新发现的潜力。

在每100个产生的数据集中,约80个停留在实验室内,20个被共享但很少被重复使用,不到两个符合FAIR标准,通常只有一个能带来新的研究发现。

后果十分严重:癌症治疗进展缓慢、气候模型缺乏足够证据、研究无法被复现。

为改变这一现状,某机构推出了FAIR²数据管理系统,被描述为全球首个综合性AI驱动科研数据服务。该系统通过将数据整理、合规检查、AI就绪格式转换、同行评审、交互式门户、认证和永久托管等所有必要步骤整合到一个无缝流程中,旨在使数据既可重复使用又能获得适当认可。

FAIR²基于FAIR原则(可查找、可访问、可互操作、可重用)构建,通过扩展的开放框架确保每个数据集都兼容AI,并可供人类和机器道德地重复使用。FAIR²数据管理系统是该模型的第一个实际实施方案,在研究产出快速增长和人工智能重塑发现方式的关键时刻推出,将高级原则转化为具有可衡量影响力的真实、可扩展基础设施。

核心AI技术

曾经需要数月手动完成的工作——从组织和验证数据集到生成元数据和可发布输出——现在由AI数据管理员在几分钟内完成,该功能由支持FAIR²的Senscience提供技术支持。

提交数据的研究人员将获得四个集成输出:认证数据包、经过同行评审且可引用的数据文章、具有可视化和AI聊天功能的交互式数据门户,以及FAIR²证书。每个元素都包含质量控制和清晰摘要,使普通用户更易理解数据,并提高跨研究学科的兼容性。

这些输出共同确保每个数据集得到保存、验证、可引用和可重复使用,有助于加速发现,同时给予研究人员适当的认可。FAIR²还增强了可见性和可访问性,支持科学家、政策制定者、从业者、社区甚至AI系统负责任地重复使用,使社会能从科学投资中获得更大价值。

旗舰试点数据集

SARS-CoV-2变异株特性——涵盖3800个刺突蛋白变异株,该数据集将AlphaFold2和ESMFold的结构预测与ACE2结合和表达数据联系起来。它为疫情防控提供了强大资源,使人们能更深入理解变异株行为和适应性。

临床前脑损伤MRI——来自四个研究中心的343个扩散MRI扫描的标准化数据集,跨协议统一并对齐以确保可比性。它支持可重复的生物标志物发现、稳健的跨站点分析以及临床前创伤性脑损伤研究的进展。

环境压力指标(1990-2050)——结合六十年来43个国家的观测数据和建模预测,该数据集追踪排放、废物、人口和GDP。它为可持续性基准测试和基于证据的气候政策规划提供支持。

印度-太平洋环礁生物多样性——跨越五个区域的280个环礁,该数据集整合了生物多样性记录、礁石栖息地、气候指标和人类使用历史。它为生态建模、保护优先级排序以及脆弱岛屿生态系统的跨区域研究提供了前所未有的基础。

测试试点数据集的研究人员指出,FAIR²不仅保存和共享数据,还通过质量检查、为非专业人士提供清晰摘要以及跨学科组合数据集的可靠性,建立了对数据重用的信心,同时确保科学家获得应有的认可。

所有试点数据集都符合FAIR²开放规范,使其得到负责任整理、可重复使用,并值得长期人类和机器使用,从而让今天的数据能够加速解决社会最紧迫挑战的明日方案。

认可与重用

每次重用都会倍增原始数据集的价值,确保没有发现被浪费,每个贡献都能激发下一个突破,研究人员也能因其工作获得认可。

支持FAIR²数据管理的Senscience首席执行官指出:"科学投资数十亿美元生成数据,但大部分都丢失了——研究人员很少获得认可。通过FAIR²,每个数据集都被引用,每位科学家都得到认可——最终回报数据创建的重要工作。这就是治愈方法、气候解决方案和新技术如何更快地惠及社会的方式——这就是我们释放科学的方式。"

研究人员评价

某海洋研究机构首席研究员表示:"高度推荐使用这种数据整理和文章发布方式,因为您可以非常快速地生成信息,并且对任何最终用户都是有用的格式。"

某大学高级研究员评价:"FAIR²完美捕捉了项目的科学方面。"

某健康数据系统创新经理表示:"FAIR²使研究人员和数字健康实施者更顺畅地执行FAIR原则,证明像MomCare这样的数据集实现可重用性不必复杂。通过实现透明、可访问和可操作的数据,FAIR²为健康研究的新机遇打开了大门。"

某大学脑损伤研究中心教授指出:"FAIR²的实施可以对数据的缺失和质量提供客观检查,这在多个层面上都很有用。这些无偏评估和数据摘要有助于非领域专家的理解,最终增强数据共享。随着该领域在更多不同子学科中使用大数据,这些数据检查和摘要对于保持对如何在我们当前分析中使用和组合大量已获取数据的良好掌握将变得至关重要。"

某开放数据共同体首席编辑表示:"FAIR²是实现数据FAIR化最简便有效的方法之一。每个首席研究员都希望他们的数据在实验室、与合作者以及在科学界中可查找、可访问、可比较和可重用。真正的瓶颈一直是所需的时间和精力。FAIR²显著降低了这一障碍,使大多数实验室都能实现真正的FAIR数据。"

某大学碳中和与气候变化方向助理教授说:"FAIR²使我们的全球废物数据集更加可见和可访问,帮助了经常在稀缺和碎片化数据中挣扎的全球研究人员。我希望这将扩大合作,加速可持续废物管理的见解。"

某生物多样性中心博士后研究员强调:"真正的数据可访问性不仅仅是把数据表上传到存储库。它意味着使数据易于查看、探索和理解,而不一定需要多年的培训。FAIR²平台配备AI聊天机器人和交互式可视化数据探索与摘要工具,使我们的生物多样性和环境数据不仅对学者,而且对从业者、政策制定者和当地社区倡议都具有广泛的可访问性和可用性。"