机器学习助力新冠相关数据挖掘

4 阅读4分钟

随着世界努力应对COVID-19疾病,研究人员和科学家们已展开坚决的行动,以求了解该疾病并找到有效的疫苗和治疗方法。自2019年底该病毒首次被确认以来,有关抗击COVID-19方法的尖端研究大量发表,每天都有更多新成果涌现。

但可能挽救生命的信息洪流来得如此之快,以至于研究人员难以跟上。“看到共享的数据量真是令人惊叹,”某中心网络服务的机器学习总监兼首席医疗官Taha Kass-Hout说。“今年早些时候我们以大约1万到1.5万篇论文起步,现在数量已经翻了三倍。”

结果便是:科学家们在纷杂的信息中寻找线索时,重要的提示或研究路径可能会被忽略。

为应对这一挑战,某中心网络服务于4月下旬发布了Cord-19 Search。这是一个由机器学习驱动的新网站,可以帮助研究人员快速、轻松地使用自然语言问题来搜索数万篇研究论文和文档。Cord-19 Search梳理了由某人工智能研究所发布的数据集,是3月份与科技公司代表举行的一次某机构远程圆桌会议的成果。

Cord-19 Search帮助研究人员浏览快速增长的冠状病毒文献,以高效地找到相关且最新的信息。Cord-19 Search提供了一个简单的界面,研究人员可以使用自然语言提出问题,例如:“COVID-19的唾液病毒载量何时最高?”以及“恢复期血浆疗法是疫苗的前体吗?”Cord-19 Search会提供精确的答案以及来源文档。

例如,关于COVID-19最高病毒载量的答案是:“唾液病毒载量在症状出现后的第一周最高,随后随时间推移下降。”对于血浆疗法的查询回应是:“在没有疫苗的情况下,这将提供一个权宜之计,理想情况下考虑给予那些有接触风险或早期出现症状的人(作为一种预防措施)”,并附带了以往在SARS和埃博拉疫情期间相关试验的科学文章。

Cord-19 Search还提供关于潜伏期、传播、治疗学和风险因素的循证主题。这对科学家来说具有巨大价值,他们可以快速查询、验证自己的研究并推进调查。

“Cord-19 Search后台工作的一个伟大之处在于,它根据你希望如何切分数据来增强数据集以响应查询,”某中心网络服务的主要解决方案数据科学架构师Ben Snively说。“它不仅仅是将关键词附加到一堆文档上。”

Cord-19 Search构建于某中心网络服务的机器学习服务之上。其原始数据集使用Amazon Comprehend Medical进行了丰富,该服务利用机器学习从非结构化文本中提取信息,包括疾病、治疗和时间线。然后,这些数据被映射到与COVID-19相关的临床模型和医学主题。

然后,这些信息在Amazon Kendra中建立索引。Amazon Kendra是一个由机器学习驱动的高精度企业搜索服务,提供强大的自然语言查询功能,使得查找和排序相关文章变得更加容易。由Amazon Comprehend Medical丰富的数据和Amazon Kendra搜索都基于某中心网络服务COVID-19公共数据湖中可用的数据构建,任何人都可以对这些数据进行实验和分析。

“我们认为Cord-19 Search将真正帮助研究人员理清头绪,并在对抗病毒方面取得切实进展,”Kass-Hout说。“Kendra和Comprehend Medical的结合有助于研究人员增进对Covid-19的理解,以及他们如何可能发现对抗它的药物或疫苗。这不仅仅像大海捞针——更像是从海底找针。”

Snively补充道:“从我的角度来看,Cord-19 Search通过一个非常简单的界面为研究问题提供了非常完整的答案。大多数临床医生和研究人员并非深度技术专家,但他们希望能够深入探究事物。Cord-19 Search给了他们这个机会。”

到5月中旬,Cord-19 Search已经响应了向该系统提出的成千上万个问题。

当然,COVID-19不会很快消失。研究人员预计我们可能会看到第二波甚至第三波病毒。因此,Cord-19的工作将继续进行。某中心网络服务的长期愿景是扩展Cord-19 Search架构,以纳入更多的数据资源。这将使研究人员能够揭示疾病进展的模式,做出数据驱动的决策,并帮助改善患者的治疗效果。

“证据将在未来几个月内持续演变,”Kass-Hout说。“我们正在长期对抗冠状病毒。”FINISHED