机器学习助力COVID-19疫情数据挖掘

0 阅读5分钟

随着全球应对COVID-19疫情,研究人员和科学家已发起了坚定的努力来了解该疾病并找到有效的疫苗和治疗方法。

云与系统

机器学习助力解锁COVID-19疫情相关数据

某机构的Cord-19 Search网站允许研究人员轻松查询关于这种致命病毒的成千上万篇科学和医学论文。

作者:Douglas Gantenbein
2020年5月23日
阅读时长4分钟

COVID-19已造成毁灭性的损失。根据世界卫生组织的数据,截至5月下旬,COVID-19已感染全球超过490万人,夺去超过32万人的生命。随着全球应对这种疾病,研究人员和科学家已发起坚定的努力来了解COVID-19并找到有效的疫苗和治疗方法。自2019年底首次发现该病毒以来,大量关于抗击COVID-19的前沿研究已发表,并且每天都有更多研究出现。但是,这股可能拯救生命的信息海啸来得如此之快,以至于研究人员无法跟上。

“看到共享的数据量之大令人惊叹,”某机构机器学习总监兼首席医疗官Taha Kass-Hout表示,“今年年初我们开始时有一万或一万五千篇论文,现在这个数字已经翻了三倍。”

结果:当科学家在噪声中寻找信号时,重要的线索或研究路径可能被忽视。

为应对这一挑战,某机构于4月下旬发布了Cord-19 Search,这是一个由机器学习驱动的新网站,可以帮助研究人员快速、轻松地使用自然语言问题搜索成千上万篇研究论文和文档。Cord-19 Search梳理了某人工智能研究所发布的数据集,并且是3月与科技公司代表举行的某机构远程圆桌会议的产物。

Cord-19 Search帮助研究人员导航快速增长的冠状病毒文献,以高效找到相关和最新的信息。Cord-19 Search提供了一个简单的界面,研究人员可以使用自然语言提问,例如:“COVID-19的唾液病毒载量何时最高?”以及“恢复期血浆疗法是疫苗的前身吗?”Cord-19 Search提供精确的答案以及源文档。

例如,关于COVID-19最高病毒载量的答案指出:“唾液病毒载量在症状出现后的第一周最高,随后随时间下降。”对血浆疗法查询的回应是:“在缺乏疫苗的情况下,将提供一个权宜之计,理想情况下考虑给予那些有暴露风险或早期出现症状的人(作为预防措施)”,并附有来自SARS和埃博拉疫情期间过往试验的相关科学文章。

Cord-19 Search还提供关于潜伏期、传播、治疗和风险因素的基于证据的主题。这对科学家来说具有巨大价值,他们可以快速查询、验证研究并推进调查。

“Cord-19在底层工作的一个优点是,它根据您希望如何切片和切块数据来增强数据集以响应查询,”某机构首席数据科学解决方案架构师Ben Snively说,“它不仅仅是将关键词附加到一堆文档上。”

Cord-19 Search构建在某机构的机器学习服务之上。其原始数据集通过某医疗信息提取服务进行了丰富,该服务使用机器学习从非结构化文本中提取信息,包括疾病、治疗和时间线。然后将数据映射到与COVID-19相关的临床模型和医学主题。

随后,这些信息被索引到某企业搜索服务中,这是一个由机器学习驱动的高度准确的企业搜索服务,提供强大的自然语言查询能力,使查找和排序相关文章更加容易。经过某医疗信息提取服务丰富的数据和某企业搜索服务搜索是基于公共数据湖中可用的数据构建的,任何人都可以在此实验和分析数据。

“我们认为Cord-19将真正帮助研究人员连接各个点,并在抗击病毒方面取得实质性进展,”Kass-Hout说。“某企业搜索服务和某医疗信息提取服务的结合有助于研究人员加深对COVID-19的理解,以及他们如何可能发现一种药物或疫苗来对抗它。这不仅仅像大海捞针——这就像在海底找针。”

Snively补充道:“从我的角度来看,Cord-19 Search通过非常简单的界面为研究问题提供了非常完整的答案。大多数临床医生和研究人员不是深度技术专家,但他们希望能够深入研究事物。Cord-19 Search给了他们这个机会。”

截至5月中旬,Cord-19 Search已响应了成千上万个向系统提出的问题。

当然,COVID-19不会很快消失。研究人员预计可能会出现第二波病毒,甚至第三波。因此,Cord-19的工作将继续进行。某机构的长期愿景是扩展Cord-19 Search架构以纳入更多数据资源。这将使研究人员能够发现疾病进展的模式,做出数据驱动的决策,并帮助改善患者的治疗结果。

“证据将在未来几个月继续演变,”Kass-Hout说。“我们是在长期抗击冠状病毒的斗争中。”

研究领域

云与系统 | 搜索与信息检索 | 机器学习 | 可持续性

标签

冠状病毒(COVID-19) | 某机构 | 世界卫生组织(WHO) | 某机器学习平台

关于作者

Douglas Gantenbein 是某机构的撰稿人。FINISHED