在上周的DECODE:制药业的人工智能论坛上,制药业领导人讨论了人工智能在制药业中的文化挑战,以及他们的机构正在采取哪些措施来更好地将人工智能纳入企业中。
首先,Broad研究所机器学习主任Puneet Batra认为,制药业研究,具体到生物学,在推动人工智能和计算研究 方面可以发挥关键作用。他的工作是布罗德研究所新成立的埃里克和温迪-施密特中心的一部分,该中心的使命是将生物学定位为推动下一个计算时代的发展。
Batra指出了21世纪的两场伟大的革命:数据技术的爆炸(机器学习、云等)以及生物技术的蓬勃发展(测序、单细胞基因组、医学成像等)。这两场革命正在交汇,但目标不是简单地将机器学习应用于生物问题。
Batra指出,迄今为止,机器学习一直由图像识别和预测准确性驱动。机器学习需要从预测准确性转向因果模型,解决 "为什么"的问题,而不仅仅是 "什么"的问题。生物学及其独特的生物问题应该是推动计算技术进步的一个关键因素。
生物学问题伴随着一些特定的限制,将形成新的机器学习和计算策略。数据不是以无限的规模提供的,数据缩减有失去生物复杂性的风险,而应用于临床的模型需要更高的审查水平。但巴特拉认为这些正是塑造未来计算的动力。他说,目标是 "使生物学需要解决的核心问题,这个因果方面,这个机械方面,使这些关键需求成为计算领域额外进展的驱动力"。
什么数据,哪些问题
以问题为中心的方法是整个活动的一个主题。几位制药业领导人在小组讨论中认为,要以问题为出发点,而不是从手头的数据开始。PhaseForward的创始人Paul Bleicher说,人们往往首先关注数据或算法,他最近在Optum实验室工作,现在是Evident Health Strategies的负责人。
这种方法忽略了一个更基本的问题。你想解决什么问题,如果解决了,将如何为企业和病人创造价值或质量。布莱谢尔说,只有这样,你才开始问:"你需要什么数据?哪些我们可以获得的数据集可以使用?这些数据什么时候可能会产生偏差?哪里会产生问题?一旦你有了这些,就想出什么算法和你将把它们放在一起的方式。"
这种以问题为先的方法使你能够清楚地思考你实际需要多少--什么样的数据,以及你将使用哪些工具来处理它。要注意不要把所有可用的时间、金钱和资源都花在数据集上,以至于没有带宽用于使用数据和采取行动。
百时美施贵宝公司化学和合成开发部科学主任Jacob Janey认为,对所需的数据和所选择的算法都要采取最小可行模型的方法。他说,获得 "足够好 "的数据,这在很大程度上取决于你所要回答的问题或你希望解决的问题。然后选择一个足以满足其目的的分析选项。他说:"人们倾向于跳到深度学习或神经网络,而有时它可能是一个简单的回归或一个简单的随机森林,这有它自己的好处"。
重新想象人工智能的组织结构图
赛诺菲公司数字和数据科学研发部人工智能和深度分析全球负责人Reza Olfati-Saber博士概述了将支撑一个真正的人工智能制药公司的组织结构。他提出了一个金字塔架构,以计算(云、基础设施)为广泛基础,通过应用(数据存储、应用开发、安全)、数据(数据治理和安全)、分析(数据分析和可视化)、机器学习,最后是人工智能政策(质量和道德)。
Olfati-Saber认为,制药业的数据和人工智能企业应该由一位顶级数字专家和一位顶级人工智能专家共同领导。他说,期望一个首席数据官对整个金字塔有足够的了解以促进数字化转型 "实际上是不可能的"。标签团队的方法是必不可少的。他说:"其他任何东西都无法完成这项工作。"