本章将追溯人工智能在生命科学中的现状,并探讨像 LangChain 这样的现代工具如何帮助我们构建未来的应用——从分子设计到临床分析,AI 的足迹正在不断拓展。
我们的探索将涵盖以下几个方面:
- 生成式人工智能的兴起及其在生命科学中的独特能力
- 传统 AI 与生成式 AI 方法的关键差异
- 在生物学、化学和医疗保健领域的实际应用场景
- 构建 AI 应用时必须关注的核心问题与局限性
这些内容将为后续的实操章节打下坚实基础,在那些章节中,我们将使用 LangChain 来解决生命科学与医疗领域的实际问题。理解这些背景,将帮助你判断在什么场景下应用何种 AI 方法最为恰当。
引言
1958 年,赫伯特·西蒙(Herbert Simon)和艾伦·纽厄尔(Allen Newell)曾预言:“十年之内,数字计算机会成为国际象棋冠军”,以及“十年内,计算机将能发现并证明一项重要的数学定理”。1965 年,西蒙进一步断言:“二十年内,机器将能够完成人类能做的任何工作。”1970 年,马文·明斯基(Marvin Minsky)在《生活》杂志的一次采访中表示:“三到八年内,我们将拥有具备普通人类智能的机器。”
1988 年,汉斯·莫拉维克(Hans Moravec)预测,到 2010 年机器人将能执行大多数人类任务,并在 2040 年大幅超越人类智能。1999 年,雷·库兹韦尔(Ray Kurzweil)在其著作《灵魂机器时代》中预言,到 2029 年人工智能将通过有效的图灵测试,并达到人类智能水平。
正如你所猜测的,并非所有预言都成真,但有些已接近实现。每一次技术突破后,人类总会对未来充满乐观。我们常常相信美好的明天即将到来,从而认为原本属于科幻小说范畴的东西如今已触手可及。例如,在 ChatGPT 爆火之后,人们不仅关注 GPT-4,而且开始出现关于 GPT-5、GPT-6、GPT-7 的讨论……
尽管“数据科学”这一术语早期已有使用,但真正广泛传播是在 1990 年代。这主要得益于计算能力和存储能力的同步增长,使得大量数据得以数字化。这种快速演变标志着我们从手动数据分析转向了自动化、智能化系统,并开启了数字时代。数据科学的核心角色就是构建一个科学框架,以应对指数级增长的数据量。
进入 21 世纪以来,AI 在生命科学中的应用不断拓展。2003 年,人类基因组计划完成,为 AI 系统提供了前所未有的遗传数据,极大推动了对遗传疾病的理解。2007 年,IBM 发布 Watson 展示了其复杂的问答能力,预示 AI 可在诊断和治疗规划中发挥重要作用。
2016 年,Arterys 成为首个获得 FDA 批准、可在临床环境中使用基于云的深度学习的 AI 公司。2020 年,谷歌 DeepMind 成功预测蛋白质结构。然而,截至目前,尽管已有超过 150 种由 AI 设计的小分子药物处于研发阶段、其中超过 15 种进入临床试验,但尚无完全由 AI 设计的药物获得 FDA 批准。不过,药物研发的管线正在快速扩张。
其中最具代表性的成果之一是 DSP-1181,这是首个进入临床试验的 AI 设计药物,由 Exscientia 与住友制药合作开发。另一个重要成果是 INS018-055,这是首个由 AI 发现并设计的抗纤维化小分子抑制剂,由 Insilico Medicine 开发。
尽管 DSP-1181 的研发周期从传统的 5 年缩短为 12 个月,但它最终在 2022 年 7 月因未通过一期临床试验而被终止。这一结局令人失望,但也真实展现了 AI 加速药物研发的潜力与制药本身的高风险性。
相比之下,INS018-055 的前景更为乐观。它已顺利完成早期测试,并于 2023 年 6 月进入二期临床试验,目前在中美两国同步推进。这款药物的靶点是特发性肺纤维化——一种治疗选择极少的严重肺病。不同于 DSP-1181,INS018-055 已通过多个监管节点,充分展示出 AI 在药物创新中的潜能。若最终获得 FDA 批准,它可能成为首个完全由 AI 设计并上市的药物,为药物开发树立全新范式。
当然,AI 融入制药流程依然面临重大挑战。最突出的瓶颈之一是缺乏高质量的训练数据,尤其是在罕见病领域。监管方面的难点在于,FDA 要求解释药物机制,而某些复杂的 AI 算法设计决策本身就是“黑箱”,难以提供清晰的因果路径。这使得监管机构难以评估 AI 预测的安全性与有效性。
生成式人工智能在生命科学中的应用
传统人工智能与生成式人工智能的核心区别,主要体现在它们的输出目标和能力上。传统 AI 擅长识别已有数据中的模式并进行预测,其结果建立在现有数据之上;而生成式 AI 则聚焦于“创造”,即生成新的数据,这些数据可能与训练数据相似但不完全相同。这种区分并非绝对——许多 AI 系统实际上融合了分析与生成能力。
生成算法的历史可以追溯到数十年前。早在 20 世纪 50 至 60 年代,AI 就已能生成文本、图像、音乐和语音;到了 70 和 80 年代,这些技术逐渐延伸到生命科学领域。虽然 80 年代出现了诸如玻尔兹曼机(Boltzmann Machines)等基础生成模型,但真正的突破出现在 2010 年代——2013 年的变分自编码器(VAE)和 2014 年的生成对抗网络(GAN)开启了新时代。2017 年 transformer 架构的提出,更是推动语言模型不断增强,最终在 2022 年末催生了 ChatGPT 的问世,使生成式 AI 成为大众热议的技术,并展示了其在自然语言交互方面的巨大潜力。这些进展标志着 AI 从分析走向创造的重大飞跃,不再局限于处理已有数据,而是能够生成文本、图像等全新内容。
早期的生成算法大多基于规则和概率方法,生成质量远远不及人类内容。从机器学习角度来看,这些模型因无法处理大量复杂数据而表现出“欠拟合”的特征。而现代生成式 AI 之所以取得巨大进步,主要得益于三方面的发展:计算能力的极大提升、海量数据集的可用性、以及 transformer 和深度神经网络等架构创新。这些技术使得模型能够学习并建模数据中复杂的模式和关系,从而生成质量更高、逻辑更连贯的内容。现代生成模型不再依赖预设规则或简单的统计分布,而是能够捕捉语言、图像或科学数据中的微妙规律,并在遵循领域约束的前提下,创造出新颖的变体。
关于“机器智能”,我们往往没有一个清晰的定义。图灵测试强调“表现得像人”的机器智能,但这只是众多定义之一。人工智能的研究路径可以划分为四种主要范式:像人类一样思考、以逻辑方式思考、像人类一样行动、以及以逻辑方式行动。
真正的智能意味着深刻理解因果关系。不仅是找出数据中的规律,更要理解“为什么”发生,并运用这种理解去解决问题、做出判断。当前的 AI 系统主要通过机器学习和强大的算力来模拟人类某些认知能力,比如图像识别、语言理解等,但尚不具备真正的因果理解。像聊天机器人和语言模型这样的系统被称为“弱 AI”,它们擅长特定任务,但缺乏通用智能。它们在狭窄领域内表现得“聪明”,但每一个新任务都需要人类编程介入。尽管电影或部分公司喜欢宣传“强 AI”已经来临,但实际上我们仍未真正实现那种能与人类匹敌或超越的智能。一个更科学的目标,是发展能跨越多个知识领域、深入理解现实问题并提出创新解决方案的系统,而生成式 AI 正是迈向这一目标的重要一步。
目前,生成式 AI 的最广泛用途是生成文本、音频和视觉内容。但它的能力远不止于此。经过恰当训练的模型,还能生成分子、物质、基因、材料等,如图 1-1 所示。下面我们将简单探讨这些工具的实际应用,从而更好地理解生成式 AI 在生命科学中的潜力。
音频与视觉生成
生成式音频和视觉内容的市场规模巨大,但其大多数应用仍集中在教育和娱乐领域,与生命科学或医疗保健的直接关联相对较少。然而,部分 AI 工具已开始在交叉领域展现潜力。例如,在个性化音乐治疗中,AI 可以实时分析患者的情绪状态或生理反应,并生成有助于放松、刺激认知功能或改善情绪的音乐或声音。这种量身定制的方法可以显著提升音乐疗法在治疗抑郁、焦虑、痴呆等精神和神经系统疾病中的有效性。
对于因渐冻症(ALS)、中风或脑外伤等导致言语障碍的患者,语音生成 AI 能够“重建”他们的声音,从而帮助他们保留个人身份。本书第 9 章将详细探讨语音识别与语音生成模型在医疗中的利与弊。
图像生成 AI 能够创建高度逼真的人体组织、细胞和器官图像,可用于辅助医生培训,提高疾病识别的准确性,从而改善早期检测和治疗效果。对于罕见病等图像数据稀缺的领域,生成式 AI 可以合成相关图像,用于研究和教学。此外,这类图像还可用于训练机器学习模型,避免使用真实患者数据所带来的隐私问题。但这也带来一个“鸡生蛋、蛋生鸡”的问题——要生成逼真的图像,模型本身首先就需要高质量的训练图像数据。
视频生成 AI 可用于多种教学和培训场景。视觉生成 AI 同样能在实验仿真和远程医疗中,提供直观、生动的视觉解释。
文本生成
每当我们谈论文本生成 AI,就必须谈到大语言模型(LLMs)。下一章将详细介绍其工作原理,目前你只需知道,LLM 是一种通过学习海量文本数据中的语言模式来理解和生成自然语言的机器学习模型。尽管 LLM 本质上是一种语言模型,但现代 LLM 系统通常是多个机器学习技术的集合体,远远超越了传统的单一任务模型。
💡提示
要理解什么是语言模型,可以回想你使用手机输入法时的“联想输入”功能。比如你输入“H”这个字母,输入框上会出现“Hey”、“Hi”、“How”等建议词汇。如果你输入的是“小写 h”,推荐内容可能不同,甚至前面输入的几个词也会影响联想结果。这些预测机制本质上都是语言模型的表现形式。大语言模型的不同之处在于:它们拥有更复杂的结构,并且训练数据量远远更大。
文本处理在生命科学领域的应用从基础科研一直延伸到医疗服务,最常见的应用场景是聊天机器人。在本书中,我们将构建多个个性化助手和智能代理,用作生成式 AI 接口。
在科研方面,LLMs 将彻底改变科学家处理海量文献的方式。通过自动化文献综述、研究结论的提取和整合,LLMs 可帮助研究人员更高效地跟进最新研究进展。不仅如此,LLMs 还能协助撰写研究计划和申请书,提高语言的清晰度与说服力。第 5 章将带你一步步搭建科研助手与团队。
在化学研究中,LLMs 可根据训练数据生成创新的合成路径,辅助解读化学数据、管理化学库存,甚至生成和维护必要的技术文档。生物学研究则可借助 LLMs 实现基因功能注释、蛋白质结构预测、生物通路分析等任务。模型能够处理大规模生物数据,为基因功能和生物过程提供深度洞察,帮助鉴定菌株特征或疾病生物标志物。第 6 章将介绍当前最先进的化学语言模型,并讲解如何利用文本生成优化数据准备工作。
📌注意
“深度研究”(Deep Research)这个概念被很多 AI 公司广泛使用。例如,OpenAI 的 Deep Research Agent 被称为能搜索网络、分析信息并生成报告的工具;Perplexity AI 宣称其系统能提供带有引用来源的可靠信息;谷歌在 Gemini 项目中也提出了类似功能。这些公司所说的“深度研究”,往往意味着结构化地聚合和总结公开信息,而不是创造新的知识。
在药物发现领域,LLMs 的应用前景尤为广阔。其关键用途之一是通过“药物再开发”方法寻找已有药物的新适应症,并分析临床试验数据以跨研究提炼结论(详见第 8 章)。通过总结大量临床报告中的副作用信息,LLMs 可帮助科研人员和医生做出更明智的决策。
在医疗保健领域,LLMs 同样能带来深远影响。它们可自动汇总患者信息与临床指南,简化医疗决策流程,提高诊疗效率和准确性。第 9 章将介绍医生助手的具体应用场景,包括诊断假设建议和报告生成。此外,LLMs 还可生成面向患者的个性化健康教育材料,提升患者的理解力与依从性。
向“AI可读”的未来知识转型
将文本生成 AI 融入生命科学,不仅有助于连接海量数据与人类认知,还能在多个层面推动创新与效率。但目前绝大多数内容的书写仍是为人类而设计的,而这种情况很快将发生改变。随着 LLMs 成为信息的主要消费者,我们书写和组织知识的方式也需要随之调整。
其中一种可能的方式是:在保留 PDF 格式研究论文供人类阅读的同时,提供结构化文本文件,专为 AI 理解优化。这些文件应包括关键研究结果、方法和结论,以便 LLM 能够立即读取并处理。相较于传统期刊文章,这样的“AI友好型文档”在模型生成摘要、分析结果、给出推荐时更加高效、准确。
换句话说,我们需要重新思考如何存储与共享知识。医生在问 AI 某种治疗方案时,并不需要一篇篇洋洋洒洒的背景介绍,而是希望 AI 能从结构化的专业信息中快速提取正确答案。如果科研论文和医学文献既面向人类、又面向 AI 设计,未来的医疗与科研决策将变得更快、更准。而不是像现在这样,语言模型还要费力地从非结构化文本中提取事实。
科学构件生成:超越文本与图像的 AI 创造力
此前我们讨论的生成式 AI 内容多集中在音频、视觉和文本等大众熟知的领域。然而,生成式 AI 的能力远不止于此。经过良好训练的模型可以“生成”分子、物质、材料、基因等科学构件,为生命科学的各个领域打开了前所未有的创新和探索空间。
分子生成
在原子和亚原子粒子之外,分子是生成式 AI 能够合成的最小科学构件之一。其中,最具前景的应用领域莫过于药物研发。早期的分子设计多采用矩阵实验法或传统算法,而后逐步引入机器学习方法,显著降低了无效分子的数量。如今,生成式 AI 正在进一步提升分子初始设计的质量。
在药物研发中,找到“草堆中的那根针”一直是最大的瓶颈。而 AI 模型已经能够判断某个分子是否可能作用于特定生物靶点,从而大幅缩小候选药物的数量,节省临床试验所需的时间与成本。更先进的 AI 系统甚至可能加速新型抗生素的发现,为全球抗药性难题带来突破,重塑细菌感染的治疗范式。
AI 还可通过设计新型肥料分子,提升光合作用效率,从而在不改变基因的前提下提高农作物产量,对农业可持续发展意义重大。同样,生成能有效替代污染物的分子(如可降解表面活性剂),也为环境保护和气候应对提供了技术新路径。
在第 8 章中,我们将讨论**条件变分自编码器(CVAE)**如何通过设定目标特性来“逆向设计”分子结构。
物质生成
除分子之外,生成式 AI 还在催化剂发现领域展现出巨大潜力。催化剂是加快化学反应、提高能效的关键。通过 AI 设计出具有极高选择性的酶,有望在代谢工程和生物催化中开辟新路径,推动复杂生化物质的绿色生产。
此外,特异性药理伴侣的设计为纠正蛋白质折叠错误提供了新可能,推动了罕见遗传病治疗的发展。AI 设计的靶向递送机制,标志着精准医疗进入新阶段:药物或基因可以准确输送到特定细胞或组织,最大程度减少副作用。AI 同样能辅助开发破坏生物膜的分子和合成激素类药物,拓展慢性感染与内分泌疾病的治疗手段。
AI 还在**逆合成分析(retrosynthesis)**中展现出强大能力。传统合成路径设计往往受限于人类思维的固定模式,而 AI 可探索人类未曾设想的多条可行路径,从而发现更高效、低成本的有机合成方法。
材料生成
在材料科学方面,生成式 AI 也大有可为。例如,在高分子材料的研发中,AI 可设计出具有特定性能(如更强耐久性、弹性或耐候性)的聚合物,广泛应用于航空航天、汽车和电子工业。
在环境可持续性方面,生成式 AI 带来了突破:可降解塑料的研发取得重要进展,有望显著减少医疗和科研活动中的塑料污染。
在医疗领域,AI 可帮助开发用于组织工程的生物兼容支架材料,模拟细胞外基质,从而促进组织和器官再生,特别适用于慢性病或创伤患者。此外,通过生成诊断试剂与影像对比材料,可大幅提升早期疾病诊断的准确性与效率。
AI 驱动的药物递送系统、自修复植入物和仿生义肢,将材料创新推向更高层次。这些材料不仅能精准控制药物释放的时间和位置,还能与人体组织高度融合,从而显著降低副作用并提升治疗效果。
此外,由 AI 生成的新材料还可用于制造下一代生物传感器,用于实现持续健康监测和疾病预警。这些传感器具备极高的特异性与灵敏度,有望推动从“治疗疾病”向“预防疾病”的转型。
基因生成
在生物学中,生成式 AI 最主要的应用领域之一是基因研究。随着下一代测序技术(NGS)的发展,研究人员掌握了大量的基因组数据。AI 模型可训练生成具有特定功能或特性的假设性基因序列,再通过实验加以验证,从而极大加快基因工程的创新步伐。通过这种方式,科学家可快速开发出具备优良性状的转基因作物、微生物菌株或实验模型,服务于生命科学的多个分支。
此外,生成式 AI 可助力实现个性化医疗。通过综合患者的基因信息和疾病特征,AI 能设计出专属药物或治疗方案,显著提升疗效并减少副作用,为精准医疗提供坚实支撑。第 7 章将详细介绍实际的基因生成与分析案例。
研究课题
生成式人工智能与生命科学领域研究人员之间的合作与伙伴关系将在不久的将来变得至关重要。尽管人工智能不仅能够生成新分子和化合物,还能预测它们的性质,但人类专家在解读这些预测结果并做出明智决策方面依然不可或缺。因此,未来很可能会见证人工智能工具与由AI专家和领域专家组成的多学科团队的日益融合。
让我们思考一下能构建哪些类型的应用程序。书中后续章节将更详细介绍LangChain的各个组件,但大多数时候,我们将构建能够完成多种任务的个性化代理和团队。我们的应用几乎没有限制,从简单的抽象草稿到结合文本和数据模型的复杂流程皆可实现。我们将开发用于解析复杂光谱的分析化学应用、日常医生的语音转录助手以及研究人员的头脑风暴伙伴。在背后,这些应用会调用不同的AI或计算模型来解卷光谱、预测未知化合物结构,调用各种语音转文本API,并扫描笔记和实验室结果作为大语言模型(LLM)的上下文(该具体案例将在第9章中详述)。
本书,尤其是本章节,展示了大语言模型正在改变科研的方式,但它们并未取代人类研究者。它们最好的应用示例之一是处理海量文本、发现模式,帮助筛选研究论文并寻找观点之间的关联。它们可以总结论文、生成待验证的新想法,并协助撰写报告。人类与AI工具的协同合作能够加快研究速度,并开启新的问题思考路径,而关键决策仍由人类把控。
大语言模型和AI系统在本质上存在一定局限,使其无法成为完整的研究者。如前所述,它们不具备真正理解世界或拥有真实目标的能力。它们无法在实验室工作,也无法判断研究成果是否对现实人群有意义,而且有时会编造事实或混淆信息,这对于要求高度准确的科研来说是一个大问题(第4章对此问题有深入探讨)。
最理想的方案似乎是将基于大语言模型的系统作为联合研究者。人类科学家带来深厚的知识、真实的经验和创造性思维,而大语言模型则提供速度和广泛的信息。这种结合比单独工作效果更佳。未来,LLM将在建议实验方案、发现知识空白等研究环节中发挥更大作用,但仍需要人类对其工作进行校验,确保研究的意义和方法的科学性。
生成式人工智能在科学领域的缺陷
所有伟大的技术都有其不足之处。本章将简要介绍其中之一。
抄袭长期以来一直是科学界的一大毒瘤,因为它通过将他人的成果冒充为自己的工作,损害了科研的有效性和诚信。抄袭破坏了真正科学家们的知识劳动和原创研究,导致伦理问题和信誉丧失。随着人工智能生成能力的出现,情况变得更为严峻,因为AI可以快速生成看似真实(技术上讲确实真实,但属于AI生成的真实)的科学文献。滥用AI可能传播错误信息,挑战传统的抄袭检测方法,从而使维护科学出版物的质量和可信度变得更加困难。
图1-2显示了Google Trends中“plagiarism check -ai -gpt -chatgpt”(抄袭检测,排除AI相关搜索)和“ai detection”(AI检测)的趋势。每年春季,抄袭检测搜索量都会激增,主要是由于学生提交论文的高峰期。请注意这两个搜索词之间的差距变化:自2022年11月ChatGPT发布以来,2023年两者搜索量几乎持平,但到了2024年,尤其是2025年,“AI检测”的搜索量已超过传统的抄袭检测。
虽然可以检测出AI生成的内容,但这些检测方法并非没有缺陷。目前的AI检测器表现相当糟糕,如图1-3所示,有些AI检测器竟将2016年诺贝尔化学奖颁奖演讲部分判定为AI生成的内容。显然,2016年并不存在能够生成这类文本的AI工具。正如第2章所讨论的,大语言模型(LLM)尝试生成概率最高的词元。AI检测则是通过分析词元逆向推断文本生成过程。如果序列中的每个词元都具有较高的概率和可预测性,算法可能会将该文本片段标记为AI生成内容。
不幸的是,教育并不是生成式人工智能抄袭问题的唯一受害者。说到这个众所周知的问题,ChatGPT从2023年开始,理应被称为“顶级合著者”。自从开始研究和使用大语言模型(LLM)以来,我注意到一些特定的词汇和句式结构的使用趋势,这些特征既是OpenAI、Gemini和Anthropic模型的共同特点,也存在差异。后来我读到了Philip Shapira的文章《Delving into delve》,文章中展示了“delve”一词在科学论文中的使用频率日益增长。图1-4展示了几个受欢迎的AI生成词汇,如delve、captivating、elevate、tapestry等,它们在标题和摘要中的出现频率。UCL的Andrew Gray分析和斯坦福大学的一项研究均推测,2024年初AI辅助撰写的论文占比达到了两位数的百分比。
注意 在尼日利亚,“delve”一词在教育和商业领域的使用频率远高于美国或英国。在用于训练包括OpenAI开发模型在内的人工智能模型的人类反馈强化学习(RLHF)过程中,尼日利亚的工作人员需要向系统进行解释和引导,以促进进一步训练。因此,像ChatGPT这样的AI系统往往表现出带有这些地区性“细微差别”的写作风格。
第4章专注于幻觉现象——AI的纯粹“梦境”。生成式人工智能在科学研究中可能带来可信度风险。AI能够生成看似连贯的文本,但其中可能包含虚构的引用、根本不存在的研究方法,或看似令人信服却缺乏科学依据的伪科学论断。如果将这些听起来合理但本质上错误的信息用于训练下一代大语言模型,将会引入重大缺陷。这也是为什么有人说2022年是“最后一个干净的AI年代”,因为从那时起,几乎没有数据可以被自信地标注为纯人类创作。
由于“发表或灭亡”的压力,使用生成式AI作为学术写作的“代笔者”诱惑很大。如果科学界继续过度依赖大语言模型来发布更多研究成果,而不进行适当的事实核查,可能会引发一场“猎巫行动”,最终生成式AI不仅无法助力科学,反而可能遭到禁用。
总结
本章概述了生成式AI技术在生物学、化学、药物发现和医疗健康领域的应用,介绍了AI能够创造的内容类型,并引入了后续章节将深入探讨的实际应用。章节回顾了过去对AI能力的预测,指出热情往往导致过于乐观的预期。它追溯了从数据科学到现代生成式AI的发展历程,突出关键里程碑,如2003年人类基因组计划完成、IBM Watson的发展以及近期AI设计药物的突破。
本章解释了传统AI(分析已有数据)与生成式AI(创造新内容)之间的区别,讨论了生命科学中各种生成内容的形式——包括文本、音频、图像,以及分子、材料和基因等专业科学组件。我们探讨了每个应用领域,并展示了它们如何变革科研和医疗实践的案例。
章节也承认生成式AI的重要缺陷,尤其是AI生成科学论文的增加以及抄袭检测的担忧。指出在学术出版中区分人类和AI创作内容的难度日益加大,某些词汇和写作模式已成为AI辅助写作的显著标志。
下一章将揭示大语言模型的工作原理、存在的语言模型类型、生命科学领域微调模型的研究地位,以及小型语言模型的潜在未来。