陆地植物约有45万个物种,构成了陆地生态系统的根基,也支撑着人类文明。从不足0.1Gb到超过160Gb的基因组大小,从以单倍体配子体为主到以二倍体孢子体为主的生活史,从根、叶、花、果等复杂器官的诞生到退化或高度特化,陆地植物展现出了惊人的形态、核型、生态和生理多样性。然而,这些多样性的基因组基础,至今大部分仍是未知的。
黄三文院士报告2025.2.24预告:优薯计划和植物星球计划
2026年4月30日,Cell杂志发表了一篇视角文章,来自全球数十个研究机构的科学家共同提出了PLANeT计划。这是一项旨在系统解析陆地植物基因组多样性的国际协作项目。根据文章披露的数据,截至2024年,植物界有95%的属、70%的科、51%的目还没有任何一个物种拥有参考基因组。即便是研究得最多的被子植物,也有一半以上的科缺乏参考基因组,近五分之一的目处于空白状态。
这些数字背后是一个现实:植物基因组学的知识版图由零散的“知识岛”组成。拟南芥、水稻、玉米等少数模式种和作物被反复研究,而它们之外的广阔植物世界,尤其是南半球的许多植物类群,基本处于基因组学意义上的盲区。这种抽样偏差不仅限制了对植物演化历史的完整理解,也阻碍了将已知知识迁移到那些构成生态系统主体、蕴藏新药物和新作物资源的野生植物身上。
PLANeT计划的目标是填补这些空白。项目提出了一套系统的采样策略,优先选择那些目前没有参考基因组的目、科和属,目标是在三年内让超过95%的被子植物科和超过95%的非被子植物目拥有参考基因组,在约十二年内让超过90%的被子植物属和超过90%的非被子植物科完成基因组测序。所有这些基因组都将达到染色体级别的高质量标准。
这个计划的视野远不止于生成序列数据。项目的四个主要应用方向分别是:
-
• 基础植物生物学
-
• 生物多样性保护
-
• 作物改良
-
• 天然产物药物发现
在基础生物学层面,一个覆盖整个陆地植物生命树的参考基因组库将帮助回答长期悬而未决的演化问题。被子植物的早期快速辐射被达尔文称为“可恶之谜”,五个主要支系之间的系统发育关系至今仍有争议。不完全谱系分选和古代杂交事件可能都参与了这一过程。有了覆盖各个关键节点的染色体级别基因组,科学家可以构建时间校准的系统发育树,进而大规模比较净化选择和正选择的平衡,揭示种子起源、花起源等重大演化事件背后的遗传基础。基因组大小的演化也是一个大课题,从61Mb到160Gb超过2600倍的跨度究竟由哪些力量驱动,多倍化后的二倍化过程、重复序列的扩增和删除机制如何塑造了今天的基因组,这些问题都有望得到系统性的回答。此外,寄生植物、菌异养植物和食虫植物等异养类群在至少六个目中独立出现,这种趋同演化的遗传基础同样值得深究。
在生物多样性保护方面,参考基因组提供了评估物种灭绝风险的新工具。当前保护生物学面临的一个大问题是物种评估严重不足,很多被归为濒危的物种实际上可能没有明显的遗传衰退,而大量未经评估的物种却在悄然丢失遗传多样性。有了参考基因组,就可以高效估算种群的遗传多样性和历史有效群体大小,这两个指标直接反映一个物种的适应潜力和灭绝风险。项目还计划收集已灭绝或近期灭绝物种的标本进行测序,形成一座数码版的诺亚方舟。一个具体的例子是,科学家曾通过比较健康山毛榉和严重受损山毛榉的基因组,找出了与抗旱性相关的位点,并据此筛选更耐旱的个体用于造林。
在作物改良方面,PLANeT的贡献在于打通野生植物与栽培作物之间的基因流动通道。现代作物品种大多经历了驯化瓶颈,遗传多样性受限,遗传负荷反而增加。野生近缘种是恢复这些丢失多样性的关键来源,但它们在高品质基因组 assemblies 中的代表性严重不足。项目提出了一种结合两种视角的策略:一是进化望远镜,通过比较相隔数百万年的远缘物种,找出那些在漫长演化中几乎不发生变化的受约束位点;二是泛基因组显微镜,通过分析作物及其野生近缘种的群体数据,发现适应性进化的足迹。这两个视角的结合可以帮助育种者精准锁定真正影响重要性状的功能变异,而不是在全基因组关联分析给出的一大堆候选位点中盲目摸索。
在天然产物药物发现方面,野生植物是化学结构多样性的宝库。青蒿素来自黄花蒿,紫杉醇来自红豆杉树皮,这些药物的发现改变了现代医学。但植物界还有海量的生物合成基因簇等待发掘。有了覆盖整个植物多样性的参考基因组,就可以系统性地发现这些基因簇,解析代谢多样性的演化历史,为药物设计和代谢工程提供全新的模板。
AI技术在整个计划中扮演核心角色。项目计划基于海量的植物基因组数据构建一个基因组语言基础模型,在这个模型之上构建四层任务特定模型:
-
1. 第一层负责非编码序列、转录单元和编码区的结构注释以及变异效应预测
-
2. 第二层负责DNA-RNA/蛋白质相互作用、表达模式和亚细胞定位的功能注释
-
3. 第三层负责检测净化选择、正选择和基因渐渗
-
4. 第四层负责发现功能基因模块、关键性状的调控回路以及需要优先保护的物种
近期的一些研究已经展示了这种路径的可行性,例如Helixer工具利用深度学习进行跨物种基因结构注释,以及多个研究团队从全球微生物组中发现新型抗菌肽的成功案例。
PLANeT并不是孤立运作的项目。它与此前启动的万种植物基因组计划、地球生物基因组计划和达尔文生命之树计划都有紧密的合作关系。项目特别强调对全球南方国家的支持,认为如果没有统一的国际努力,中低收入国家的研究将难以跟上全球步伐,这反过来会影响当地植物多样性的保护和利用以及适应当地作物的育种工作。
项目的时间表设定到2036年,那将是小猎犬号航行结束200周年。计划联合约100个实验室,培训和指导至少1000名植物科学家。文章的结尾写了一个场景:二十或三十年后,当人们走进森林、荒漠、冻原或草原,可以用类似星际迷航中三录仪的手持设备当场读取任何感兴趣物种的基因组,然后用AI算法解锁隐藏在每个物种中的秘密。
这不是一个遥不可及的远景。这是PLANeT计划正在着手实现的蓝图。