生物信息学的下一步：不只是处理数据，而是发现规律最近读到国家生物信息中心章张研究员发表在《Fundamental Res

最近读到国家生物信息中心章张研究员发表在《Fundamental Research》的一篇观点文章，讨论生物信息学如何推动生物学研究范式的转变。内容扎实，视角独特，值得同行认真思考。

生物学现在处在什么阶段

科学发展的范式通常分为四类：经验观察、理论构建、计算模拟、数据驱动。表面看生物学似乎四者兼备，但深入来看，我们仍主要停留在第一阶段——积累高质量的经验数据。

尽管测序技术飞速发展，人工智能广泛应用，但多尺度、多维度的生物数据在质量上参差不齐，覆盖范围也远未完整。物种、组织、细胞、时间、空间，每个维度都存在巨大空白。数据量很大，但能支撑理论提炼的高质量数据依然稀缺。

数据很多，理论很少

这是当前生物学面临的真实困境。相比物理学等学科，生物学中可量化、可推广的理论框架非常有限。碎片化的研究成果如同拼图，缺少一张完整的蓝图把它们串联起来。

理论的价值在于整合。它能把分散的发现纳入统一逻辑，能指导实验设计减少盲目试错，也能让人工智能模型具备更强的可解释性。没有理论约束的AI，往往陷入参数膨胀和结果黑箱的困境。

生物信息学的角色需要升级

生物信息学诞生于数据需求，但不能止步于数据处理。文章提出，这个学科应当明确四个递进的研究层次：

第一，数据库建设。不只是存储，更要注重数据的标准化、注释质量和跨源整合。

第二，算法开发。面向生物问题设计高效、可复现的计算方法，支撑建模与仿真。

第三，数据分析。将计算结果转化为生物学意义，连接数据与机制。

第四，理论提炼。从海量高质量数据中归纳普适规律，形成可验证、可迁移的理论原则。

前三个方向大家已经比较熟悉，第四个方向则是当前最薄弱也最关键的突破点。

图1. 生物信息学研究领域涵盖数据库、算法、分析与理论四个方向，共同支撑从数据到理论的范式转变。

从工具学科到理论引擎

生物信息学常被看作支撑性工具，但它的交叉属性和系统视角，恰恰适合承担理论构建的任务。回顾发展历程，从1952年Chargaff规则、1990年人类基因组计划，到2018年AlphaFold，每个里程碑都伴随着方法论的跃迁。

下一步，理论引导可能成为新阶段的核心特征。高质量数据支撑理论形成，理论反过来指导AI建模和实验验证，形成正向循环。这样的范式转换，不是取代现有研究，而是为整个领域提供更清晰的导航。

图2. 生物信息学四个发展阶段及主要里程碑示意图。生物信息学的发展历程大致可分为四个阶段，未来仍在持续演进：1952年起的序列导向阶段、1990年起的组学驱动阶段、2018年起的人工智能赋能阶段，以及2024年之后迈向的理论引导阶段。生物信息学发展过程中的关键里程碑包括：1952年查加夫法则提出、1962年COMPROTEIN程序开发、1965年《蛋白质序列与结构图谱》发布、1970年Needleman-Wunsch全局序列比对算法问世、1981年Smith-Waterman局部序列比对算法提出、1982年GenBank数据库建立、1990年BLAST工具发布、2010年TCGA数据门户上线，以及2018年AlphaFold问世。

写在最后

生物学研究正在经历从描述到解释、从局部到系统、从经验到理论的深层转变。生物信息学如果能在数据整合与理论抽象之间架起桥梁，不仅能提升自身学科认同，更可能成为推动生命科学整体进步的关键力量。

理论不是空中楼阁，它源于数据，高于数据，最终回归指导实践。这条路不容易，但值得投入。

本文解读基于章张研究员发表于Fundamental Research (2026)的Perspective文章，内容仅代表学术讨论，欢迎关注领域内更多深度思考。

往期推文：

面试了这么多生信工程师，我主要看这几点

Agentic Bioinformatics：智能体驱动的生物信息学新范式

当AI遇上生物信息学：一场从“预测”到“创造”的范式革命