离散流匹配框架实现高效图结构生成

15 阅读5分钟

离散流匹配框架实现图结构生成

图1:DeFoG逐步去噪图结构,将随机结构(t=0时)转换为逼真结构(t=1时)。这个过程类似于将散落的拼图碎片重新组装到正确位置。

设计新药物通常意味着发明从未存在过的分子。化学家将分子表示为图,其中原子是"节点",化学键是"边",捕捉它们的连接。这种图表示远远超出化学范畴:社交网络是人与友谊的图,大脑是神经元与突触的图,交通系统是车站与路线的图。从分子到社交网络,图无处不在,自然地捕捉了我们周围世界的关系结构。

因此,对于许多应用而言,能够生成新的逼真图是一个核心问题。然而,问题规模令人望而生畏:例如,具有500个节点的图可能包含超过100,000条可能的边。手工探索如此庞大的组合空间是不可能的。这就是为什么开发能够有效导航这一空间并在几分钟内提出数千甚至数百万新分子、电路或网络的AI模型,将是重大的科学进步。

然而基于AI的图生成远非易事。一个特别强大的方法系列借鉴了图像生成的思想,特别是扩散模型[1-3]。这些模型逐渐向图添加噪声,然后学习逆转这个过程,有点像拆散已完成的拼图并逐块重新组装(图1)。主要缺点是刚性:扩散模型的训练方式固定了其生成方式。这使得采样缓慢,如果研究人员想要生成更多图,比如10,000个分子而不是1,000个,这种限制很快成为瓶颈。更具挑战性的是,调整生成过程使其更快、更慢或针对特定目标进行调整,通常需要从头重新训练整个模型,这是流程中计算成本最高的步骤之一。

新方法:DeFoG

在今年ICML会议上,我们介绍了DeFoG,一个用于图生成的离散流匹配框架[4]。与扩散模型类似,DeFoG也从噪声图逐步构建干净图,但它基于离散流匹配以更灵活的公式实现,将训练与生成解耦。在训练期间,模型专注于单一技能:如何去噪,即如何将噪声图逆转回干净图。然而在生成时,DeFoG允许从业者自由决定去噪如何展开。他们可以在开始时更积极,在结束时更谨慎,或以其他方式调整计划以适应手头图的特征(见图2)。就像根据您想要最快、最安全还是风景最优美的旅程选择地图上的不同路线一样,这种灵活性使生成过程能更好地适应不同图族的特征,如图1所示的分子图和聚类图,从而带来改进的生成性能。

图2:DeFoG启用灵活性的一个示例。在I中,去噪计划使用均匀间隔的步骤。在II中,该计划调整步长,早期采取较大步骤,接近结束时采取较小步骤,这允许在该阶段进行更精细的生成。DeFoG设计不同去噪轨迹的自由度,以及定制过程的其他方式,带来了改进的生成性能。

为什么重要?

DeFoG的改进是双重的。首先,在准确性方面,DeFoG生成的图比竞争模型生成的图更接近真实图。在树和社区网络等合成基准测试中,它达到了接近最佳可实现的性能。在分子设计基准测试中,它显示出出色的能力,能产生新颖、不重复且化学有效的分子,意味着它们满足既定的化学规则。其次,在效率方面,DeFoG实现了与现有图生成模型竞争的结果,而与许多扩散模型相比仅需5%到10%的步骤[5,6]。

两方面对实际应用都至关重要。在药物发现中,研究人员必须筛选数百万潜在分子,因此逼真的候选分子节省了浪费的努力,而高效采样加速了整个搜索。在强化学习中,快速生成有效图对于提供快速反馈至关重要,使智能体能够更快学习。因此,DeFoG在真实感和效率方面提供的收益不仅是技术性的:它们可以产生实际差异。

展望未来

DeFoG不仅代表技术进步,还代表概念上的前进:它将训练与生成分离,为图生成中的迭代细化开辟了新可能性。未来方向包括自动调整去噪轨迹的自适应策略,以及扩展到更复杂和更大的结构,如蛋白质相互作用网络或城市交通系统。同时,扩展到非常大图以及在效率与保真度之间平衡方面仍存在限制,这突出了开放挑战。总体而言,训练和生成的分离为更高效和有效的图生成铺平了道路,使该领域更接近有影响力的实际应用。

参考文献

[1] Niu, Chenhao, et al. Permutation invariant graph generation via score-based generative modeling. International Conference on Artificial Intelligence and Statistics (2020)

[2] Jo, Jaehyeong, Seul Lee, and Sung Ju Hwang. Score-based generative modeling of graphs via the system of stochastic differential equations. International Conference on Machine Learning (2022)

[3] Vignac, Clement, et al. Digress: Discrete denoising diffusion for graph generation. International Conference on Learning Representations (2023)

[4] Qin, Yiming, et al. Defog: Discrete flow matching for graph generation. International Conference on Machine Learning (2025)

[5] Xu, Zhe, et al. Discrete-state continuous-time diffusion for graph generation. Advances in Neural Information Processing Systems (2024)

[6] Siraudin, Antoine, et al. Cometh: A continuous-time discrete-state graph diffusion model. ArXiv (2024).