全文链接:tecdat.cn/?p=45629
原文出处:拓端数据部落公众号
关于分析师
在此对 YouMing Zhang 对本文所作的贡献表示诚挚感谢,他在东北大学完成了信息与计算科学专业的学士学位,专注 机器学习 **与深度学习算法领域。擅长 Python、Matlab、神经网络建模与数据分析。曾在多个行业数据挖掘项目中承担算法设计与模型优化工作,对图神经网络在分子性质预测中的应用具有丰富实践经验。
摘要
本文基于图神经网络框架,构建多层图卷积网络对分子亲脂性(logD)进行回归预测。采用 Lipophilicity 数据集,将分子表示为图结构,节点为原子、边为化学键,通过三层图卷积与全局池化聚合整图特征,输出连续型 logD 值。文中详细展示了数据预处理、图结构可视化、模型设计与训练评估全流程,并针对训练过拟合与测试泛化能力进行多维度分析。结果表明,模型在训练集上拟合良好,测试集预测趋势清晰,可为分子性质预测研究提供可复现的技术路径。
一、选题背景与研究意义
亲脂性是衡量药物分子在生物体内分布与渗透能力的关键指标,直接影响候选化合物的成药性。传统实验测定 logD 耗时且成本较高,利用机器学习从分子结构直接预测该性质已成为计算化学的重要方向。图神经网络能够天然地处理分子拓扑结构,将原子属性与键连关系编码为图信号,通过消息传递机制学习分子整体表示,相较于传统分子指纹或描述符方法更具表达优势。
本研究从实际项目咨询积累的技术方案出发,基于图卷积网络实现分子级回归预测,旨在为相关领域研究人员提供一套端到端的建模参考。
本文内容改编自过往客户咨询项目的技术沉淀并且已通过实际业务校验,该项目完整代码与数据已分享至交流社群。阅读原文进群获取完整代码数据及更多最新AI见解和行业洞察,可与900+行业人士交流成长;还提供人工答疑,拆解核心原理、代码逻辑与业务适配思路;遇代码运行问题,更能享24小时调试支持。
整体技术路线如下图所示:
┌─────────────────────┐
│ Lipophilicity 数据 │
│ (SMILES → 分子图) │
└──────────┬──────────┘
▼
┌─────────────────────┐
│ 图数据预处理与划分 │
│ (节点特征/边索引) │
└──────────┬──────────┘
▼
┌─────────────────────┐
│ 三层 GCN + 全局池化 │
│ (图嵌入 → 回归输出) │
└──────────┬──────────┘
▼
┌─────────────────────┐
│ 训练与超参数调优 │
│ (MSE损失, Adam优化) │
└──────────┬──────────┘
▼
┌─────────────────────┐
│ 测试评估与可视化 │
│ (R², 预测对比曲线) │
└─────────────────────┘
二、数据来源与预处理全流程
数据集包含 4200 个化合物的 SMILES 序列及其实验测定的 logD 值(pH=7.4)。通过 PyTorch Geometric 内置的 MoleculeNet 接口可直接加载,每个分子自动转换为 Data 对象:x 为节点特征矩阵(9 维原子属性),edge_index 为边连接关系,edge_attr 为键类型编码,y 为目标 logD 值。
首先引入所需库,并对变量命名进行重构以增强可读性。
加载数据集并查看基本统计信息:
输出表明共 4200 个分子图,节点特征 9 维。首个分子包含 26 个原子与 56 条化学键。
分子结构可视化
为直观理解图数据与化学结构的对应关系,利用 pubchempy 与 RDKit 绘制前 12 个分子的结构图,并整理其节点数、边数与 logD 值。
表格展示了分子图规模与亲脂性值,部分 SMILES 较长,已用简称代替。
绘制首分子结构图:
first_smiles = lip_dataset[0].smiles
该化合物为 2-[[4-(4-氯苯基)哌嗪-1-基]甲基]-1-甲基苯并咪唑,logD 值为 3.54。
相关文章
DeepSeek、LangGraph和 Python 融合LSTM、RF、XGBoost、LR多模型预测NFLX股票涨跌|附完整代码数据
原文链接:tecdat.cn/?p=44060
前12个分子结构网格图如下,标题为简化后的 IUPAC 名称:
为进一步展示图结构,将两个分子的 PyTorch Geometric 图转换为 NetworkX 格式并绘制节点连接关系:
图中每个节点对应一个原子,边对应化学键,图的规模与分子大小直接相关。
三、模型选择逻辑与核心代码实现
针对图级别回归任务,设计包含三层图卷积与全局池化模块的网络架构。图卷积层负责逐层聚合邻域节点信息,生成更具表达力的节点嵌入;全局池化则通过均值池化与最大池化拼接,将节点级表示压缩为固定长度的图级向量,最后经线性层输出预测值。
模型实现代码如下(已对变量名做语义化重构,并省略部分非关键细节):
注释:多层图卷积叠加有助于捕捉高阶邻域信息,但层数过多易导致过平滑。此处采用三层结构并在每一层后应用 tanh 激活,增强非线性表达能力。全局池化的拼接设计保留了不同粒度的图统计特征。
训练配置采用均方误差损失与 Adam 优化器,并划分 80% 数据用于训练,20% 用于测试。
若遇到 CUDA out of memory 报错,可将 batch size 调小或使用 CPU 训练;若损失不收敛,建议检查学习率与网络初始化。
四、模型结果对比与解读
训练过程共迭代 2000 个周期,记录每个周期的损失与决定系数(R²)以监控拟合情况。
epoch_cnt = 2000
loss_history = []
for epoch in range(epoch_cnt):
avg_loss = train_one_epoch()
loss_history.append(avg_loss)
# 每100轮输出一次训练状态
if epoch % 100 == 0:
# 计算当前批次的 R² 近似值
...
print(f"周期 {epoch:4d} | 损失: {avg_loss:.5f}")
训练曲线与预测-目标对比如下:
训练初期预测值波动剧烈,随周期增加逐渐逼近真实分布。最后 20 个周期的决定系数可达 0.98,但训练后期损失持续下降、训练集精度接近饱和,提示可能存在过拟合风险。损失与 R² 双轴图展示如下:
论文写作解读要点:训练曲线需同时观察损失下降趋势与验证集指标,若训练损失持续降低而验证损失上升,则需考虑早停或正则化。本案例未单独划分验证集,但可通过测试集表现进一步诊断。
五、稳健性检验与 模型优化 **步骤
采用预留测试集(840 个分子)评估模型泛化性能。测试集预测值与真实值对比散点图及前 20 个样本的对比如下:
测试集决定系数约为 0.49,显著低于训练集表现,表明模型存在一定程度过拟合。进一步分析发现,训练数据规模有限(3360 个分子),且分子结构多样性较高,模型倾向于记忆训练样本而非学习泛化规律。
优化方向建议:
- 早停法:监控验证集损失,在性能不再提升时终止训练。
- Dropout 或 L2 正则化:在卷积层后添加 Dropout 层,或增大权重衰减系数。
- 数据增强:利用分子构象或虚拟筛选扩充训练样本。
- 图同构网络替代:尝试 GIN 或 GAT 等更强大的图神经网络结构。
若论文写作中遇到模型泛化能力不足且缺乏调参方向,可联系获取一对一辅导,协助完成稳健性检验与模型选型论证。
六、研究结论与写作提示
本文详细展示了基于图卷积网络的分子亲脂性回归建模流程,涵盖数据加载、图可视化、模型构建、训练监控与测试评估各环节。核心结论如下:
- 三层 GCN 结合全局均值与最大池化能够有效提取分子图特征,训练集 R² 可达 0.98。
- 测试集性能下降提示过拟合,需引入正则化与验证机制以提升泛化能力。
- 图神经网络为分子性质预测提供端到端学习框架,相较于传统描述符方法更具灵活性。
导师答辩高频提问与参考应答:
- 问:为什么选择三层卷积而不是更多层?
答:层数过多会导致节点表示过度平滑,丢失局部结构信息;三层在表达力与计算效率间取得平衡,且通过实验验证未出现明显欠拟合。 - 问:如何处理分子大小差异对池化的影响?
答:全局池化本身对节点数量不敏感,最大池化与均值池化拼接能兼顾极端值与平均水平,适合不同规模的图。 - 问:测试集 R² 较低,如何证明模型有效性?
答:可通过交叉验证、调整训练轮次及引入 Dropout 后重新评估,同时对比基线模型(如随机森林使用分子指纹)说明相对优势。
若在论文撰写中遇到变量设计合理性校验、模型适配性分析或代码复现困难,可获取免费代码预检服务,并进一步获得全流程学术合规辅导。
阅读原文进群获取完整内容及更多AI见解、行业洞察,与900+行业人士交流成长。
本文配套的论文建模可直接套用的完整代码包、实证分析,可加小助手微信:tecdat_cn领取,我们可提供全流程的辅助学术合规辅导、1v1建模陪跑服务,助力顺利完成科研、通过答辩。