集成 40+ 数据集和主流 PLMs,VenusFactory 全流程零代码操作指南

105 阅读5分钟

VenusFactory 是由上海交通大学、上海人工智能实验室、华东理工大学联合研发的蛋白质工程一体化平台,集成了生物数据检索、标准化任务评测和预训练蛋白质语言模型(PLMs)模块化微调等功能。平台支持命令行与 Gradio 无代码界面,内置 40 余个蛋白质相关数据集和同等数量的主流 PLMs,方便计算机科学与生物学领域的研究人员快速开展模型训练、性能评估与功能预测,加速蛋白质设计与优化的研究进程。相关论文成果为「VenusFactory: A Unified Platform for Protein Engineering Data Retrieval and Language Model Fine-Tuning」。

本教程提供 7 个功能模块:

  • Training:零代码训练模型,支持 40+ 大模型,使用私有数据集训练自己的模型。
  • Evaluation:易操作的蛋白质模型全面性能评估工具。
  • Prediction:使用训练好的模型对新的蛋白质序列进行功能预测。
  • VenusAgent:蛋白质工程 Agent,搭配 DeepSeek 对话实现 AI 蛋白质计算。
  • Quick Tools:轻松使用版,支持零样本突变预测(定向进化)、有监督预测(功能或性质预测)。
  • Advanced Tools:进阶定制使用版,支持零样本突变预测(定向进化)、有监督预测(功能或性质预测)。
  • Download:轻松链接蛋白质数据,支持多线程下载各大主流数据库(RCSB、UniProt...)。

教程链接:go.openbayes.com/fiYkn

使用云平台: OpenBayes

openbayes.com/console/sig…

首先点击「公共教程」,在公共教程中找到「VenusFactory 蛋白质工程设计平台 v2」,单击打开。

image.png 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

image.png

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。

image.png

image.png

数据和代码都已经同步完成了。容器状态显示为「运行中」后,点击「API 地址」,即可进入模型界面。若显示「Bad Gateway」,这表示项目正在初始化,请等待约 1-2 分钟后刷新页面。

image.png

1.1 使用指南

本教程目前共包含 Training、Evaluation、Prediction、Download 四个模块使用指南。

image.png

2.1 训练

点击「Model Train and Prediction Training」模块中的「Training」模块

  • 选择 Protein Language Model
  • 数据集选择
  • 数据集预览
  • 训练方法配置(具体信息参考使用指南)
  • 批处理配置(具体信息参考使用指南)

如果选择的模型参数较大,请更换更大的显卡设备。

image.png

设置训练模型保存路径,点击「START TRAINING」开始训练。

image.png

此时可以看到训练的参数量以及 loss 曲线图

image.png

如果想要使用自己的数据集可以通过 Custom Dataset 配置,只需要填写你的数据集路径即可(详情请参阅 Manual 使用文档)。

2.2 评估

点击「Model Train and Prediction Training」模块中的「Evaluation」模块

  • 模型路径和蛋白质语言模型选择
  • 评估方法和池化方法(具体信息参考使用指南)
  • 数据集选择
  • 数据集预览
  • 问题类型和标签(具体信息参考使用指南)
  • 批处理配置(具体信息参考使用指南)

设置训练好的模型保存路径,选择蛋白质语言模型。

image.png

批处理配置,点击「START EVALUATION」开始训练。

image.png

评估结果如下,可以下载 CSV

image.png

如果想要使用自己的数据集可以通过 Custom Dataset 配置,只需要填写你的数据集路径即可(详情请参阅 Manual 使用文档)。

2.3 预测

点击「Model Train and Prediction Training」模块中的「Prediction」模块

  • 模型配置
  • 选择预测模块(具体信息参考使用指南)

设置训练模型保存路径,选择蛋白质语言模型,点击「START PREDICTION」开始训练。

单序列预测

image.png

蛋白质序列示例:MKTWFGHVLQ

image.png 批量预测

image.png

可以将批量预测结果下载保存

image.png

2.4 VenusAgent

点击「VenusAgent」模块

限时免费使用 VenusAgent 功能:DEEPSEEK_API_KEY="sk-72bad7e23c374095b797ff097cc25324"。

由于 VenusAgent 需要调用 DeepSeek 大模型,本教程提供 2 种调用方式:自行输入 API Key 或使用平台部署好的 DeepSeek-R1-70B 模型。

可以根据所需功能选用不同的显卡体验,选卡说明如下:

  • 若使用单卡 RTX 4090,则不支持 VenusAgent 功能使用本地部署的大模型服务(使用 DeepSeek API Key 无限制)。
  • 若使用双卡 RTX 4090,使用 VenusAgent 功能后不能立即(1-2 分钟后)使用其它功能(使用 DeepSeek API Key 无限制)。
  • 若使用双卡 RTX A6000,VenusAgent 功能无限制。

小伙伴们可以填写 DeepSeek API Key,若不填则默认使用教程本地部署的大模型服务。使用本地大模型服务时,第一次对话的响应时间大约需要 2-3 分钟,请耐心等待。

image.png

2.5 Quick Tools

点击「Quick Tools」模块

Directed Evolution: AI-Powered Mutation Prediction

image.png Protein Function Prediction

image.png

2.6 Advanced Tools

点击「Advanced Tools」模块

Directed Evolution: AI-Powered Mutation Prediction

Sequence-based Model

image.png

Structure-based Model

image.png

Protein Function Prediction

image.png

2.7 下载

点击 Download 模块,可以在该界面下载蛋白质数据

image.png