VenusFactory 是由上海交通大学、上海人工智能实验室、华东理工大学联合研发的蛋白质工程一体化平台,集成了生物数据检索、标准化任务评测和预训练蛋白质语言模型(PLMs)模块化微调等功能。平台支持命令行与 Gradio 无代码界面,内置 40 余个蛋白质相关数据集和同等数量的主流 PLMs,方便计算机科学与生物学领域的研究人员快速开展模型训练、性能评估与功能预测,加速蛋白质设计与优化的研究进程。相关论文成果为「VenusFactory: A Unified Platform for Protein Engineering Data Retrieval and Language Model Fine-Tuning」。
本教程提供 7 个功能模块:
- Training:零代码训练模型,支持 40+ 大模型,使用私有数据集训练自己的模型。
- Evaluation:易操作的蛋白质模型全面性能评估工具。
- Prediction:使用训练好的模型对新的蛋白质序列进行功能预测。
- VenusAgent:蛋白质工程 Agent,搭配 DeepSeek 对话实现 AI 蛋白质计算。
- Quick Tools:轻松使用版,支持零样本突变预测(定向进化)、有监督预测(功能或性质预测)。
- Advanced Tools:进阶定制使用版,支持零样本突变预测(定向进化)、有监督预测(功能或性质预测)。
- Download:轻松链接蛋白质数据,支持多线程下载各大主流数据库(RCSB、UniProt...)。
使用云平台: OpenBayes
首先点击「公共教程」,在公共教程中找到「VenusFactory 蛋白质工程设计平台 v2」,单击打开。
页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。
数据和代码都已经同步完成了。容器状态显示为「运行中」后,点击「API 地址」,即可进入模型界面。若显示「Bad Gateway」,这表示项目正在初始化,请等待约 1-2 分钟后刷新页面。
1.1 使用指南
本教程目前共包含 Training、Evaluation、Prediction、Download 四个模块使用指南。
2.1 训练
点击「Model Train and Prediction Training」模块中的「Training」模块
- 选择 Protein Language Model
- 数据集选择
- 数据集预览
- 训练方法配置(具体信息参考使用指南)
- 批处理配置(具体信息参考使用指南)
如果选择的模型参数较大,请更换更大的显卡设备。
设置训练模型保存路径,点击「START TRAINING」开始训练。
此时可以看到训练的参数量以及 loss 曲线图
如果想要使用自己的数据集可以通过 Custom Dataset 配置,只需要填写你的数据集路径即可(详情请参阅 Manual 使用文档)。
2.2 评估
点击「Model Train and Prediction Training」模块中的「Evaluation」模块
- 模型路径和蛋白质语言模型选择
- 评估方法和池化方法(具体信息参考使用指南)
- 数据集选择
- 数据集预览
- 问题类型和标签(具体信息参考使用指南)
- 批处理配置(具体信息参考使用指南)
设置训练好的模型保存路径,选择蛋白质语言模型。
批处理配置,点击「START EVALUATION」开始训练。
评估结果如下,可以下载 CSV
如果想要使用自己的数据集可以通过 Custom Dataset 配置,只需要填写你的数据集路径即可(详情请参阅 Manual 使用文档)。
2.3 预测
点击「Model Train and Prediction Training」模块中的「Prediction」模块
- 模型配置
- 选择预测模块(具体信息参考使用指南)
设置训练模型保存路径,选择蛋白质语言模型,点击「START PREDICTION」开始训练。
单序列预测
蛋白质序列示例:MKTWFGHVLQ
批量预测
可以将批量预测结果下载保存
2.4 VenusAgent
点击「VenusAgent」模块
限时免费使用 VenusAgent 功能:DEEPSEEK_API_KEY="sk-72bad7e23c374095b797ff097cc25324"。
由于 VenusAgent 需要调用 DeepSeek 大模型,本教程提供 2 种调用方式:自行输入 API Key 或使用平台部署好的 DeepSeek-R1-70B 模型。
可以根据所需功能选用不同的显卡体验,选卡说明如下:
- 若使用单卡 RTX 4090,则不支持 VenusAgent 功能使用本地部署的大模型服务(使用 DeepSeek API Key 无限制)。
- 若使用双卡 RTX 4090,使用 VenusAgent 功能后不能立即(1-2 分钟后)使用其它功能(使用 DeepSeek API Key 无限制)。
- 若使用双卡 RTX A6000,VenusAgent 功能无限制。
小伙伴们可以填写 DeepSeek API Key,若不填则默认使用教程本地部署的大模型服务。使用本地大模型服务时,第一次对话的响应时间大约需要 2-3 分钟,请耐心等待。
2.5 Quick Tools
点击「Quick Tools」模块
Directed Evolution: AI-Powered Mutation Prediction
Protein Function Prediction
2.6 Advanced Tools
点击「Advanced Tools」模块
Directed Evolution: AI-Powered Mutation Prediction
Sequence-based Model
Structure-based Model
Protein Function Prediction
2.7 下载
点击 Download 模块,可以在该界面下载蛋白质数据