1. LLM for Molecule
there are a lot of sub-tasks:
- molecular structure generation
- molecular
tructure optimization - molecular synthetic route generation
- molecular property prediction (ADMET, Toxity, Druggability, etc)
- molecular and protein binding affinity/interaction prediction
| Arxiv2024 | DrugAssist: A Large Language Model for Molecule Optimization [Tencent AI-Lab&Hunan University]
contribution:
提出了一个微调数据集:作者公开发布了一个名为“MolOptInstructions”的大型基于指令的数据集,用于在分子优化任务上微调语言模型。该数据集包含足够的数据,确保了分子间的相似性约束和属性差异。训练出了一个模型:作者提出了 DrugAssist,这是一个在 Llama2-7B-Chat 上微调的交互式分子优化模型效果上和其所选的 Baseline 比还不错:与传统的分子优化方法和基于LLM的实现相比,DrugAssist在多属性优化方面始终取得了领先的结果,这是一个较少被关注且更具挑战性的任务。此外,本文的优化目标包括在给定范围内保持优化的分子性质值。与大多数只关注增加或减少属性值的研究相比,这些任务更符合现实世界的需求。
2. LLM for Protein
There are a lot of sub-tasks:
- protein structure generation
- protein structure optimiztion
- protein property prediction (Druggability, etc)
- protein function prediction
- protein binding-pocket (active site) prediction
| Arxiv2024 | ProLLaMA: A Protein Large Language Model for Multi-Task Protein Language Processing [Peking University]
contribution:
提出了一个微调数据集:未公开训练出了一个模型:将 Instruct GPT 的预训练+微调的流程,应用到 Protein 任务上效果生和其所选的 Baseline 比还不错:论文显示其在三个任务(从零结构生成,引导的结构生成,属性预测)上达到了不错的性能