LLM的手最终还是伸到了AIDD

135 阅读1分钟

1. LLM for Molecule

there are a lot of sub-tasks:

  • molecular structure generation
  • molecular tructure optimization
  • molecular synthetic route generation
  • molecular property prediction (ADMET, Toxity, Druggability, etc)
  • molecular and protein binding affinity/interaction prediction

| Arxiv2024 | DrugAssist: A Large Language Model for Molecule Optimization [Tencent AI-Lab&Hunan University]

contribution:

  • 提出了一个微调数据集:作者公开发布了一个名为“MolOptInstructions”的大型基于指令的数据集,用于在分子优化任务上微调语言模型。该数据集包含足够的数据,确保了分子间的相似性约束和属性差异。
  • 训练出了一个模型:作者提出了 DrugAssist,这是一个在 Llama2-7B-Chat 上微调的交互式分子优化模型
  • 效果上和其所选的 Baseline 比还不错:与传统的分子优化方法和基于LLM的实现相比,DrugAssist在多属性优化方面始终取得了领先的结果,这是一个较少被关注且更具挑战性的任务。此外,本文的优化目标包括在给定范围内保持优化的分子性质值。与大多数只关注增加或减少属性值的研究相比,这些任务更符合现实世界的需求。

2. LLM for Protein

There are a lot of sub-tasks:

  • protein structure generation
  • protein structure optimiztion
  • protein property prediction (Druggability, etc)
  • protein function prediction
  • protein binding-pocket (active site) prediction

| Arxiv2024 | ProLLaMA: A Protein Large Language Model for Multi-Task Protein Language Processing [Peking University]

contribution:

  • 提出了一个微调数据集:未公开
  • 训练出了一个模型:将 Instruct GPT 的预训练+微调的流程,应用到 Protein 任务上
  • 效果生和其所选的 Baseline 比还不错:论文显示其在三个任务(从零结构生成,引导的结构生成,属性预测)上达到了不错的性能 image.png