OpenBayes 一周速览|入选 NeurIPS!浙大开源优化蛋白质语言模型 DePLM ;P-MMEval 基准数据集发布,覆盖十种语言评估

193 阅读4分钟

公共资源速递

5 个数据集:

  • MELD 情绪识别音频数据集

  • RSSCN7 Dataset 遥感图像数据集

  • P-MMEval 多语言多任务基准数据集

  • TCM Ancient Books 中医药古籍数据集

  • Mol-Instructions 大规模生物分子指令数据集

3 个教程:

  • GROMACS 入门教程:水中的溶菌酶

  • Hunyuan3D:仅需 10 秒生成 3D 资产

  • DePLM:用去噪的语言模型优化蛋白质(小样本)

访问官网立即使用:openbayes.com

公共数据集

1. MELD 情绪识别音频数据集

MELD 数据集包含来自电视剧「老友记」里超过 1.4k 个对话和 13k 个句子,这些对话涉及多个 speaker。对话中的每个句子都被标记为 7 种情绪中的其中一种:愤怒、厌恶、悲伤、快乐、中立、惊讶和恐惧。该数据集还为每个句子提供了情感标注(正面、负面和中性)。

直接使用:

go.openbayes.com/2HztA

数据集示例

2. RSSCN7 Dataset 遥感图像数据集

RSSCN7 Dataset 包含 2.8k 幅遥感图像,这些图像来自于 7 个典型的场景类别 —— 草地、森林、农田、停车场、住宅区、工业区和河湖,其中每个类别包含 400 张图像,分别基于 4 个不同的尺度进行采样。

直接使用:

go.openbayes.com/Fffvb

数据集示例

3. P-MMEval 多语言多任务基准数据集

该数据集包含 3 个基础自然语言处理 (NLP) 数据集和 5 个高级能力专项数据集,涵盖了代码生成、知识理解、数学推理、逻辑推理和指令跟随等任务。

直接使用:

go.openbayes.com/1FGvE

4. TCM Ancient Books 中医药古籍数据集

TCM Ancient Books 包含了约 700 项中医药古籍文本,涵盖了从先秦至清末民国的历代医药典籍。这些文献不仅包括了医学理论、方剂学、药物学等内容,还包含了丰富的临床案例和医学百科知识。

直接使用:

go.openbayes.com/Z2zhu

5. Mol-Instructions 大规模生物分子指令数据集

该数据集包含 3 种指令:分子导向指令、蛋白质导向指令和生物分子文本指令,旨在提供丰富的指令数据,以增强大型语言模型在生物分子领域的理解和预测能力。

直接使用:

go.openbayes.com/x9gr2

数据集示例

公共教程

1.GROMACS 入门教程:水中的溶菌酶

GROMACS 是一个用于分子动力学模拟的高性能软件包,主要应用于对生物分子(如蛋白质、脂质和核酸)在不同条件下的运动行为进行建模和模拟。

该教程为使用 GROMACS 软件进行分子动力学模拟的一个入门教程,本次教程以「水中的溶菌酶」为例学习如何准备和运行一个典型的蛋白质在水中的分子动力学模拟。

在线运行:

go.openbayes.com/k4Etv

效果可视化

2. Hunyuan3D:仅需 10 秒生成 3D 资产

Hunyuan3D 是由腾讯于 2024 年推出的 3D 生成扩散模型模型,包括一个轻量版和一个标准版,均支持从文本和图像输入生成高质量的 3D 资产。

本教程是 Hunyuan3D-1.0 轻量版,相关模型和依赖已经部署完毕,一键启动进入 API 地址即可生成 3D 资产。

在线运行:

go.openbayes.com/s6gHu

效果示例

3. DePLM:用去噪的语言模型优化蛋白质(小样本)

去噪蛋白质语言模型 (DePLM),可以将蛋白质语言模型捕捉到的进化信息视为与优化目标特性相关和无关的混合体,其中无关信息被视为「噪音」并消除,进而提高模型在预测蛋白质适应性景观时的准确性,帮助识别功能最优序列以进行优化。

该教程为浙江大学发布的训练和推理去噪蛋白质语言模型 (DePLM),相关成果已入选「NeurIPS 24」。平台已将所需要的环境与数据集配置完成,大家可通过直接执行教程所给出的命令进行训练和推理。

在线运行:

go.openbayes.com/adu34


以上就是小贝上周在 OpenBayes 的全部更新内容啦~