OpenBayes 一周速览|Meta 首个多模态大模型 Llama 3.2 教程上线!即时语音克隆再升级,Fish Speech v1.4 上线

195 阅读4分钟

公共资源速递

5 个数据集:

  • MSEmbGAN 多针刺绣数据集

  • Piazza Bra (NEW) 图片数据集

  • TMDB 5k Movie 电影信息数据集

  • Top 5k Albums 音乐专辑评论数据集

  • Visual Genome Dataset 1.2 图片语义分割数据集

1 个模型:

  • GOT-OCR 2.0

3 个教程:

  • 一键部署 Llama-3.2-11B-Vision-Instruct

  • 一键部署 DeepSeek-V2-Lite-Chat

  • Fish Speech v1.4 声音克隆-文本转语音工具 Demo

访问官网立即使用:openbayes.com

公共数据集

1. MSEmbGAN 多针刺绣数据集

该数据集是第一个通过单针和多针标签详细标注的刺绣数据集。研究团队通过专业的刺绣软件 (Wilcom 9.0) 制作了超过 3 万张对齐或未对齐的刺绣和内容图像,包括刺绣图像和相应的内容图像,所有图像都被调整为 256 × 256 的分辨率。
直接使用:

go.openbayes.com/CMD0Y

2. Piazza Bra (NEW) 图片数据集

Piazza Bra (NEW) 数据集是一个主要用于三维重建的图片数据集,该数据集引入了一种用于计算结构和运动的新颖分层方案,将图像组织成具有凝聚聚类的树,使用重叠度量作为距离,然后重建从叶子到根之后跟随这棵树。

直接使用:

go.openbayes.com/rw3Oo

3. TMDB 5k Movie 电影信息数据集

TMDB 5k Movie 包含了 5k 部电影的详细信息,这些电影主要来自美国地区一百年间 (1916-2017) 的作品。数据集旨在帮助研究人员和分析师探索电影行业的流行趋势、投资方向,以及为电影行业的新入局者提供参考建议。

直接使用:

go.openbayes.com/3FEcW

4. Top 5k Albums 音乐专辑评论数据集

该数据集包含 rateyourmusic.com 社区用户评选出的史上最热门的 5k 张专辑,于 2021 年 10 月 12 日通过抓取获取,包括排名、专辑名称、艺术家姓名、发行日期、流派、描述、平均评分、评分数量和评论数量这些属性。

直接使用:

go.openbayes.com/Rj6W2

5. Visual Genome Dataset 1.2 图片语义分割数据集

Visual Genome 数据集包含了丰富的语义信息,用以拓展更加丰富的基于图像及语义信息的人工智能应用。目前包括 108,249 张图片、420 万个区域内容描述 (Region Descriptions)、170 万个图像内容问答 (Visual Question Answers)、210 万个对象案例 (Object Instances)、180 万个属性 (Attributes) 和关系 (Relationships)。

直接使用:

go.openbayes.com/gi5w8

公共模型

1. GOT-OCR 2.0

GOT-OCR-2.0 是一个基于通用 OCR 理论 (General OCR Theory) 的统一端到端模型,专注于提升光学字符识 (OCR) 的准确性与效率。它采用了一体化的架构,能够高效处理文本的多样性和复杂性。GOT-OCR 2.0 不仅支持场景文本识别,还能处理多页文档。

直接使用:

go.openbayes.com/e2UrJ

公共教程

1. 一键部署 Llama-3.2-11B-Vision-Instruct

Llama 3.2-Vision 是由 Meta 在 Connect 大会发布的多模态大模型,该模型为其 11B 参数大小的指令调整模型,在视觉识别、图像推理、字幕和回答有关图像的一般问题进行了优化。该教程为模型的一键部署 Demo,只需克隆并启动该容器,直接复制生成的 API 地址,即可对模型进行推理体验。

在线运行:

go.openbayes.com/cjaXa

2. 一键部署 DeepSeek-V2-Lite-Chat

该模型是一个在性能、成本效率和中文处理能力方面都表现出色的大语言模型,属于 DeepSeek-V2 系列的轻量级版本。适合于多种应用场景,包括但不限于编程、技术领域和需要处理大量上下文信息的任务。该教程已经将模型和相关环境搭建完毕,一键克隆即可与模型进行对话。

在线运行:

go.openbayes.com/NbPBB

3. Fish Speech v1.4 声音克隆-文本转语音工具 Demo

Fish Speech 是由 Fish Audio 于 2024 年开发的文本转语音 (TTS) 模型,它能够生成高质量、自然的语音。这个模型经过了大约 70 万小时的数据训练,能够熟练掌握中文、日语和英语等 8 种语言,语言处理能力接近人类水平,并且声音表现形式丰富多变。本教程已经将模型更新至最新版本,并将环境部署完毕,大家可根据教程指引直接进行声音克隆或文本转语音任务。

在线运行:

go.openbayes.com/rsKSj

以上就是小贝上周在 OpenBayes 的全部更新内容啦~

小贝还建立了「Stable Diffusion 教程交流群」,欢迎小伙伴们入群探讨各类技术问题、分享应用效果~扫描下方二维码添加小贝总微信(微信号:OpenBayes001),备注「SD 教程交流」,即可加入群聊。