OpenBayes 一周速览｜Meta 首个多模态大模型 Llama 3.2 教程上线！即时语音克隆再升级，Fish Speech v1.4 上线

Visual Genome 数据集包含了丰富的语义信息，用以拓展更加丰富的基于图像及语义信息的人工智能应用。目前包括 108,249 张图片、420 万个区域内容描述 (Region Descriptions)、170 万个图像内容问答 (Visual Question Answers)、210 万个对象案例 (Object Instances)、180 万个属性 (Attributes) 和关系 (Relationships)。

直接使用：

go.openbayes.com/gi5w8

公共模型

1. GOT-OCR 2.0

GOT-OCR-2.0 是一个基于通用 OCR 理论 (General OCR Theory) 的统一端到端模型，专注于提升光学字符识 (OCR) 的准确性与效率。它采用了一体化的架构，能够高效处理文本的多样性和复杂性。GOT-OCR 2.0 不仅支持场景文本识别，还能处理多页文档。

直接使用：

go.openbayes.com/e2UrJ

公共教程

1. 一键部署 Llama-3.2-11B-Vision-Instruct

Llama 3.2-Vision 是由 Meta 在 Connect 大会发布的多模态大模型，该模型为其 11B 参数大小的指令调整模型，在视觉识别、图像推理、字幕和回答有关图像的一般问题进行了优化。该教程为模型的一键部署 Demo，只需克隆并启动该容器，直接复制生成的 API 地址，即可对模型进行推理体验。

在线运行：

go.openbayes.com/cjaXa

2. 一键部署 DeepSeek-V2-Lite-Chat

该模型是一个在性能、成本效率和中文处理能力方面都表现出色的大语言模型，属于 DeepSeek-V2 系列的轻量级版本。适合于多种应用场景，包括但不限于编程、技术领域和需要处理大量上下文信息的任务。该教程已经将模型和相关环境搭建完毕，一键克隆即可与模型进行对话。

在线运行：

go.openbayes.com/NbPBB

3. Fish Speech v1.4 声音克隆-文本转语音工具 Demo

Fish Speech 是由 Fish Audio 于 2024 年开发的文本转语音 (TTS) 模型，它能够生成高质量、自然的语音。这个模型经过了大约 70 万小时的数据训练，能够熟练掌握中文、日语和英语等 8 种语言，语言处理能力接近人类水平，并且声音表现形式丰富多变。本教程已经将模型更新至最新版本，并将环境部署完毕，大家可根据教程指引直接进行声音克隆或文本转语音任务。

在线运行：

go.openbayes.com/rsKSj

以上就是小贝上周在 OpenBayes 的全部更新内容啦~

小贝还建立了「Stable Diffusion 教程交流群」，欢迎小伙伴们入群探讨各类技术问题、分享应用效果~扫描下方二维码添加小贝总微信（微信号：OpenBayes001），备注「SD 教程交流」，即可加入群聊。