Spring AI 聊天模型比较
聊天模型比较
本表格比较了Spring AI支持的各种聊天模型,详细说明它们的功能:
- 多模态(Multimodality): 模型可以处理的输入类型(例如,文本、图像、音频、视频)。
- 工具/函数调用(Tools/Function Calling): 模型是否支持函数调用或工具使用。
- 流式传输(Streaming): 模型是否提供流式响应。
- 重试(Retry): 对重试机制的支持。
- 可观察性(Observability): 用于监控和调试的功能。
- 内置JSON(Built-in JSON): 对JSON输出的原生支持。
- 本地部署(Local deployment): 模型是否可以在本地运行。
- OpenAI API兼容性(OpenAI API Compatibility): 模型是否与OpenAI的API兼容。
| 提供商 | 多模态 | 工具/函数 | 流式传输 | 重试 | 可观察性 | 内置JSON | 本地部署 | OpenAI API兼容 |
|---|---|---|---|---|---|---|---|---|
| Anthropic Claude | 文本、PDF、图像 | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ |
| Azure OpenAI | 文本、图像 | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ |
| DeepSeek (OpenAI-proxy) | 文本 | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ |
| Google VertexAI Gemini | 文本、PDF、图像、音频、视频 | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ |
| Groq (OpenAI-proxy) | 文本、图像 | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ |
| HuggingFace | 文本 | ✅ | ❌ | ✅ | ✅ | ❌ | ✅ | ❌ |
| Mistral AI | 文本、图像、音频 | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ |
| MiniMax | 文本 | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ |
| Moonshot AI | 文本 | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ |
| NVIDIA (OpenAI-proxy) | 文本、图像 | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ |
| OCI GenAI/Cohere | 文本 | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ |
| Ollama | 文本、图像 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| OpenAI | 输入:文本、图像、音频 输出:文本、音频 | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ |
| Perplexity (OpenAI-proxy) | 文本 | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ |
| QianFan | 文本 | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ |
| ZhiPu AI | 文本、图像、文档 | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ |
| Amazon Bedrock Converse | 文本、图像、视频、文档(PDF、HTML、MD、DOCX…) | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ |
功能说明
多模态能力
- 最高支持度: Google VertexAI Gemini 支持最全面的输入类型(文本、PDF、图像、音频、视频)
- 基础支持: 大多数模型支持文本输入,部分模型支持图像输入
- 本地部署选项: Ollama和HuggingFace提供本地部署能力
API兼容性
- OpenAI兼容代理: 多个提供商(DeepSeek、Groq、NVIDIA、Perplexity)通过OpenAI API代理提供服务
- 原生实现: OpenAI、Anthropic、Azure OpenAI等提供原生API实现
企业级功能
- 全面支持: 所有模型都支持工具/函数调用、重试机制和可观察性
- JSON输出: 除HuggingFace外,所有模型都提供内置JSON支持
- 流式传输: 除HuggingFace外,所有模型都支持流式传输