Milvus 向量库带来 2.5 倍性能飞跃, Qwen3-VL-Embedding 多模态 RAG 能力全面升级

1 阅读6分钟

KnowFlow v2.3.3 发布:Milvus 向量库带来 2.5 倍性能飞跃,多模态 RAG 能力全面升级

引言

经过团队数周的深度优化,KnowFlow v2.3.3 正式发布。本次更新最大的亮点是将 Milvus 作为默认向量数据库,经实测在高并发场景下相比 Elasticsearch 带来了 2.5 倍的吞吐量提升。同时,我们引入了 Qwen3-VL-Embedding 多模态嵌入模型,让图文混合检索成为现实。

让我们一起深入了解这些激动人心的新特性。


一、Milvus 向量库:为 RAG 而生的性能怪兽

为什么选择 Milvus?

Elasticsearch 作为全文检索引擎,虽然通过 kNN 插件支持向量检索,但其本质仍是为文本搜索设计的。而 Milvus 是专门为大规模向量相似性搜索打造的数据库,在高维向量检索场景下具有天然优势。

压测数据:真实的性能差距

我们使用相同的测试环境和数据集,对 ES 和 Milvus 进行了全场景压力测试:

测试场景并发数ES 首Token响应Milvus 首Token响应性能提升
基准测试106.44s2.86s55% ↓
日常负载3015.98s8.83s45% ↓
高峰负载5021.28s13.48s37% ↓
压力测试10070.43s27.55s61% ↓

吞吐量对比

  • ES 最高吞吐量:2.29 QPS
  • Milvus 最高吞吐量:3.55 QPS
  • 提升幅度:55%

在 100 并发的极限压力下,Milvus 依然保持 3.55 QPS 的稳定吞吐,而 ES 则下降至 1.40 QPS。这意味着在真实的高并发业务场景中,Milvus 可以用更少的资源服务更多的用户

技术架构亮点

我们为 Milvus 设计了独特的「按维度分 Collection」架构:

┌─────────────────────────────────────────┐
           Milvus Cluster                
├─────────────────────────────────────────┤
  Collection: ragflow_tenant_1024           1024 维向量
  Collection: ragflow_tenant_768            768 维向量
  Collection: ragflow_tenant_1536           1536 维向量
└─────────────────────────────────────────┘

这种设计带来三大优势:

  1. 定向查询:根据知识库使用的 Embedding 模型维度,直接定位到对应 Collection
  2. 资源高效:相同维度的知识库共享 Collection,避免碎片化
  3. 混合检索原生支持 BM25 + Dense Vector 双路融合,无需额外组件

二、Qwen3-VL-Embedding:打破图文边界的多模态对齐

传统 RAG 的痛点

在传统 RAG 系统中,图片和文本使用不同的 Embedding 模型,导致:

  • 图片搜索只能匹配图片
  • 文本搜索只能匹配文本
  • 图文混合的文档检索效果大打折扣

多模态统一语义空间

Qwen3-VL-Embedding 将图片和文本映射到同一语义空间,实现了真正的跨模态检索:

用户查询:"产品架构图"
     ↓
   统一 Embedding
     ↓
┌─────────────────────────────────────┐
│  可匹配文本:"系统架构设计说明..."      │
│  可匹配图片:[架构示意图.png]          │
│  可匹配混合:含架构图的技术文档         │
└─────────────────────────────────────┘

接入方式

我们提供了完整的 Docker 部署方案,支持两种推理后端:

Transformers 版本(推荐,显存占用更低):

cd docker/qwen3vl-embedding/transformers
docker compose up -d

vLLM 版本(吞吐量更高):

cd docker/qwen3vl-embedding/vllm
docker compose up -d

服务启动后,在 KnowFlow 的模型管理页面添加即可使用,完全兼容 OpenAI Embeddings API 格式。


三、MinerU 表格图片提取:复杂文档不再是难题

技术文档中经常包含嵌入表格的图片,例如流程图、数据图表等,这种场景往往 MinerU/PaddleOCR 都无法识别到表格内图片。本次更新中,MinerU 解析器新增了表格内嵌图片自动提取功能:

处理流程

PDF 表格区域
    ↓
MinerU 识别 table_img_path
    ↓
自动提取图片 → 上传 MinIO
    ↓
在 Chunk 中嵌入图片引用
    ↓
检索时返回完整的表格+图片内容

这意味着用户在问答时,不仅能获取表格的文字内容,还能看到表格中嵌入的图片,大幅提升了复杂文档的可理解性。


四、钉钉机器人接入:企业级 IM 集成

KnowFlow 现已支持钉钉企业机器人接入,让知识库能力触达企业 IM 场景:

核心特性

  • 双协议支持:单聊使用 API,群聊使用 Webhook
  • 图文混排:自动检测内容类型,智能选择 Markdown 或纯文本消息
  • 多轮对话:内置会话管理,支持 10 轮历史记忆
  • 安全验证:HmacSHA256 签名校验,防止恶意请求

配置步骤

  1. 在钉钉开放平台创建企业内部应用
  2. 获取 ClientID 和 ClientSecret
  3. 在 KnowFlow 对话设置中填写配置
  4. 配置消息接收地址,即可开始使用


五、负载均衡部署:轻松应对高并发

针对企业级部署场景,我们提供了开箱即用的水平扩展方案:

架构概览

┌─────────────────────────────┐
                    │      Nginx LB (nginx-lb)     │
                    │       端口: 80/443/9380       │
                    └──────────────┬──────────────┘
                                   │
        ┌──────────────────────────┼──────────────────────────┐
        │                          │                          │
        ▼                          ▼                          ▼
┌───────────────┐        ┌───────────────┐        ┌───────────────┐
│ ragflow-server│        │ ragflow-server│        │ ragflow-server│
│      #1       │        │      #2       │        │      #3       │
└───────────────┘        └───────────────┘        └───────────────┘

一键启动

cd docker
bash scaling.sh start

# 动态扩缩容
bash scaling.sh scale ragflow=5 backend=3

# 查看状态
bash scaling.sh status

性能提升

部署模式并发能力高可用
单实例~100 请求/秒单点故障
负载均衡~300+ 请求/秒故障自动转移

基于 Docker DNS 的动态服务发现,扩缩容无需重启 Nginx,真正实现弹性伸缩


六、ColPali 图文混排优化

ColPali 解析模式进一步增强,现已支持:

  • 图文混排检索:页面级多向量嵌入,保留完整视觉布局
  • 两阶段检索:FDE 单向量粗排 + MaxSim 多向量精排
  • Blackwell GPU 支持:适配最新 NVIDIA GPU 架构

这使得扫描件、PPT、报表等视觉密集型文档的检索准确率大幅提升。


七、其他重要更新

优化

  • 问答文档筛选:支持在对话中选择特定文档参与检索

  • 知识库异步删除:大型知识库删除不再阻塞,后台自动清理

修复

  • 修复 LLM 回复"未找到内容"时仍显示引用信息的问题
  • 修复创建知识库时选择 video 解析方法报权限不足的问题

八、新功能预告

  • PaddleOCR VL 新版适配
  • 三方接入支持飞书
  • 视频解析支持 qwen3-vl-embdedding 模型端到端召回
  • 国际化全面适配

写在最后

KnowFlow v2.3.3 是一次面向性能和多模态能力的重大升级。Milvus 带来的性能飞跃让我们有信心应对更大规模的生产负载,而 Qwen3-VL-Embedding 的引入则为图文混合检索打开了新的可能。

我们始终相信,真正好用的 RAG 系统,应该让用户忘记技术的存在,专注于获取知识本身


如需了解 KnowFlow 更多细节,欢迎关注公众号KnowFlow 企业知识库或者访问官网[1]联系我们获取定制化方案与 POC 支持。

引用链接

[1] 官网: www.knowflowchat.cn