收藏备用!2026 年所有主流 RAG 开源项目都在这里了

0 阅读6分钟

本文按核心框架、向量数据库、嵌入模型、文档处理、检索增强、评估工具、GraphRAG、低代码平台、Agentic RAG九大维度,整理2026年RAG技术生态的主流开源项目,便于快速选型与落地。

ChatGPT Image 2026年5月23日 15_45_01.png

一、核心RAG框架(全流程编排)

项目名称GitHub星数核心优势适用场景开源协议GitHub地址
LangChain98K+700+集成,多Agent工作流,动态检索链路复杂多步骤AI应用,企业级RAG系统MITgithub.com/langchain-a…
LlamaIndex40K+数据特化型RAG,结构化查询,复杂检索模式文档密集型应用,知识图谱集成MITgithub.com/run-llama/l…
Haystack 2.x18K+模块化架构,生产级流水线,企业级部署大规模文档问答,检索排序优化Apache-2.0github.com/deepset-ai/…
RAGFlow79.6K+可视化工作流,融合RAG+Agent,多模态支持快速原型开发,企业知识库Apache-2.0github.com/infiniflow/…
Dify55K+无代码/低代码,可视化编辑器,一键部署快速搭建RAG应用,业务人员使用MITgithub.com/langgenius/…
AnythingLLM35K+轻量级UI,文档上传即聊天,Docker部署个人/团队知识库,快速检索MITgithub.com/Mintplex-La…
OpenRAG5K+模块化轻量级,可扩展,易定制研究与实验,定制化RAG系统Apache-2.0github.com/linagora/op…
Youtu-RAG8K+Agent驱动,长期记忆,跨会话关联智能客服,个性化推荐Apache-2.0github.com/TencentClou…
RAGLAB3K+研究导向,算法对比,模块化架构RAG算法研究,公平性能测试MITgithub.com/facebookres…

二、向量数据库(核心记忆层)

项目名称核心特性规模支持部署方式开源协议GitHub地址
Milvus云原生架构,存储计算分离,十亿级向量10亿+分布式/K8sApache-2.0github.com/milvus-io/m…
Qdrant点积/余弦/欧氏距离,动态索引,过滤条件丰富亿级单机/分布式Apache-2.0github.com/qdrant/qdra…
Weaviate语义搜索,图结构集成,自动分片亿级单机/分布式BSD-3-Clausegithub.com/weaviate/we…
ChromaDB轻量级,内存优先,零依赖部署百万级本地/嵌入式Apache-2.0github.com/chroma-core…
pgvectorPostgreSQL插件,关系+向量混合查询百万级数据库扩展PostgreSQLgithub.com/pgvector/pg…
FAISSFacebook开发,高性能,GPU加速十亿级本地库/服务MITgithub.com/facebookres…
Zilliz CloudMilvus托管版,Serverless按需扩展云服务商业/开源混合github.com/zilliztech/…

三、嵌入模型(文本表征)

模型名称发布机构特点开源协议GitHub地址
BGE-M3智谱AI多粒度,多任务,中文优化MITgithub.com/FlagOpen/Fl…
E5微软检索优先,长文本支持MITgithub.com/microsoft/u…
all-MiniLM-L6-v2Sentence-BERT轻量级,速度快MITgithub.com/UKPLab/sent…
Llama-2-7b-chat-hfMeta大模型嵌入,上下文理解强Llama 2huggingface.co/meta-llama/…
Mistral-7B-v0.3Mistral AI高效,多语言,低延迟Apache-2.0github.com/mistralai/m…
jina-embeddings-v2-base-enJina AI长文本(8k),检索精度高Apache-2.0github.com/jina-ai/jin…

四、文档处理工具(解析/分割/加载)

工具名称功能支持格式特点GitHub地址
Unstructured文档解析PDF/Word/PPT/HTML等智能提取,布局感知github.com/Unstructure…
PyPDF2PDF解析PDF轻量级,文本提取github.com/py-pdf/PyPD…
LangChain Document Loaders多源文档加载网页/数据库/云存储等70+加载器github.com/langchain-a…
LlamaHub数据连接器200+数据源一键集成,低代码github.com/run-llama/l…
RecursiveCharacterTextSplitter文本分割所有文本递归分割,保持语义github.com/langchain-a…
SemanticChunker语义分割长文本基于嵌入相似度,语义完整github.com/langchain-a…

五、检索增强工具(重排/过滤/生成)

工具名称功能技术原理适用场景GitHub地址
Cohere Rerank检索结果重排交叉编码器提升Top-K精度github.com/cohere-ai/r… (开源SDK)
ColBERT上下文感知检索交互式BERT长文档精准匹配github.com/stanford-fu…
Contriever稠密检索对比学习大规模文档检索github.com/facebookres…
FlashRank快速重排轻量级模型低延迟场景github.com/Prithiviraj…
Rerankers多模型重排集成多种交叉编码器混合检索系统github.com/allenai/rer…
LLM-as-a-Judge结果评估大模型评分检索质量判断github.com/langchain-a…

六、GraphRAG(图结构检索增强)

项目名称星数核心能力适用场景GitHub地址
Microsoft GraphRAG31K+社区检测,多跳推理,全局语义分析金融投顾,新闻摘要github.com/microsoft/g…
LightRAG29K+轻量级图结构,动态构建,高效检索知识图谱问答,快速原型github.com/lightrag-ai…
KAG (OpenSPG)8K+知识图谱推理,语义关联,复杂查询企业知识管理github.com/OpenSPG/ope…
NebulaGraph12K+分布式图数据库,毫秒级查询大规模知识图谱github.com/vesoft-inc/…
Neo4j RAG10K+图数据库集成,Cypher查询关系密集型应用github.com/neo4j/neo4j…

七、RAG评估工具(质量/性能/成本)

工具名称评估维度特点GitHub地址
RAGAs答案相关性,事实一致性,检索精度轻量级,可扩展github.com/explodinggr…
DeepEval自定义指标,LLM评估,人类标注全面评估框架github.com/confident-a…
TruLens可解释性,性能监控,成本分析端到端监控github.com/truera/trul…
LangChain Evaluation内置指标,自定义评估器与LangChain无缝集成github.com/langchain-a…
LlamaIndex Evaluation检索质量,生成质量,综合评分数据导向评估github.com/run-llama/l…

八、低代码/可视化RAG平台

平台名称特点部署方式适用人群GitHub地址
Dify可视化编辑器,一键部署,多模型支持Docker/K8s业务人员,开发者github.com/langgenius/…
RAGFlow拖拽式工作流,多模态支持,权限管理Docker/云原生企业团队,快速开发github.com/infiniflow/…
AnythingLLM极简UI,文档上传即聊天,本地部署Docker/本地个人/小团队github.com/Mintplex-La…
VerbaWeaviate原生,语义搜索,聊天界面DockerWeaviate用户github.com/weaviate/Ve…
Cognita企业MLOps,合规知识库,权限控制云/本地企业级应用github.com/cognita-ai/…

九、Agentic RAG(智能体驱动RAG)

项目名称核心能力智能体类型适用场景GitHub地址
LangGraph状态管理,多Agent协作,循环执行规划/执行/评估复杂推理任务github.com/langchain-a…
EDDI配置驱动,多Agent编排,企业合规对话/工具调用企业级AI助手github.com/labsai/EDDI
Youtu-RAG长期记忆,跨会话关联,个性化规划/执行/记忆智能客服,个性化推荐github.com/TencentClou…
AutoGPT自主任务执行,工具调用,内存管理自主智能体复杂信息收集github.com/Significant…
MetaGPT团队协作,角色分配,任务拆解多角色智能体软件开发,项目管理github.com/geekan/Meta…

十、选型指南(快速匹配)

应用场景推荐框架推荐向量数据库推荐嵌入模型备注
企业级知识库Haystack/RAGFlowMilvus/QdrantBGE-M3/E5注重可扩展性和安全性
个人/小团队Dify/AnythingLLMChroma/pgvectorall-MiniLM-L6-v2快速部署,低维护成本
研究/实验LlamaIndex/RAGLABFAISS/Chroma自定义模型灵活定制,算法对比
多跳推理/知识图谱Microsoft GraphRAGNebulaGraph/Neo4jBGE-M3图结构增强检索
低代码/无代码Dify/RAGFlow托管向量数据库托管嵌入模型业务人员友好
Agent驱动应用LangGraph/Youtu-RAGMilvusE5/BGE-M3状态管理,长期记忆

总结

2026年RAG技术生态已形成全栈开源体系,从核心框架到细分工具全面覆盖。选择时建议:

  1. 明确应用场景(企业级/个人/研究)
  2. 评估技术需求(可扩展性/检索精度/开发效率)
  3. 考虑团队技能(低代码/全栈开发)
  4. 优先选择活跃社区和长期维护的项目