🟡 AI生态框架构成
- 基础层框架 :解决模型构建和训练问题(如 PyTorch、TensorFlow)。
- 推理层框架 :提升模型在生产环境中的性能(如 vLLM、TensorRT)。
- 中间层框架 :扩展模型能力,实现复杂功能(如 LangChain、AutoGen)。
- 部署层框架 :确保模型在实际环境中稳定运行(如 Docker、Kubernetes)。
- 本地化层框架 :满足隐私需求,支持本地化部署(如 Ollama、LM Studio)。
- 应用层框架 :针对特定行业提供定制化解决方案(如 Med-PaLM、LegalSifter)。
🟡 典型框架工具
🔘 ChatUI 工具
- CherryStudio 支持本地 RAG 和数据库接入
- AnythingLLM 私有化部署框架,兼容多种数据格式,内置权限管理
- Ollama WebUI 与 Ollama 集成,提供简单的前端界面
- Streamlit Chat 基于 Streamlit 快速构建对话界面
ChatUI、Dify、LangChain 等工具的核心差异在于定位与能力边界。即使 ChatUI 支持本地 RAG 和数据库,其本质仍是交互层工具,而 Dify 和 LangChain 是应用开发框架,解决更底层的技术问题。开发框架是解决“如何构建应用”,ChatUI 解决“如何与应用交互”。 再说部署,Dify 提供 Kubernetes 集成、负载均衡等能力,支持高并发场景,ChatUI 仅支持单机运行,大家各自安装自己的,无法直接扩展。
🔘 RAG 框架
- LangChain 模块化设计,支持网页加载、分块、嵌入、检索全流程
- Haystack 端到端解决方案,支持多语言模型与向量存储集成
- Dify 开源 LLM 应用开发平台,集成 RAG 流程和智能体能力
- RAGFlow 基于深度文档理解,复杂格式文档处理,支持 OCR/TSR 和混合检索
- FASTGPT 可视化开发,支持复杂工作流编排
- FlashRAG 分布式处理优化,支持百亿级数据检索
RAG相关工具
- Pinecone:高性能向量数据库,支持高效相似性检索[[1]]。
- Milvus:开源向量数据库,适用于大规模数据集[[1]]。
- FAISS:Facebook 开源的向量检索库,支持 GPU 加速[[1]]。
🔘 Agent 框架
- AutoGen 支持多 Agent 协作、动态任务交接和内置安全护栏
- LangChain 集成 RAG、记忆管理、工具调用等模块
- CrewAI 强调角色协作,支持非技术用户通过配置文件快速搭建 Agent
- MetaGPT 引入标准操作流程(SOP),支持多 Agent 协作开发
- AgNO 高性能多模态框架,支持知识库动态检索
🔘 训练优化框架
- DeepSpeed:通过 ZeRO 技术减少显存占用,支持超大规模模型训练[[1]]。
- Horovod:基于 MPI 的分布式训练框架,兼容 TensorFlow/PyTorch[[1]]。
- Megatron-LM:专为 Transformer 模型设计的并行训练框架[[1]]。
🔘 推理优化框架
- vLLM:基于 PagedAttention 技术优化显存管理,支持长上下文和高并发[[3]]。
- TensorRT:NVIDIA 提供的推理引擎,支持 FP16/INT8 量化[[3]]。
- ONNX Runtime:跨平台推理框架,支持 ONNX 格式标准化[[3]]。
🔘 部署框架
- Docker:将模型及其依赖项封装为容器镜像[[4]]。
- Kubernetes:容器编排工具,支持自动扩缩容和负载均衡[[4]]。
- Kubeflow:基于 K8s 的机器学习全流程部署平台[[4]]。
🟡 典型 Agent 构建代码对比
🔘 OpenAI Agents SDK
from agents import Agent, Runner, WebSearchTool
# 声明式定义 Agent(自动处理工具调用、安全审核、状态追踪)
agent = Agent(
name="电商客服",
instructions="回答用户订单状态查询",
tools=[WebSearchTool()], # 内置工具无需注册
safety_checks="strict" # 企业级安全防护
)
# 单行调用+可视化追踪(自动生成审计日志)
response = Runner.run_sync(agent, "订单#1234物流到哪了?", trace=True)
内置安全护栏(如内容审核)、流程追踪(自动生成审计日志)。3 行代码完成复杂流程,无需处理工具调用循环。
🔘 Agno
from agno.agent import Agent
from agno.tools import YFinanceTools
# 微秒级实例化(内存占用仅 LangGraph 的 1/50)
agent = Agent(
model=OpenAIChat(id="gpt-4o", api_base="https://自定义模型地址"), # 全模型兼容
tools=[YFinanceTools(stock_price=True)], # 金融数据工具
instructions="实时股价分析"
)
# 流式输出(文本+图表)与本地极速响应
response = agent.print_response("生成苹果股价分析", stream=True, speed_mode="turbo")
启动速度比 LangGraph 快 10000 倍,支持微秒级响应。可自由替换 OpenAI/Anthropic/自研模型。
🔘 LangChain
from langchain.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI
from langchain_core.output_parsers import JsonOutputParser
# 链式组合
chain = (
ChatPromptTemplate.from_template("生成{product}的广告文案")
| ChatOpenAI(model="gpt-4")
| JsonOutputParser() # 需手动处理输出格式
)
# 需自行实现错误重试与记忆管理
result = chain.invoke({"product": "智能手表"})
需编写链式调用逻辑,灵活但开发成本高。支持 70+ 模型和 700+ 工具集成。
🔘 LangGraph
from langgraph.graph import StateGraph
# 定义医疗诊断状态机
class DiagnosisState(TypedDict):
symptoms: list
test_results: dict
graph = StateGraph(DiagnosisState)
graph.add_node("symptom_analysis", analyze_symptoms)
graph.add_node("order_tests", lab_test_ordering)
graph.add_conditional_edges("symptom_analysis", decide_test_type) # 动态分支
支持循环流程(如多次检查确认)。 内置数据库对接,适合长周期任务。 图结构引擎、状态持久化、动态分支控制。
🔘 AutoGen
from autogen import AssistantAgent, GroupChatManager
# 定义开发团队角色(需手动配置协作规则)
coder = AssistantAgent("程序员", system_message="编写 Python 代码")
tester = AssistantAgent("测试员", system_message="发现 BUG")
# 动态任务分配(需定义消息路由逻辑)
group_chat = GroupChat(agents=[coder, tester], messages=[])
manager = GroupChatManager(groupchat=group_chat)
manager.initiate_chat("实现快速排序算法")
模拟人类团队分工,需定义交互协议。多 Agent 动态协作框架。角色分工、动态任务分配、错误恢复机制。
🔘 Dify & FastGPT(低代码框架)**
- 定位:低代码开发平台,适合快速验证。
- 操作流程:拖拽「LLM 节点」→ 连接「Web 搜索工具」→ 配置输出格式。
- 生成逻辑:后台自动生成等效代码(用户无需接触 Python)。