1.Dify是什么
- 开源的 LLM 应用开发与运营平台(SaaS + 自建均可)
- 用可视化“工作流/Agent/聊天/工具”快速搭建、上线与迭代 AI 应用
2.Embedding模型是什么
- 将文本编码为高维向量,语义相近的内容向量更接近
- 模型本身不生成文本,只做表示。
3.为什么录入知识库需要Embedding模型
- 录入时:把文档切片并向量化,存入向量库。
- 查询时:将用户问题向量化,用相似度检索匹配相关片段供大模型引用(RAG)。
- 结果:实现语义检索(同义改写也能命中)、提升召回与准确率、减少幻觉。
4.Xorbits Inference是什么
-
它是开源的大模型推理服务平台(现名 Xinference)。
-
作用
- 本地私有化托管与加速多类模型:对话LLM、Embedding、Reranker、语音、视觉等。
- 提供 OpenAI 兼容 API,统一接入不同模型与版本。
- 支持多后端与加速:vLLM、llama.cpp、TensorRT-LLM;GPU/多卡调度、量化(如 GGUF)、热更新。
- 模型管理:下载与缓存、版本/LoRA 管理、路由与限流。
-
典型场景
- 自建 RAG:本地完成“生成+嵌入+重排”,数据不出内网。
- 成本与性能优化:量化+并发调度提升吞吐、降低成本与时延。
- 多模型灰度与对比:同一 API 快速切换或并行对比不同模型。
-
与直接用云端API对比
- 优点:私有合规、可控可优化、可离线。
- 代价:需要自行部署与运维(GPU/监控/更新)。
5.配置Embedding模型
5.1 url就是xinference的服务地址
比如13号机ip10.16.40.187
其中9997是xinference的默认服务端口
6.构建知识库
医学指南
数据:中文的医学指南802本
数据清洗
1.去除页眉和页脚:这是最重要的。页眉通常包含章节名、指南名称,页脚包含页码、机构名等。这些是RAG中最大的噪音来源。
2.处理参考文献:文档末尾的参考文献列表对问答基本无用,需要识别并删除。
3.修复换行和断句:PDF复制出的文本经常在不该换行的地方换行,导致一个完整的句子被切断。需要将这些错误的换行符合并。
4.移除目录和索引:这些导航性质的内容也应被剔除。
5.处理表格:将PDF中的表格转换为Markdown格式或其他结构化文本,能极大提升相关问题的回答准确率,但这也是最难的一步。
6.去除水印和背景文字:如果PDF有的话。