知识库搭建

104 阅读2分钟

1.Dify是什么

  • 开源的 LLM 应用开发与运营平台(SaaS + 自建均可)
  • 用可视化“工作流/Agent/聊天/工具”快速搭建、上线与迭代 AI 应用

2.Embedding模型是什么

  • 将文本编码为高维向量,语义相近的内容向量更接近
  • 模型本身不生成文本,只做表示。

3.为什么录入知识库需要Embedding模型

  • 录入时:把文档切片并向量化,存入向量库。
  • 查询时:将用户问题向量化,用相似度检索匹配相关片段供大模型引用(RAG)。
  • 结果:实现语义检索(同义改写也能命中)、提升召回与准确率、减少幻觉。

4.Xorbits Inference是什么

  • 它是开源的大模型推理服务平台(现名 Xinference)。

  • 作用

    • 本地私有化托管与加速多类模型:对话LLM、Embedding、Reranker、语音、视觉等。
    • 提供 OpenAI 兼容 API,统一接入不同模型与版本。
    • 支持多后端与加速:vLLM、llama.cpp、TensorRT-LLM;GPU/多卡调度、量化(如 GGUF)、热更新。
    • 模型管理:下载与缓存、版本/LoRA 管理、路由与限流。
  • 典型场景

    • 自建 RAG:本地完成“生成+嵌入+重排”,数据不出内网。
    • 成本与性能优化:量化+并发调度提升吞吐、降低成本与时延。
    • 多模型灰度与对比:同一 API 快速切换或并行对比不同模型。
  • 与直接用云端API对比

    • 优点:私有合规、可控可优化、可离线。
    • 代价:需要自行部署与运维(GPU/监控/更新)。

5.配置Embedding模型

7fbc22951f979d9cf1b7f513a7d3327.png

5.1 url就是xinference的服务地址

比如13号机ip10.16.40.187

那就是http://10.16.40.187:9997

其中9997是xinference的默认服务端口

6.构建知识库

医学指南

数据:中文的医学指南802本

数据清洗

1.去除页眉和页脚:这是最重要的。页眉通常包含章节名、指南名称,页脚包含页码、机构名等。这些是RAG中最大的噪音来源。

2.处理参考文献:文档末尾的参考文献列表对问答基本无用,需要识别并删除。

3.修复换行和断句:PDF复制出的文本经常在不该换行的地方换行,导致一个完整的句子被切断。需要将这些错误的换行符合并。

4.移除目录和索引:这些导航性质的内容也应被剔除。

5.处理表格:将PDF中的表格转换为Markdown格式或其他结构化文本,能极大提升相关问题的回答准确率,但这也是最难的一步。

6.去除水印和背景文字:如果PDF有的话。