DeepSeek 个人搭建本地知识库方案选型

685 阅读2分钟

如果你有本地搭建个人知识库的需求,看这篇文章就对了。

注意,本地知识库搭建从简单到复杂,方案不同需要的能力不同,复杂的案例需要Python编程基础+算法能力。除非对效果和安全性有极致的要求,否则选择简单方案就可以。

  1. 对安全性没有要求,或定义并不涉及涉密内容的,统一选择云厂商的API平台。

    • 初始方案:调用大模型API + 本地客户端

      • 技术类型:链接请求 or 任意 API平台 + CherryStudio
      • 只链接知识库,可以使用AnythingLIM作为本地客户端。
      • 优势:简单、方便,只需要简单配置下API,下载客户端就可以使用。
      • 劣势:实际效果很难满足个性化需求。
    • 进阶方案:大模型API + 云平台

      • 技术类型:Code
      • 优势:使用灵活,可以配置工作流、图像流,并且能够实时飞转、微信公众等地方
      • 劣势:免费账户限制比较完善,知识库存储有上限
    • 高级方案:大模型API + 开源项目

      • 技术类型:Dify、FastGPT
      • 优势:开源部署,使用更灵活,高效
      • 劣势:需要Python基础,学会搭建Docker环境,使用相对复杂
    • 最终方案:大模型API + 自研

      • 技术类型:可以参考Langchain-Chatchat、二次开发
      • 地址:github.com/chatchat-sp…...
      • 优势:灵活性更高
      • 劣势:前端Nextjs+Python后端,LangChain框架,开发难度比较高,不适合有编程基础或者有充足时间研究的人
  2. 有涉密数据,或者对安全性有挑战,考虑本地大规模方案。

    此方案,依赖电脑配置,根据我们实际经验,低于4h的模型,无法有效回答问题。预算不足的,请调整到调用API方案,更简单,相比其他更谨慎。

    • 初级方案:olama + CherryStudio

      • 优势:简单方便,适合新手入门
      • 劣势:部分场景下效果一般。
    • 进阶方案:olama + 开源项目 FastGPT、Dify

      • 优势:能够搭建工作流,实现更复杂功能
      • 劣势:需要Python基础,懂得docker部署
    • 高级方案:llama.cpp、vLLM

      • 优势:llama.cpp 可以跟踪部署,有一些模型 olllama 官方还没有更新支持,但是使用 llama.cpp 就可以部署,vLLM 支持的模型会更多一些,且主流的管理框架,有性能的要求,一般都是用vLLM。
      • 劣势:主要是用muxi环境,Windows 下部署难度比较高,需要较高的技术基础才能弄懂。vLLM支持的模型会比 llama.cpp更多,但是使用难度会更高一些。
    • 备选方案:xinference、TGI、OpenLIM、SSI、TensorRT-LIM、OpenWino