手把手教你如何搭建自己的本地知识库

994 阅读7分钟

在上家的时候老板说:我们要往ai发展,我们要训练自己的知识库!谁能设计出来一套AI体系,工资不是问题!(虽然是在画饼,但能感觉到企业是真的想往ai方向走) 最近在面试,听求职的同学说,他们在其他地方面试,也都有很多公司要求可以给公司开发一套可以集成知识库的AI训练平台。看来大家都觉得AI是企业一定要走的路啊。

前言

本文是本地DeepSeek + Anything LLM进行本地的模型训练。

本文涉及的内容是:

  1. Anything LLM(这是承载本地数据库的一个容器,文章最后会有介绍)
  2. 本地Deepseek模型 (如果你没有,参考juejin.cn/post/747215… 保姆级教程,包教包会。
  3. 野生知识库(自己瞎写的知识库,用于测试案例,企业用最好得企业自己先准备大份的知识库)

准备野生知识库

假定我们的知识库里只有以下信息 image.png

下载 Anything LLM

Anything LLM官网下载地址:anythingllm.com/desktop

image.png

尝试一下是否可以正常沟通。 image.png 完美

上传知识库

接下来只管跟着截图走就好

image.png

image.png

image.png

image.png

好!现在我们看看效果!

image.png

image.png

注意,Ai是进行向量搜索的,并且除了我们传入知识库,他自己还有内置的。所以不是每一次回答都可以根据你的知识库去回答,但如果问题和知识库的描述契合度很高,按知识库回答的概率还是很大的

理论上只要数据足够,咱真能给ai训练成你希望它成为的样子。比如一个喷子AI。

比如👇

image.png

什么是Anything LLM?

Anything LLM 是一个功能强大的全栈应用程序,旨在成为管理和使用大型语言模型(LLMs)的一体化解决方案。它允许用户以安全、高效的方式与任何文档或内容进行交互,无论是商业用途还是个人用途。以下是 Anything LLM 的一些关键特点和功能:

关键特点

  1. 本地运行

    • Anything LLM 可以在本地运行,确保数据隐私和安全。这对于处理敏感信息的用户尤其重要。
  2. 多用户支持

    • 支持多用户环境,适合团队协作。不同用户可以共享和访问同一套资源,提高工作效率。
  3. 多工作区

    • 提供多工作区功能,允许用户为不同的项目或任务创建独立的环境。这有助于更好地组织和管理工作流程。
  4. 多向量数据库支持

    • 支持多种向量数据库,如 Pinecone、Weaviate、Chroma 和 Qdrant。这使得 Anything LLM 能够灵活地处理各种数据存储需求。
  5. 多 LLM 提供商支持

    • 支持多种大型语言模型提供商,包括 OpenAI、Azure OpenAI、LM Studio 和 LocalAI。用户可以根据需求选择最适合的模型。
  6. 文档聊天

    • 用户可以与文档进行交互,通过聊天的方式获取信息或执行任务。这对于快速查找和理解文档内容非常有用。
  7. 文档管理

    • 提供强大的文档管理功能,用户可以轻松上传、组织和检索文档。支持多种文件格式,如 TXT、DOC、DOCX、PDF 和 CSV。
  8. 实时同步

    • 支持实时同步功能,确保所有用户都能访问最新的数据和信息。
  9. 自定义提示

    • 允许用户创建自定义提示,以便更高效地与 LLM 交互。这可以根据具体需求定制对话流程。
  10. 开源

    • Anything LLM 是开源的,用户可以访问其 GitHub 仓库,查看和修改源代码。这为开发者提供了极大的灵活性和控制权。

使用场景

  • 企业知识库:企业可以使用 Anything LLM 来管理和查询内部文档,提高信息检索效率。
  • 个人知识管理:个人用户可以用它来组织和查找个人文档和笔记。
  • 团队协作:多用户支持使得团队成员可以共享和协作处理文档和项目。
  • 研究和开发:研究人员和开发者可以利用其强大的文档管理和 LLM 交互功能,加速研究和开发进程。

安装与部署

Anything LLM 提供了多种安装和部署选项,包括 Docker 容器化部署,使得在不同环境中的部署变得简单和一致。用户可以根据自己的需求选择合适的部署方式。

社区与支持

作为一个开源项目,Anything LLM 拥有活跃的社区支持。用户可以通过 GitHub 提交问题、请求功能或贡献代码。此外,社区还提供了丰富的文档和教程,帮助用户快速上手和解决问题。、

知识库需要注意什么?

1. 明确目标与受众

  • 目标:确定知识库的主要用途,如技术支持、产品信息或内部培训。
  • 受众:了解用户的知识水平,确保内容适合他们的需求。

2. 结构化内容

  • 分类与层级:按主题或功能分类,使用清晰的层级结构。
  • 导航:提供搜索功能和目录,方便用户快速找到信息。

3. 内容准确性

  • 可靠来源:确保信息来自可信来源,并定期更新。
  • 审核机制:建立审核流程,确保内容准确无误。

4. 简洁清晰

  • 简明语言:避免复杂术语,确保易于理解。
  • 格式统一:使用一致的标题、段落和列表格式。

5. 多媒体支持

  • 图文结合:适当使用图片、图表和视频,帮助理解。
  • 文件附件:提供相关文档或模板下载。

6. 搜索优化

  • 关键词:合理使用关键词,提升搜索效率。
  • 标签与元数据:为内容添加标签和元数据,便于检索。

7. 版本控制

  • 更新记录:记录每次修改,确保用户获取最新信息。
  • 历史版本:保留旧版本,供用户参考。

8. 用户反馈

  • 反馈渠道:提供用户反馈入口,持续改进内容。
  • 常见问题:根据反馈整理常见问题,及时更新。

9. 权限管理

  • 访问控制:根据用户角色设置不同访问权限。
  • 编辑权限:限制编辑权限,防止未经授权的修改。

10. 技术支持

  • 平台选择:选择适合的知识库管理工具。
  • 备份与恢复:定期备份,确保数据安全。

11. 法律合规

  • 版权与隐私:确保内容不侵犯版权,遵守隐私法规。
  • 免责声明:必要时添加免责声明,明确责任范围。

12. 持续维护

  • 定期更新:根据产品变化和用户反馈及时更新内容。
  • 内容归档:定期归档过时内容,保持知识库简洁。

案例

正确案例:

商品A的介绍: 商品A的价格是100元,商品A的售卖地址是:地点A/地点B/地点C。商品A的特点是好吃耐用。商品A的适用人群是:0-10岁小朋友。

错误案例:

商品A的价格是100元,好吃耐用,0-10岁小朋友使用。A/B/C地有卖

要具体,明确,详细。否则AI有概率无法识别。要给AI当成小朋友去教。

数据从哪来?

  1. 从网络上获取,不对正对具体某个物品的信息,网上拿出来的数据不太规范的时候,最好自己再按照如上规则编排一下
  2. 针对业务,也可以去数据捞,按如上规则,写sql,把需要的数据捞出来,编排,上传
欢迎技术交流,摸鱼聊天~

备注来自掘金~ wx:XXF1096032096

如果对你有用的话

image.png

image.png