在上家的时候老板说:我们要往ai发展,我们要训练自己的知识库!谁能设计出来一套AI体系,工资不是问题!(虽然是在画饼,但能感觉到企业是真的想往ai方向走) 最近在面试,听求职的同学说,他们在其他地方面试,也都有很多公司要求可以给公司开发一套可以集成知识库的AI训练平台。看来大家都觉得AI是企业一定要走的路啊。
前言
本文是本地DeepSeek + Anything LLM进行本地的模型训练。
本文涉及的内容是:
- Anything LLM(这是承载本地数据库的一个容器,文章最后会有介绍)
- 本地Deepseek模型 (如果你没有,参考juejin.cn/post/747215… 保姆级教程,包教包会。
- 野生知识库(自己瞎写的知识库,用于测试案例,企业用最好得企业自己先准备大份的知识库)
准备野生知识库
假定我们的知识库里只有以下信息
下载 Anything LLM
Anything LLM官网下载地址:anythingllm.com/desktop
尝试一下是否可以正常沟通。
完美
上传知识库
接下来只管跟着截图走就好
好!现在我们看看效果!
注意,Ai是进行向量搜索的,并且除了我们传入知识库,他自己还有内置的。所以不是每一次回答都可以根据你的知识库去回答,但如果问题和知识库的描述契合度很高,按知识库回答的概率还是很大的
理论上只要数据足够,咱真能给ai训练成你希望它成为的样子。比如一个喷子AI。
比如👇
什么是Anything LLM?
Anything LLM 是一个功能强大的全栈应用程序,旨在成为管理和使用大型语言模型(LLMs)的一体化解决方案。它允许用户以安全、高效的方式与任何文档或内容进行交互,无论是商业用途还是个人用途。以下是 Anything LLM 的一些关键特点和功能:
关键特点
-
本地运行:
- Anything LLM 可以在本地运行,确保数据隐私和安全。这对于处理敏感信息的用户尤其重要。
-
多用户支持:
- 支持多用户环境,适合团队协作。不同用户可以共享和访问同一套资源,提高工作效率。
-
多工作区:
- 提供多工作区功能,允许用户为不同的项目或任务创建独立的环境。这有助于更好地组织和管理工作流程。
-
多向量数据库支持:
- 支持多种向量数据库,如 Pinecone、Weaviate、Chroma 和 Qdrant。这使得 Anything LLM 能够灵活地处理各种数据存储需求。
-
多 LLM 提供商支持:
- 支持多种大型语言模型提供商,包括 OpenAI、Azure OpenAI、LM Studio 和 LocalAI。用户可以根据需求选择最适合的模型。
-
文档聊天:
- 用户可以与文档进行交互,通过聊天的方式获取信息或执行任务。这对于快速查找和理解文档内容非常有用。
-
文档管理:
- 提供强大的文档管理功能,用户可以轻松上传、组织和检索文档。支持多种文件格式,如 TXT、DOC、DOCX、PDF 和 CSV。
-
实时同步:
- 支持实时同步功能,确保所有用户都能访问最新的数据和信息。
-
自定义提示:
- 允许用户创建自定义提示,以便更高效地与 LLM 交互。这可以根据具体需求定制对话流程。
-
开源:
- Anything LLM 是开源的,用户可以访问其 GitHub 仓库,查看和修改源代码。这为开发者提供了极大的灵活性和控制权。
使用场景
- 企业知识库:企业可以使用 Anything LLM 来管理和查询内部文档,提高信息检索效率。
- 个人知识管理:个人用户可以用它来组织和查找个人文档和笔记。
- 团队协作:多用户支持使得团队成员可以共享和协作处理文档和项目。
- 研究和开发:研究人员和开发者可以利用其强大的文档管理和 LLM 交互功能,加速研究和开发进程。
安装与部署
Anything LLM 提供了多种安装和部署选项,包括 Docker 容器化部署,使得在不同环境中的部署变得简单和一致。用户可以根据自己的需求选择合适的部署方式。
社区与支持
作为一个开源项目,Anything LLM 拥有活跃的社区支持。用户可以通过 GitHub 提交问题、请求功能或贡献代码。此外,社区还提供了丰富的文档和教程,帮助用户快速上手和解决问题。、
知识库需要注意什么?
1. 明确目标与受众
- 目标:确定知识库的主要用途,如技术支持、产品信息或内部培训。
- 受众:了解用户的知识水平,确保内容适合他们的需求。
2. 结构化内容
- 分类与层级:按主题或功能分类,使用清晰的层级结构。
- 导航:提供搜索功能和目录,方便用户快速找到信息。
3. 内容准确性
- 可靠来源:确保信息来自可信来源,并定期更新。
- 审核机制:建立审核流程,确保内容准确无误。
4. 简洁清晰
- 简明语言:避免复杂术语,确保易于理解。
- 格式统一:使用一致的标题、段落和列表格式。
5. 多媒体支持
- 图文结合:适当使用图片、图表和视频,帮助理解。
- 文件附件:提供相关文档或模板下载。
6. 搜索优化
- 关键词:合理使用关键词,提升搜索效率。
- 标签与元数据:为内容添加标签和元数据,便于检索。
7. 版本控制
- 更新记录:记录每次修改,确保用户获取最新信息。
- 历史版本:保留旧版本,供用户参考。
8. 用户反馈
- 反馈渠道:提供用户反馈入口,持续改进内容。
- 常见问题:根据反馈整理常见问题,及时更新。
9. 权限管理
- 访问控制:根据用户角色设置不同访问权限。
- 编辑权限:限制编辑权限,防止未经授权的修改。
10. 技术支持
- 平台选择:选择适合的知识库管理工具。
- 备份与恢复:定期备份,确保数据安全。
11. 法律合规
- 版权与隐私:确保内容不侵犯版权,遵守隐私法规。
- 免责声明:必要时添加免责声明,明确责任范围。
12. 持续维护
- 定期更新:根据产品变化和用户反馈及时更新内容。
- 内容归档:定期归档过时内容,保持知识库简洁。
案例
正确案例:
商品A的介绍: 商品A的价格是100元,商品A的售卖地址是:地点A/地点B/地点C。商品A的特点是好吃耐用。商品A的适用人群是:0-10岁小朋友。
错误案例:
商品A的价格是100元,好吃耐用,0-10岁小朋友使用。A/B/C地有卖
要具体,明确,详细。否则AI有概率无法识别。要给AI当成小朋友去教。
数据从哪来?
- 从网络上获取,不对正对具体某个物品的信息,网上拿出来的数据不太规范的时候,最好自己再按照如上规则编排一下
- 针对业务,也可以去数据捞,按如上规则,写sql,把需要的数据捞出来,编排,上传
欢迎技术交流,摸鱼聊天~
备注来自掘金~ wx:XXF1096032096
如果对你有用的话