当今环境,所有人都面临一个问题:信息过载。不知道你是否曾经遇到过以下困扰?
- 在海量数据中搜索时,是否难以迅速找到所需的信息?
- 在面对日益增长的专业知识,是否感到知识管理的需求愈发迫切?
- 对于敏感数据的存储,是否时常害怕一不小心就会泄露关键信息?
- 在日常工作中,是否因为工作效率不高而觉得时间不够用?
如果这些场景让你感同身受,那么你一定在思考:是否存在一种方案,能够一举解决这些棘手的问题?
经过图欧君的研究,发现确实有这么一个方案,它就是基于 FastGPT 搭建本地私有化知识库,一个为你量身定制专属的知识管理解决方案。
下面将带领大家揭示如何结合FastGPT、大语言模型和向量模型,构建属于你自己的本地私有化知识库。
话不多说,正文开始。
1、安装部署FastGPT
什么是FastGPT?FastGPT,是一个基于 LLM 大语言模型的知识库问答系统,提供开箱即用的数据处理、模型调用等能力。
同时可以通过 Flow 可视化进行工作流编排,从而实现复杂的问答场景!
FastGPT 在线使用地址:cloud.fastgpt.in/login
FastGPT 在线GitHub地址:github.com/labring/Fas…
1.1、推荐配置
为了满足广大用户的具体需求,FastGPT提供了PgVector、Milvus和zilliz cloud三种版本可供选择。我们可以根据自己的数据规模和性能要求,灵活地在Linux、Windows、Mac等不同的操作系统环境中部署合适的版本。
「PgVector版本」 —— 针对初体验与测试的完美起点 PgVector版本是进行初步体验和测试的理想选择。它简便易用,适合处理中小规模的向量数据,能够迅速掌握并开始工作。
「Milvus版本」 —— 专为千万级向量数据设计的性能强者 当数据处理需求升级至千万级以上,Milvus版本较之其他版本具有卓越的性能优势,是处理大规模向量数据的首选方案。
「zilliz cloud版本」 —— 亿级向量数据的专业云服务解决方案 对于处理亿级及更高量级的海量向量数据,zilliz cloud版本提供了专业的云服务支持,确保您能够获得高效且稳定的数据处理体验。得益于向量库使用了 Cloud,无需占用本地资源,无需太关注配置。
1.2、环境准备
FastGpt的部署重度依赖于Docker环境。因此,在本地系统或所管理的服务器上安装Docker环境是确保FastGpt顺畅运行的必要条件。
什么是Docker?这么说吧,FastGpt就像一款需要特定玩具盒子才能玩的电子游戏。这个特定的玩具盒子的名字就叫“Docker”。所以,如果我们想在我们的电脑或服务器上顺利地运行FastGpt,就必须先安装这个玩具盒子,这样FastGpt才能正确地工作。
1.2.1、Windows 系统安装 Docker
在 Windows 系统上,建议将源代码和其他数据绑定到 Linux 容器时,使用 Linux 文件系统而非 Windows 文件系统,以避免兼容性问题。
-
「使用 Docker Desktop」 「推荐使用 WSL 2 后端」:可以通过 Docker 官方文档在 Windows 中安装 Docker Desktop。
具体步骤请参考:docs.docker.com/desktop/wsl…
-
「使用命令行版本的 Docker」 「直接在 WSL 2 中安装」:如果不希望使用 Docker Desktop,也可以选择在 WSL 2 中直接安装命令行版本的 Docker。
详细安装步骤请参考:**nickjanetakis.com/blog/instal…
1.2.2、macOS 系统安装 Docker
对于 macOS 用户,推荐使用 Orbstack 来安装 Docker。
- 「通过 Orbstack 安装」:
- 访问 Orbstack 官网 **(orbstack.dev/)**按照指示进行安装…
- 「通过 Homebrew 安装」:
brew install orbstack
- 在终端运行以上命令
1.2.3、Linux 系统安装 Docker
在 Linux 系统上安装 Docker 的步骤如下:
- 「打开终端,运行以下命令来安装 Docker:」
curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun
systemctl enable --now docker
- 「接着安装
docker-compose:」
curl -L https://github.com/docker/compose/releases/download/v2.20.3/docker-compose-`uname -s`-`uname -m` -o /usr/local/bin/docker-compose chmod +x /usr/local/bin/docker-compose
- 「验证安装是否成功」:
docker -v
docker-compose -v
- 运行以上命令来验证 Docker 和 docker-compose 是否正确安装
1.3、 开始部署
-
下载
docker-compose.yml文件 首先,我们需要访问 FastGPT 的 GitHub 仓库。在仓库的根目录中找到docker-compose.yml文件。点击文件,然后点击 “Raw”(原始)按钮,文件内容将显示在浏览器中。接下来,右键点击页面,选择 “保存为”,将其保存到您的计算机上。 -
修改
docker-compose.yml环境变量 使用文本编辑器(如记事本、Notepad++、VSCode 等)打开下载的docker-compose.yml文件,接下来在文件中找到与向量库版本相关的部分。根据您选择的向量库(PgVector、Milvus 或 Zilliz),您需要修改相应的环境变量。 -
启动容器 打开命令行工具(如终端、命令提示符或 PowerShell)。 使用
cd命令切换到包含docker-compose.yml文件的目录。例如:
cd path/to/your/docker-compose.yml/directory
然后运行以下命令来启动容器:
docker-compose up -d
这个命令会在后台启动所有定义在 **docker-compose.yml** 文件中的服务。
-
打开 OneAPI 添加模型 在浏览器中输入您的服务器 IP 地址后跟 :3001,例如 http://192.168.1.100:3001。 然后使用默认账号 root 和密码 123456 登录 OneAPI。登录后,根据指示添加 AI 模型渠道。
-
访问 FastGPT 在浏览器中输入您的服务器 IP 地址后跟 :3000,例如 http://192.168.1.100:3000。 使用默认用户名 root 和在 docker-compose.yml 文件中设置的 DEFAULT_ROOT_PSW 密码登录 FastGPT。。
-
至此,FastGPT安装部署大功告成!
2、搭建私有化知识库
当第一次打开网站时,我们会发现界面一片白花花的啥也没有。这个时候,不要慌,来跟我按照以下步骤来搞定你的第一个个人知识库!
- 在左侧菜单栏选择“知识库”选项。
- 点击页面右上角的“新建”,开始构建您的第一个知识库。
在此过程中,可以根据自身的需求选择合适的知识库类型。紧接着确定我们的知识库名称、索引模型和文件处理模型。
完成创建后,点击右上角的“新建/导入”,根据您的数据集类型选择相应的导入选项。
首先需要准备好知识库数据集,可以为DOCX、TXT或者PDF格式,然后选择文本数据集,选择本地文件导入。这里图欧君以咱们的IMYAI知识库为例子,进入飞书云文档《IMYAI智能助手使用手册》之后点击右上角导出为Word文档,文档权限我已经开放为人人都可以创建副本,导出下载,这个大可放心。
IMYAI知识库地址:new.imyai.top
等待数据处理并成功上传后,状态栏将显示“已就绪”,这时知识库搭建就完成了。
知识库搭建完成之后就可以转到工作台栏进行应用的创建了,一共是提供了四种类型的应用可供我们选择,只需根据自己的需要选择合适的应用即可,图欧君在这里选择了简易应用做个示范。
左侧你可以对创建的应用进行一些配置,最后不要忘了把刚刚建立的知识库,关联进来。
完成配置之后,我们可以在右侧调试一下。比如我问他 “你知道TUO大模型是谁吗?”,不难发现它会先从知识库中检索到相关信息再回答我。
如果在使用IMYAI智能助手的过程中遇到其他问题,也可以随时进行提问,它会根据知识库内容进行梳理总结,减少你寻找答案的时间(不过要记得,先导入知识库内容哦~)
通过对比不难看出,FastGPT这波回答的还是不错的,将原本的内容进行梳理整合之后重新输出,能够更加直观地找到解决问题的答案。
确认调试无误后,点击右上角的“发布”。发布成功后,就可以拥有一个基于本地私有知识库增强的LLM(大型语言模型)啦~
至此,一个私有化的个人知识库就搭建完成了,大家可以随时对知识库中的内容进行提问。
如果你已经迫不及待了,那就赶快试试吧~
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传,伀ZZZ呺 【硬核隔壁老王】 08自动掉落~
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- ....
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- ....
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- ....
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- ...
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传,伀ZZZ呺 【硬核隔壁老王】 08自动掉落~