【2】Ubuntu环境下AI学习与实践计划(适配SRE背景+有深度学习基础)

7 阅读22分钟

Ubuntu环境下AI学习与实践计划(适配SRE背景+有深度学习基础)

核心思路:立足你19-22年研究生期间的深度学习基础(模型训练、平台开发),结合近几年SRE工作的运维、部署优势,避开“从头学基础”的冗余,聚焦「本地可落地、与SRE能力联动、贴合你已知的AI工具(Deepseek、GLM等)」,分3个阶段推进,每个阶段均以“理论回顾+本地实践”结合,全程使用Ubuntu电脑,不依赖超算或高配置GPU(可根据电脑配置灵活调整模型规格)。

前提说明:你的Ubuntu系统已重装,且conda等基础环境已按指导完成配置,充分利用你对Deepseek、GLM、Agent等工具的初步了解,重点突破“从认知到实操”“从基础模型到工程化落地”,同时结合SRE技能,打造“AI+运维”的差异化优势。

新增模块1:AI基础知识结构化梳理(衔接基础与实践,打破碎片化)

核心目标:基于你研究生时期的深度学习基础,梳理AI完整知识框架,不局限于你已知的工具,重点解决“碎片化认知”问题,为后续开源大模型部署、工具联动、项目落地打牢理论基础,兼顾系统性与实用性,贴合你的学习节奏(无需从头学,重点补全框架、理清逻辑,衔接已配置的conda环境,为实践铺路)。

一、AI核心概念与整体分类(先建立全局认知)

先明确AI的核心范畴,区分易混淆概念,避免碎片化记忆,重点衔接你已知的工具和过往基础,同时关联后续本地实践场景:

  • 核心定义:人工智能(AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学,核心是“让机器具备类人感知、思考、决策能力”,你后续实践的大模型、Agent均是AI技术的具体落地形态。

  • 整体分类(从基础到前沿,层层递进,贴合你后续实践):

  1. 传统AI(基础层,衔接你研究生基础):包括机器学习(ML)、深度学习(DL),是当前大模型、Agent等技术的底层基础。你研究生期间接触的模型训练、平台开发,核心属于这一范畴;后续conda环境中安装的pytorch、transformers等库,也是支撑传统AI与前沿AI的核心工具。

  2. 生成式AI(当前主流,你已知工具的核心):基于传统AI衍生,核心是“生成新内容”(文本、图像、代码等),区别于“识别类AI”(如人脸识别)。你了解的Deepseek、GLM、Anthropic Claude、扣子均属于此类,也是你后续本地实践(Docker部署、模型交互)的重点。

  3. 智能体(Agent,你已知方向):生成式AI的进阶形态,具备“自主理解任务、规划步骤、调用工具、完成目标”的能力,无需人工逐一步骤指导。你了解的Clawbot、Hello-Agents均属于Agent范畴,后续可结合本地大模型,搭建贴合SRE场景的运维Agent。

  4. 辅助工具(你已知的轻量化工具):Nano banana、龙虾等属于AI辅助工具,核心作用是简化AI应用落地流程(如轻量化文本处理、简单交互调试),可搭配本地大模型使用,降低实践门槛。

  • 易混淆概念区分(重点突破碎片化痛点):

  • 机器学习(ML)vs 深度学习(DL):ML是AI的核心分支,通过算法让机器从数据中学习规律;DL是ML的子集,基于“神经网络”(模拟人脑结构)实现,是大模型的核心技术(你研究生期间接触的模型训练,本质就是深度学习的应用)。

  • 开源大模型(Deepseek、GLM)vs 闭源大模型(Anthropic Claude、扣子):开源可本地部署(适配你Ubuntu电脑+conda环境,后续重点实践),可自定义优化、微调;闭源仅支持API调用,无法本地部署,适合快速测试但不适合深度实践。

  • Agent vs 普通大模型:普通大模型需人工输入明确指令(如“写一段Ubuntu运维脚本”),Agent可自主拆解复杂任务(如“排查Ubuntu系统卡顿问题”,自主调用命令、分析日志、给出方案)。

二、AI底层核心技术(衔接你的深度学习基础,补全框架)

基于你研究生期间的模型训练、平台开发基础,重点梳理当前AI前沿技术的底层逻辑,无需从头学细节,重点理清“技术之间的关联”,为后续模型部署、优化打基础,同时关联conda环境中已安装的依赖库:

  • 核心底层技术(重点回顾+补全):
  1. 神经网络(DL核心):你研究生期间已接触,当前大模型的核心是“Transformer架构”(2017年提出,替代传统CNN、RNN),特点是“并行计算、长文本处理能力强”,Deepseek、GLM等大模型均基于Transformer架构开发;conda环境中安装的transformers库,就是专门用于调用Transformer类模型的工具。

  2. 模型训练与量化(贴合本地实践):模型训练是“让模型从数据中学习规律”(你研究生期间在超算上的核心工作);模型量化是“降低模型参数精度(如INT4、INT8)”,减少内存/显存占用,适配你本地Ubuntu电脑(无高配置GPU也能运行),后续实践中会重点用到。

  3. 自然语言处理(NLP,后续实践重点):AI处理文本的核心技术,涵盖文本理解、生成、翻译等,你后续与Deepseek、GLM的交互、文档问答等实践,均基于NLP技术;conda环境中安装的sentencepiece库,就是NLP领域的核心工具(处理文本分词)。

  4. 工具链技术(衔接SRE能力):包括模型部署(Docker、Ollama,你已配置Docker,后续重点实践)、环境管理(conda,你已完成配置)、监控运维(Prometheus+Grafana,贴合你的SRE背景),是AI工程化落地的核心支撑。

  • 技术关联逻辑(打破碎片化):Transformer架构 → 训练出大模型(Deepseek、GLM) → 通过量化优化适配本地电脑 → 借助Ollama、Docker部署 → 结合LangChain、Agent实现场景化应用(如运维助手) → 用SRE技能实现监控、运维,形成“技术-实践-运维”的闭环。

三、当前AI生态与工具分类(梳理你已知工具,融入完整框架)

将你已知的Deepseek、GLM等工具,按“生态层级”分类,明确每个工具的定位、作用,避免碎片化记忆,同时明确后续实践的优先级:

  • 第一层级:开源大模型(本地实践核心)

  • 代表工具:Deepseek、GLM(智谱AI)

  • 定位:生成式AI的核心载体,可本地部署(适配你Ubuntu+conda环境),支持自定义优化、微调,是后续实践的核心对象。

  • 重点提示:优先从轻量化版本入手(如Deepseek-r1:8b、GLM-4-9B-Chat量化版),适配本地电脑配置,后续可逐步尝试更高参数模型。

  • 第二层级:闭源大模型(辅助测试)

  • 代表工具:Anthropic Claude、扣子(字节跳动)

  • 定位:无法本地部署,仅支持API调用,适合快速测试指令效果、对比开源模型性能,可作为本地实践的“参照”。

  • 第三层级:Agent框架与辅助工具(场景化落地)

  • 代表工具:Agent(Hello-Agents)、Clawbot、Nano banana、龙虾

  • 定位:基于大模型,实现场景化、自动化任务,无需人工逐一步骤操作。例如Clawbot可实现命令行交互,Nano banana可简化文本处理,后续可结合本地大模型,搭建SRE运维场景的Agent。

  • 第四层级:基础工具链(支撑实践落地)

  • 代表工具:conda(环境管理,已配置)、Docker(容器化部署,已配置)、Ollama(模型部署工具)、LangChain(大模型应用开发框架)、Prometheus+Grafana(监控,贴合SRE)

  • 定位:保障AI实践顺利落地,你的SRE背景(容器化、监控)在这一层级可发挥核心优势,后续实践会逐步联动这些工具。

四、AI学习与实践的核心逻辑(衔接后续计划,明确方向)

结合你的基础和已配置的环境,明确“结构化学习+实践”的核心逻辑,避免走弯路,同时串联前面的知识框架:

  • 核心逻辑:先补全框架(本模块内容)→ 本地实践落地(从简单到复杂)→ 优化迭代(结合SRE技能)→ 综合项目闭环。
  1. 框架补全:掌握“AI分类→底层技术→工具生态”的逻辑,明确每个工具、技术的定位,解决碎片化问题;

  2. 实践落地:基于已配置的conda、Docker环境,先部署轻量化开源大模型(Deepseek),完成简单交互,再联动Agent、LangChain实现场景化应用;

  3. 优化迭代:结合SRE的运维、监控能力,优化模型部署、监控体系,同时学习模型微调等进阶技术;

  4. 项目闭环:完成“智能运维助手”综合项目,将所有知识、工具串联起来,形成完整能力。

  • 重点提醒:无需陷入“纯理论学习”,所有基础知识均为后续实践服务,比如学习Transformer架构,是为了理解大模型的运行逻辑,便于后续模型优化;学习模型量化,是为了让大模型在本地电脑流畅运行,贴合你的实际环境。

新增模块2:AI基础知识核心笔记(重点+易混淆点,便于快速查阅)

核心:提炼核心知识点、易混淆点,简洁不冗余,贴合你的SRE背景和后续实践,可快速查阅记忆,无需翻找完整框架。

一、核心知识点(必记,衔接实践)

  • AI整体定位:核心是“机器类人感知、思考、决策”,后续实践的大模型、Agent都是AI的落地形态,服务于场景化需求(如SRE运维)。

  • 核心分类(3层核心,舍弃冗余):

  • 传统AI(基础):ML(机器学习)→ DL(深度学习),是大模型底层;conda安装的pytorch、transformers是核心支撑库。

  • 生成式AI(主流):核心“生成新内容”,代表:Deepseek、GLM(开源,本地实践重点)、Anthropic Claude、扣子(闭源,辅助测试)。

  • Agent(进阶):自主拆解任务、调用工具,代表:Hello-Agents、Clawbot,贴合SRE运维场景。

  • 底层核心技术(4个重点):

  1. Transformer架构:大模型核心,替代CNN/RNN,并行计算强,Deepseek、GLM均基于此。

  2. 模型量化:INT4/INT8,降低内存占用,适配本地Ubuntu(无GPU也能运行)。

  3. NLP:文本处理核心,后续模型交互、文档问答均依赖,sentencepiece库是关键工具。

  4. 工具链:conda(环境)、Docker(部署)、Ollama(模型部署)、Prometheus(监控),衔接SRE技能。

  • 实践核心逻辑:框架补全 → 本地部署(Deepseek)→ 工具联动(LangChain/Agent)→ 优化运维(SRE技能)→ 项目闭环。

  • 工具优先级:开源大模型(Deepseek、GLM)> 工具链(conda、Docker)> Agent(Hello-Agents)> 闭源模型(辅助)。

二、易混淆点(重点区分,避免踩坑)

  • ML vs DL:ML是AI分支(机器从数据学规律),DL是ML的子集(基于神经网络),大模型属于DL范畴(你研究生期间的模型训练是DL应用)。

  • 开源大模型 vs 闭源大模型:

  • 开源(Deepseek、GLM):可本地部署、自定义微调,适配Ubuntu+conda,是后续实践核心。

  • 闭源(Anthropic Claude、扣子):仅API调用,无法本地部署,适合快速测试。

  • Agent vs 普通大模型:

  • 普通大模型:需人工输入明确指令(被动执行)。

  • Agent:自主拆解复杂任务(主动规划、调用工具),如自动排查系统故障。

  • 模型训练 vs 模型量化:

  • 训练:让模型学数据规律(你研究生超算工作)。

  • 量化:降低参数精度,适配本地低配置电脑(后续实践重点操作)。

  • 工具链定位:conda(环境管理,已配置)、Docker(容器化部署)、Ollama(快速部署模型),三者协同支撑本地实践,均需熟练使用。

三、SRE关联重点(贴合自身优势,快速记忆)

  • 你的SRE技能适配AI场景:容器化部署(Docker)、环境监控(Prometheus)、故障排查,可落地AI模型运维、AIOps。

  • 实践关联:Docker部署大模型、Prometheus监控模型状态、用SRE思路排查模型部署/运行故障(如容器崩溃、环境异常)。

第一阶段:基础环境搭建+核心知识回顾(1-2周,快速上手,唤醒基础)

目标:已完成conda等基础环境搭建,重点回顾深度学习核心知识点,快速上手你已知的开源大模型(Deepseek、GLM),实现“本地运行第一个AI模型”,衔接研究生时期的技术储备和本模块梳理的基础知识。

1. 本地环境确认(已完成,简单校验)

利用你SRE工作中对环境校验的习惯,确认已配置的conda、Docker环境正常,为后续实践铺路:

  • conda环境校验:打开终端,执行conda activate ai-env(激活已创建的AI环境),输入conda list,确认pytorch、transformers、ollama等核心库已正常安装。

  • Docker环境校验:执行docker --version,确认Docker服务正常运行;若未生效,重启电脑后再次校验(无需sudo即可操作Docker)。

  • 补充说明:若出现环境异常(如conda命令无法使用、库安装失败),利用SRE故障排查思路,执行source ~/.bashrc刷新环境变量,或重新安装对应依赖。

2. 核心知识回顾(结合新增基础知识模块,精准唤醒)

无需重新学深度学习基础,结合本模块梳理的知识框架,重点回顾与当前AI发展衔接的知识点,快速衔接:

  • 深度学习核心回顾:重点回顾Transformer架构(当前大模型核心)、模型训练流程、模型量化(适配本地电脑低配置),结合你研究生时期的超算模型训练经验,对比当前开源大模型(Deepseek、GLM)与当年模型的差异(重点看轻量化、部署便捷性)。

  • 开源大模型认知:结合本模块梳理的AI生态,明确Deepseek、GLM的定位(开源可本地部署),区分与闭源模型(Anthropic Claude、扣子)的差异,优先聚焦开源模型(适配本地实践)。

  • SRE与AI的联动点:思考SRE技能在AI学习中的优势——容器化部署、环境监控、故障排查,后续可落地“AI模型运维”“智能运维(AIOps)”,提前铺垫差异化方向,贴合本模块梳理的工具链技术逻辑。

3. 本地小实践(落地性强,快速建立信心)

聚焦“简单可运行”,利用Ollama工具快速部署你已知的Deepseek模型,完成首次本地AI交互,唤醒技术手感,衔接新增的基础知识:

  • Ollama部署Deepseek:确保已激活conda环境(conda activate ai-env),执行以下命令完成部署(适配Ubuntu,操作简洁,贴合SRE高效部署习惯)
curl -fsSL ollama.com/install.sh | sh  # 安装Ollama
        
ollama run deepseek-r1:8b  # 下载并运行轻量化Deepseek模型(8B参数,CPU可运行,GPU更流畅)
  • 基础交互测试:在终端与Deepseek对话,测试简单指令(如“解释Transformer架构”“写一段Ubuntu系统运维脚本”),验证模型运行正常,同时熟悉模型交互逻辑,关联本模块梳理的NLP、生成式AI知识。

  • 简单优化实践:结合SRE运维经验,修改Ollama配置(如调整监听IP、设置服务自启动),实现“模型后台稳定运行”,练习基础的模型运维操作,衔接本模块梳理的工具链技术。

第二阶段:开源大模型深度实践+工具联动(3-4周,核心阶段,强化实操)

目标:熟练掌握本地开源大模型(Deepseek、GLM)的部署、优化与应用,联动你已知的Agent、LangChain等工具,完成简单的AI应用开发,同时结合SRE技能,实现模型的容器化部署与监控,衔接新增的基础知识框架。

1. 开源大模型进阶实践(Deepseek+GLM,重点突破)

  • Deepseek深度部署:基于Docker容器化部署Deepseek,搭配Open WebUI打造可视化界面(提升操作便捷性,贴合SRE容器化运维能力)
# 拉取Open WebUI镜像
        
docker pull ghcr.io/open-webui/open-webui:main
        
# 启动容器,映射端口,实现可视化访问
        
mkdir /opt/openwebui
        
docker run -d -p 8080:8080 --add-host=host.docker.internal:host-gateway -v /opt/openwebui:/app/backend/data --name deepseek-webui --restart always ghcr.io/open-webui/open-webui:main
        
访问http://本地IP:8080,创建管理员账号,关联已部署的Deepseek模型,实现浏览器可视化对话。
  • GLM模型部署:对比Deepseek,部署GLM-4-9B-Chat轻量化版本(本地CPU/GPU均可运行),练习模型切换、参数调优(如量化为INT4,降低显存/内存占用),对比两个模型的性能差异,加深对开源大模型的理解,关联本模块梳理的模型量化知识。

  • 模型优化实践:结合SRE性能优化经验,针对本地模型运行卡顿、响应慢的问题,做简单优化(如模型量化、内存限制、进程管理),同时学习模型日志查看、故障排查(如Ollama服务异常重启、Docker容器崩溃处理),衔接本模块梳理的工具链技术。

2. 工具联动实践(LangChain+Agent,贴合你已知的工具)

利用你已知的Agent、LangChain等工具,联动本地大模型,完成简单的AI应用开发,实现“模型+工具”的协同,同时衔接SRE工作场景和新增的基础知识:

  • LangChain基础应用:确保已激活conda环境(conda activate ai-env),使用LangChain对接本地Deepseek模型,实现简单的“文档问答”功能(如上传Ubuntu运维文档,让模型回答运维相关问题),练习文档解析、向量存储基础操作(可使用Milvus轻量化版本,适配本地环境),关联本模块梳理的NLP、工具链知识。

  • Agent入门实践:使用Hello-Agents轻量化框架(DataWhale开源,适配Ubuntu,无复杂硬件要求),搭建简单的“运维助手Agent”,实现“自动查询系统状态、生成运维脚本”等功能,贴合你的SRE工作场景。

        
# 克隆仓库并安装依赖(适配conda环境,避免依赖冲突)
        
git clone https://github.com/datawhalechina/hello-agents.git

cd hello-agents && pip install -r requirements.txt
        
# 配置环境变量,对接本地Deepseek模型,运行运维助手案例
  • 工具联动拓展:尝试结合你已知的Clawbot、Nano banana等工具,对接本地模型,实现简单的任务自动化(如Clawbot实现命令行交互,Nano banana实现轻量化文本处理),熟悉不同工具的协同逻辑,关联本模块梳理的AI生态分类知识。

3. SRE+AI联动实践(差异化优势打造)

结合你的SRE工作经验,将AI与运维结合,实现“智能运维”小场景落地,体现自身优势,衔接新增的工具链技术知识:

  • 模型运维监控:使用Prometheus+Grafana(SRE常用监控工具),监控本地部署的Deepseek、GLM模型,设置关键指标告警(如模型内存使用率、响应时间、服务可用性),练习AI模型的运维监控能力。

  • 简单AIOps实践:利用本地Deepseek模型,训练简单的“系统异常检测”模型(基于系统日志数据),实现“日志异常自动识别、简单故障提示”,落地基础的智能运维场景,关联本模块梳理的深度学习、NLP知识。

第三阶段:综合项目落地+知识拓展(4-6周,巩固提升,形成能力闭环)

目标:完成一个综合AI项目(贴合SRE场景,可本地运行),拓展AI前沿知识,梳理完整的AI技术体系,实现“学习-实践-复盘”的闭环,同时为后续深入学习或职业拓展打下基础,衔接新增的基础知识框架。

1. 综合项目落地(本地可运行,贴合自身优势)

推荐项目:《基于Deepseek的本地智能运维助手》,整合前两个阶段的知识和本模块梳理的AI基础知识,实现“容器化部署+可视化交互+运维场景适配”,全程在Ubuntu本地完成,难度适中,贴合你的SRE背景:

  • 项目核心功能: 1. 容器化部署Deepseek模型+Open WebUI可视化界面,支持浏览器交互; 2. 集成LangChain,实现Ubuntu运维文档问答、命令查询、故障排查提示; 3. 对接Prometheus监控数据,让模型分析系统运行状态,给出优化建议; 4. 实现服务自启动、日志监控、故障自动重启(结合SRE运维技能)。

  • 项目实施步骤: 1. 梳理需求,搭建项目架构(Docker容器化,拆分模型服务、Web界面、监控服务); 2. 部署核心组件(Deepseek、Open WebUI、LangChain、Prometheus),完成组件联动(确保激活conda环境:conda activate ai-env,再安装相关依赖); 3. 适配运维场景,优化模型提示词,训练简单的运维知识库; 4. 测试优化,解决部署、交互、监控中的问题(如端口冲突、模型响应慢、监控告警误报); 5. 复盘总结,整理项目文档,形成可复用的部署脚本(贴合SRE规范,包含conda环境激活、依赖安装步骤)。

2. 知识拓展(贴合前沿,不盲目跟风)

结合你已知的AI工具和行业动态,有针对性地拓展知识,避免碎片化学习,重点聚焦“可落地、与自身能力相关”的方向,衔接本模块梳理的基础知识框架:

  • 开源大模型进阶:学习模型微调基础(使用LoRA技术,适配本地电脑,无需大量算力),尝试微调Deepseek模型,注入Ubuntu运维相关知识,提升模型在运维场景的适配性,关联本模块梳理的模型训练、Transformer架构知识。

  • Agent与多模型协同:深入学习Hello-Agents框架,尝试搭建多Agent协作系统(如“运维助手Agent+文档解析Agent”),熟悉智能体的任务规划、工具调用逻辑,关联本模块梳理的Agent知识。

  • AI工程化落地:学习AI模型的CI/CD流程(结合SRE的CI/CD经验),实现本地模型的自动化部署、版本管理,掌握模型迭代的运维方法,关联本模块梳理的工具链技术。

  • 前沿动态跟踪:重点关注你已知的工具(Deepseek、GLM、Anthropic等)的更新动态,每周花1-2小时阅读技术文档、行业新闻,了解Agent、MCP等技术的最新落地场景,避免与行业脱节,完善自身知识框架。

3. 复盘与优化(形成能力闭环)

  • 每周复盘:记录学习进度、实践中的问题(如模型部署失败、工具联动异常),结合SRE故障排查思路,整理解决方案,形成个人笔记,同时补充完善自身AI知识框架。

  • 项目优化:根据综合项目的运行效果,优化模型性能、交互体验、监控体系,尝试添加新功能(如多模型切换、批量处理运维日志),深化对AI基础知识的应用。

  • 技能梳理:梳理“深度学习基础+开源大模型部署+AI工具应用+SRE运维”的核心能力,明确后续深入方向(如专注AIOps、大模型工程化等),形成完整的能力体系。

补充说明(适配本地Ubuntu电脑,贴合你的情况)

  • 配置适配:若电脑CPU性能一般(无GPU),优先选择轻量化模型(如Deepseek-r1:8b、GLM-4-9B-Chat量化版),避免运行大参数模型导致卡顿;若有GPU,可尝试14B参数模型,提升交互体验,关联本模块梳理的模型量化知识。

  • 时间适配:结合工作节奏,每天投入1-2小时,周末集中进行实践操作(如容器化部署、项目开发),避免急于求成,重点保证“每一步实践都能落地”,同时巩固本模块梳理的基础知识。

  • 资源推荐:优先使用你已知的工具文档(Deepseek、GLM官方文档),搭配Hello-Agents框架教程、Ubuntu AI环境部署文档,无需额外找冗余资源,聚焦“本地实践”,同时可参考Transformer、NLP相关基础文档,补充完善知识框架。

  • 避坑提醒:部署过程中若遇到Docker容器冲突、模型下载失败等问题,利用SRE运维经验排查(如查看日志、检查端口、重启服务),同时参考开源社区的解决方案,高效解决问题;若遇到conda环境异常,优先刷新环境变量或重新激活环境。

整体规划周期约8-12周,循序渐进,既唤醒你研究生时期的深度学习基础,又通过新增的AI基础知识模块打破碎片化认知,结合SRE工作优势打造差异化,全程可在Ubuntu本地完成,无需依赖外部算力,同时贴合你已知的AI工具,降低学习门槛,实现“从认知到实操、从基础到项目”的完整提升。