Ubuntu环境下AI学习与实践计划(适配SRE背景+有深度学习基础)
核心思路:立足你19-22年研究生期间的深度学习基础(模型训练、平台开发),结合近几年SRE工作的运维、部署优势,避开“从头学基础”的冗余,聚焦「本地可落地、与SRE能力联动、贴合你已知的AI工具(Deepseek、GLM等)」,分3个阶段推进,每个阶段均以“理论回顾+本地实践”结合,全程使用Ubuntu电脑,不依赖超算或高配置GPU(可根据电脑配置灵活调整模型规格)。
前提说明:你的Ubuntu系统已重装,优先完成基础环境搭建(适配AI学习),充分利用你对Deepseek、GLM、Agent等工具的初步了解,重点突破“从认知到实操”“从基础模型到工程化落地”,同时结合SRE技能,打造“AI+运维”的差异化优势。
第一阶段:基础环境搭建+核心知识回顾(1-2周,快速上手,唤醒基础)
目标:完成Ubuntu系统AI学习基础环境部署,回顾深度学习核心知识点,快速上手你已知的开源大模型(Deepseek、GLM),实现“本地运行第一个AI模型”,衔接研究生时期的技术储备。
1. 本地环境搭建(Ubuntu专属,贴合SRE运维习惯)
利用你SRE工作中对系统部署、环境配置的经验,快速完成基础环境搭建,重点适配开源大模型本地部署需求,步骤简洁可落地。以下为完整环境搭建命令脚本(可直接复制到终端执行,标注部分需根据自身电脑配置调整):
#!/bin/bash
# 第一阶段AI学习环境搭建完整脚本(Ubuntu专属,conda环境管理版)
# 作者:适配SRE背景+深度学习基础,可直接复制终端执行
# 1. 更换Ubuntu国内源(清华源),提升下载速度(贴合SRE环境优化习惯)
sudo sed -i 's|http://.*.ubuntu.com|https://mirrors.tuna.tsinghua.edu.cn|g' /etc/apt/sources.list
# 2. 更新系统软件包,确保依赖兼容
sudo apt update && sudo apt upgrade -y
# 3. 安装核心基础依赖(构建工具、版本控制、网络工具、Docker)
sudo apt install -y build-essential git curl wget docker.io docker-compose
# 4. 安装Miniconda(conda环境管理核心,轻量化,适配本地环境)
# 下载Miniconda安装包(清华源,加速下载)
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda.sh
# 执行安装(默认安装路径,回车确认,输入yes同意协议)
bash ~/miniconda.sh -b -p ~/miniconda
# 配置conda环境变量,使其立即生效
echo 'export PATH="$HOME/miniconda/bin:$PATH"' >> ~/.bashrc
source ~/.bashrc
# 验证conda安装成功
conda --version
# 5. 配置conda国内源(清华源),加速包下载(贴合SRE环境优化习惯)
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
conda config --set channel_priority strict
conda config --set show_channel_urls yes
# 6. 创建AI专用conda环境(避免环境冲突,符合SRE规范,环境名:ai-env,可自定义)
conda create -n ai-env python=3.10 -y
# 激活conda环境(执行后终端会显示(ai-env)标识)
conda activate ai-env
# 7. 安装AI核心依赖库(模型运行、部署、交互必备,conda/pip结合安装,适配conda环境)
conda install -y pytorch torchvision transformers sentencepiece accelerate -c pytorch
pip install --upgrade pip && pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
pip install ollama langchain
# 8. (可选)NVIDIA显卡用户安装CUDA,提升模型运行速度(无GPU可跳过)
echo "若你的电脑有NVIDIA显卡,可执行以下命令安装CUDA;无GPU请直接跳过此步骤"
read -p "是否安装CUDA?(y/n):" cuda_choice
if [ "$cuda_choice" = "y" ] || [ "$cuda_choice" = "Y" ]; then
sudo ubuntu-drivers autoinstall
echo "CUDA相关驱动安装完成,重启电脑后生效"
# 配置conda环境CUDA关联(可选,确保pytorch调用GPU)
conda install -y cudatoolkit -c pytorch
fi
# 9. 配置Docker服务(容器化部署大模型必备,贴合SRE容器化运维能力)
sudo systemctl start docker # 启动Docker服务
sudo systemctl enable docker # 设置Docker开机自启
sudo usermod -aG docker $USER # 授予当前用户Docker操作权限(无需sudo)
echo "Docker环境配置完成,重启电脑后权限生效"
# 脚本执行完成提示
echo "========================================"
echo "AI基础环境搭建脚本执行完成!"
echo "注意事项:"
echo "1. 若执行过程中提示权限不足,确保当前用户有sudo权限"
echo "2. Docker权限需重启电脑后生效,重启后可直接使用docker命令"
echo "3. conda环境每次使用前需执行:conda activate ai-env(环境名可自定义)"
echo "4. 若conda命令无法使用,执行:source ~/.bashrc 刷新环境变量"
echo "5. 无GPU用户无需安装CUDA,后续运行轻量化模型即可"
echo "6. 如需删除conda环境,执行:conda remove -n ai-env --all -y"
echo "========================================"
脚本使用说明:将上述脚本复制到Ubuntu终端,逐行执行(或保存为.sh文件,赋予执行权限后运行),执行过程中根据提示完成Miniconda安装(默认路径即可,回车确认、输入yes同意协议),根据提示选择是否安装CUDA(无GPU直接输入n跳过)。重启电脑后Docker权限生效,conda环境每次使用前需执行激活命令,若conda命令无法使用,执行source ~/.bashrc刷新环境变量即可。
- 基础依赖安装:执行命令安装核心工具,换国内源提升速度(贴合SRE环境优化习惯)
sudo sed -i 's|http://.*.ubuntu.com|https://mirrors.tuna.tsinghua.edu.cn|g' /etc/apt/sources.list
sudo apt update && sudo apt upgrade -y
sudo apt install -y build-essential git curl wget docker.io docker-compose
- conda环境配置(核心替换原虚拟环境):安装Miniconda并创建AI专用环境(避免环境冲突,符合SRE规范)
# 下载并安装Miniconda(清华源加速)
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda.sh
bash ~/miniconda.sh -b -p ~/miniconda
# 配置环境变量并生效
echo 'export PATH="$HOME/miniconda/bin:$PATH"' >> ~/.bashrc
source ~/.bashrc
# 配置conda国内源,加速包下载
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set channel_priority strict
# 创建并激活AI专用环境(环境名ai-env,可自定义)
conda create -n ai-env python=3.10 -y
conda activate ai-env
- 核心库安装:聚焦开源大模型部署、深度学习基础,适配conda环境安装必备库(衔接研究生时期的技术栈)
# conda安装核心深度学习库(适配conda环境,稳定性更高)
conda install -y pytorch torchvision transformers sentencepiece accelerate -c pytorch
# pip安装其余依赖(conda暂未收录或更新较慢的包)
pip install --upgrade pip && pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
pip install ollama langchain
# (若电脑有NVIDIA显卡,额外安装CUDA及关联依赖:sudo ubuntu-drivers autoinstall && conda install -y cudatoolkit -c pytorch,提升模型运行速度;无GPU则用CPU,适配轻量化模型)
- Docker环境配置:开启Docker服务(后续用于容器化部署Deepseek、GLM等模型,贴合SRE容器化运维能力)
sudo systemctl start docker && sudo systemctl enable docker
sudo usermod -aG docker $USER(重启后生效,无需sudo即可操作Docker)
2. 核心知识回顾(精准唤醒,不做冗余学习)
无需重新学深度学习基础,重点回顾与当前AI发展衔接的知识点,结合你已知的工具,快速衔接:
-
深度学习核心回顾:重点回顾Transformer架构(当前大模型核心)、模型训练流程、模型量化(适配本地电脑低配置),结合你研究生时期的超算模型训练经验,对比当前开源大模型(Deepseek、GLM)与当年模型的差异(重点看轻量化、部署便捷性)。
-
开源大模型认知:梳理你已知的工具(Deepseek、GLM、Anthropic等),重点区分“开源可本地部署”(Deepseek、GLM)与“闭源需API调用”(Anthropic Claude、扣子),优先聚焦前者(适配本地实践)。
-
SRE与AI的联动点:思考SRE技能在AI学习中的优势——容器化部署、环境监控、故障排查,后续可落地“AI模型运维”“智能运维(AIOps)”,提前铺垫差异化方向。
3. 本地小实践(落地性强,快速建立信心)
聚焦“简单可运行”,利用Ollama工具快速部署你已知的Deepseek模型,完成首次本地AI交互,唤醒技术手感:
- Ollama部署Deepseek:一条命令完成部署(适配Ubuntu,操作简洁,贴合SRE高效部署习惯)
curl -fsSL ollama.com/install.sh | sh # 安装Ollama
ollama run deepseek-r1:8b # 下载并运行轻量化Deepseek模型(8B参数,CPU可运行,GPU更流畅)
-
基础交互测试:在终端与Deepseek对话,测试简单指令(如“解释Transformer架构”“写一段Ubuntu系统运维脚本”),验证模型运行正常,同时熟悉模型交互逻辑。
-
简单优化实践:结合SRE运维经验,修改Ollama配置(如调整监听IP、设置服务自启动),实现“模型后台稳定运行”,练习基础的模型运维操作。
第二阶段:开源大模型深度实践+工具联动(3-4周,核心阶段,强化实操)
目标:熟练掌握本地开源大模型(Deepseek、GLM)的部署、优化与应用,联动你已知的Agent、LangChain等工具,完成简单的AI应用开发,同时结合SRE技能,实现模型的容器化部署与监控。
1. 开源大模型进阶实践(Deepseek+GLM,重点突破)
- Deepseek深度部署:基于Docker容器化部署Deepseek,搭配Open WebUI打造可视化界面(提升操作便捷性,贴合SRE容器化运维能力)
# 拉取Open WebUI镜像
docker pull ghcr.io/open-webui/open-webui:main
# 启动容器,映射端口,实现可视化访问
mkdir /opt/openwebui
docker run -d -p 8080:8080 --add-host=host.docker.internal:host-gateway -v /opt/openwebui:/app/backend/data --name deepseek-webui --restart always ghcr.io/open-webui/open-webui:main
访问http://本地IP:8080,创建管理员账号,关联已部署的Deepseek模型,实现浏览器可视化对话。
-
GLM模型部署:对比Deepseek,部署GLM-4-9B-Chat轻量化版本(本地CPU/GPU均可运行),练习模型切换、参数调优(如量化为INT4,降低显存/内存占用),对比两个模型的性能差异,加深对开源大模型的理解。
-
模型优化实践:结合SRE性能优化经验,针对本地模型运行卡顿、响应慢的问题,做简单优化(如模型量化、内存限制、进程管理),同时学习模型日志查看、故障排查(如Ollama服务异常重启、Docker容器崩溃处理)。
2. 工具联动实践(LangChain+Agent,贴合你已知的工具)
利用你已知的Agent、LangChain等工具,联动本地大模型,完成简单的AI应用开发,实现“模型+工具”的协同,同时衔接SRE工作场景:
-
LangChain基础应用:使用LangChain对接本地Deepseek模型,实现简单的“文档问答”功能(如上传Ubuntu运维文档,让模型回答运维相关问题),练习文档解析、向量存储基础操作(可使用Milvus轻量化版本,适配本地环境)。
-
Agent入门实践:使用Hello-Agents轻量化框架(DataWhale开源,适配Ubuntu,无复杂硬件要求),搭建简单的“运维助手Agent”,实现“自动查询系统状态、生成运维脚本”等功能,贴合你的SRE工作场景。
# 确保已激活conda环境(conda activate ai-env)
# 克隆仓库并安装依赖(适配conda环境,避免依赖冲突)
git clone https://github.com/datawhalechina/hello-agents.git
cd hello-agents && pip install -r requirements.txt
# 配置环境变量,对接本地Deepseek模型,运行运维助手案例
- 工具联动拓展:尝试结合你已知的Clawbot、Nano banana等工具,对接本地模型,实现简单的任务自动化(如Clawbot实现命令行交互,Nano banana实现轻量化文本处理),熟悉不同工具的协同逻辑。
3. SRE+AI联动实践(差异化优势打造)
结合你的SRE工作经验,将AI与运维结合,实现“智能运维”小场景落地,体现自身优势:
-
模型运维监控:使用Prometheus+Grafana(SRE常用监控工具),监控本地部署的Deepseek、GLM模型,设置关键指标告警(如模型内存使用率、响应时间、服务可用性),练习AI模型的运维监控能力。
-
简单AIOps实践:利用本地Deepseek模型,训练简单的“系统异常检测”模型(基于系统日志数据),实现“日志异常自动识别、简单故障提示”,衔接天翼云AI赋能SRE自治的实践思路,落地基础的智能运维场景。
第三阶段:综合项目落地+知识拓展(4-6周,巩固提升,形成能力闭环)
目标:完成一个综合AI项目(贴合SRE场景,可本地运行),拓展AI前沿知识,梳理完整的AI技术体系,实现“学习-实践-复盘”的闭环,同时为后续深入学习或职业拓展打下基础。
1. 综合项目落地(本地可运行,贴合自身优势)
推荐项目:《基于Deepseek的本地智能运维助手》,整合前两个阶段的知识,实现“容器化部署+可视化交互+运维场景适配”,全程在Ubuntu本地完成,难度适中,贴合你的SRE背景:
-
项目核心功能: 1. 容器化部署Deepseek模型+Open WebUI可视化界面,支持浏览器交互; 2. 集成LangChain,实现Ubuntu运维文档问答、命令查询、故障排查提示; 3. 对接Prometheus监控数据,让模型分析系统运行状态,给出优化建议; 4. 实现服务自启动、日志监控、故障自动重启(结合SRE运维技能)。
-
项目实施步骤:
- 梳理需求,搭建项目架构(Docker容器化,拆分模型服务、Web界面、监控服务);
- 部署核心组件(Deepseek、Open WebUI、LangChain、Prometheus),完成组件联动(确保激活conda环境:conda activate ai-env,再安装相关依赖);
- 适配运维场景,优化模型提示词,训练简单的运维知识库;
- 测试优化,解决部署、交互、监控中的问题(如端口冲突、模型响应慢、监控告警误报);
- 复盘总结,整理项目文档,形成可复用的部署脚本(贴合SRE规范,包含conda环境激活、依赖安装步骤)。
2. 知识拓展(贴合前沿,不盲目跟风)
结合你已知的AI工具和行业动态,有针对性地拓展知识,避免碎片化学习,重点聚焦“可落地、与自身能力相关”的方向:
-
开源大模型进阶:学习模型微调基础(使用LoRA技术,适配本地电脑,无需大量算力),尝试微调Deepseek模型,注入Ubuntu运维相关知识,提升模型在运维场景的适配性。
-
Agent与多模型协同:深入学习Hello-Agents框架,尝试搭建多Agent协作系统(如“运维助手Agent+文档解析Agent”),熟悉智能体的任务规划、工具调用逻辑。
-
AI工程化落地:学习AI模型的CI/CD流程(结合SRE的CI/CD经验),实现本地模型的自动化部署、版本管理,掌握模型迭代的运维方法。
-
前沿动态跟踪:重点关注你已知的工具(Deepseek、GLM、Anthropic等)的更新动态,每周花1-2小时阅读技术文档、行业新闻,了解Agent、MCP等技术的最新落地场景,避免与行业脱节。
3. 复盘与优化(形成能力闭环)
-
每周复盘:记录学习进度、实践中的问题(如模型部署失败、工具联动异常),结合SRE故障排查思路,整理解决方案,形成个人笔记。
-
项目优化:根据综合项目的运行效果,优化模型性能、交互体验、监控体系,尝试添加新功能(如多模型切换、批量处理运维日志)。
-
技能梳理:梳理“深度学习基础+开源大模型部署+AI工具应用+SRE运维”的核心能力,明确后续深入方向(如专注AIOps、大模型工程化等)。
补充说明(适配本地Ubuntu电脑,贴合你的情况)
-
配置适配:若电脑CPU性能一般(无GPU),优先选择轻量化模型(如Deepseek-r1:8b、GLM-4-9B-Chat量化版),避免运行大参数模型导致卡顿;若有GPU,可尝试14B参数模型,提升交互体验。
-
时间适配:结合工作节奏,每天投入1-2小时,周末集中进行实践操作(如容器化部署、项目开发),避免急于求成,重点保证“每一步实践都能落地”。
-
资源推荐:优先使用你已知的工具文档(Deepseek、GLM官方文档),搭配Hello-Agents框架教程、Ubuntu AI环境部署文档,无需额外找冗余资源,聚焦“本地实践”。
-
避坑提醒:部署过程中若遇到Docker容器冲突、模型下载失败等问题,利用SRE运维经验排查(如查看日志、检查端口、重启服务),同时参考开源社区的解决方案,高效解决问题。
整体规划周期约8-12周,循序渐进,既唤醒你研究生时期的深度学习基础,又结合SRE工作优势打造差异化,全程可在Ubuntu本地完成,无需依赖外部算力,同时贴合你已知的AI工具,降低学习门槛,实现“从认知到实操、从基础到项目”的完整提升。