从 YAML 调包侠到 LLMOps：我的运维转型踩坑实录先说背景我是传统运维出身，写了五年Terraform，管了三

先说背景

我是传统运维出身，写了五年Terraform，管了三年K8s集群。

去年开始焦虑，今年开始动手转型。选了LLMOps方向。

踩了几个坑，记录一下，给有类似想法的朋友参考。

不是什么深思熟虑的选择，就是觉得GPU集群运维是个新方向，门槛高，替代性低。

当然门槛高也意味着学习曲线陡。入职第一个月我基本上每天都在补课。

错了。

K8s调度的是Pod，GPU集群调度的是GPU卡。这两件事的复杂度完全不在一个量级。

K8s的基本概念：Pod、Service、Deployment、ConfigMap。掌握了就能应付大多数场景。

GPU调度的复杂在于：GPU显存和计算单元的分配策略，多卡并行的拓扑感知（NVLink vs PCIe），混合精度训练的显存计算，分布式训练的通信开销。

K8s我只用了三个月就上手了，GPU调度学了大半年才敢说入门。

传统运维的主要语言是Shell和Go（Terraform本质也是HCL）。

LLMOps需要Python。

不是会写脚本就行，是要能看懂PyTorch代码、理解模型加载逻辑、debug数据流水线。

我Python基础还行，但学PyTorch的时候还是吃力。特别是分布式训练部分，DataLoader的多进程加载逻辑、梯度累积的实现细节，没有扎实基础根本看不懂。

没想到这部分占了这么多工作量。

模型推理需要RAG，RAG需要向量检索。Milvus、Qdrant、Chroma……这些以前听都没听过的东西，现在天天打交道。

向量索引的原理、相似度度量、过滤查询……又是一门新课。

实际体验是：AI能帮我查文档、写代码，但它没法帮我建立知识体系。

用Copilot写了个推理服务，跑起来了，但为什么这么配置？不知道。

遇到问题就问Copilot，每次都能得到答案，但知识点还是散的，没有连成线。

最终还是得老老实实看书、看论文、跑实验。

走了弯路之后，总结了一个相对合理的学习路径：

阶段1：基础补强（2-3个月）

Python进阶：异步编程、类型注解、装饰器
PyTorch基础：张量操作、模型定义、训练循环
分布式基础：数据并行、模型并行、通信原语

阶段2：推理工程（2-3个月）

vLLM/TensorRT-LLM部署
模型量化（INT8/INT4）
推理性能优化
向量数据库运维

阶段3：高级主题（持续）

分布式训练
GPU集群调度
MLOps平台建设

入职LLMOps团队八个月，现在能独立负责一些推理服务部署和维护工作。

不算资深，还在积累期。但方向对了，剩下的交给时间。

别裸辞转。LLMOps岗位比传统运维少很多，裸辞风险大。可以先在公司内部找机会，或者用业余时间学习，等时机成熟再动。

项目经验比证书重要。面试官不关心你有没有K8s认证，问的都是实际项目：怎么部署的、遇到什么问题、怎么解决的。裸辞培训班包装出来的简历经不起问。

找个 mentor。有人带和没人带差很多。mentor不一定要手把手教，能帮你把握方向就行。

接受速度慢。转型不是三个月能完成的事。给自己一年以上的积累期，别急。