聊点实在的：AI模型调优+智算运维的硬核经验聊点实在的：AI模型调优+智算运维的硬核经验**** 这周算是把智算集群的调

聊点实在的：AI模型调优+智算运维的硬核经验****

这周算是把智算集群的调度问题给捋顺了，过程能说上大半天，估计做这行的多少都碰见过类似的坑。

上个月刚接手公司新搭的智算集群，配置看着挺唬人——8台A100，interconnect用的还是高速互联，理论算力够支撑中等规模的模型训练了。但实际跑起来就不是那么回事，上周三跑一个图像生成模型的fine-tuning，按道理batchsize设到32没问题，结果刚跑半小时就报内存溢出。一开始以为是代码有问题，翻来覆去查了两遍，数据加载、模型并行的逻辑都对。后来看集群监控才发现，8台机器的显存使用率差了快40%，有两台一直跑不满，资源分配压根没做到位。

这还不算完，集群里跑着好几个团队的任务，有时候上午提交的推理任务，排到下午都没动静。问了供应商的技术支持，说是默认调度策略按任务提交时间排，但没考虑任务类型。我们做推理的任务，其实对算力要求没那么高，但特别吃响应速度；而训练任务正好相反，得要持续稳定的算力。后来我在调度脚本里加了个优先级权重，给推理任务设了0.7，训练设0.3，再限制单个训练任务最多占用60%的算力，这才把响应速度拉回来，现在提交推理任务基本10分钟内就能跑。

图片3.png

再说模型调优这块，上个月给一个做智能客服的客户调大模型，他们用的是开源的7B参数模型，在通用场景还行，但一到行业术语多的对话就拉胯，有时候用户问“这个零件的MTBF是多少”，模型直接答非所问。一开始想着往训练数据里塞行业词典，加了5000多条术语进去，训完效果也就提升了10%不到。后来换了个思路，在prompt里加了动态术语映射，用户输入里的专业词自动替换成模型熟悉的表述，再把替换规则反向应用到输出结果里，这么一弄，准确率直接飙到85%，客户当场就说要加预算做二期。

图片4.png

不过说实话，这些问题解决起来都挺费时间，尤其是碰到新领域的技术点，比如最近在研究的智算中心能效优化，光是理解PUE计算里的冷量损耗系数就查了三天资料。有时候晚上对着一堆日志文件发呆，就特想找几个同行聊聊，看看别人是怎么处理这些破事的。

我建了个交流群，里面都是干AI和智算的，平时谁碰到啥技术难题就在群里吼一声，上周还有个老哥分享了他解决分布式训练死锁的偏方，还挺管用。有兴趣的可以加进来，平时没事交流下技术，省得自己瞎琢磨走弯路。

图片5.png