基于NeMo的电信推理模型与自治网络构建

4 阅读12分钟

使用某机构NeMo为自治网络构建电信推理模型

2026年2月28日

作者:Aiden Chang, Amparo Canaveras, Ari Uskudar, Amol Phadke

自治网络正迅速成为电信行业的重中之重。根据最新的某机构《电信行业AI现状报告》,65%的运营商表示AI正在推动网络自动化,50%的运营商将自治网络列为投资回报率最高的AI应用场景。

然而,许多电信公司仍然反映在AI和数据科学专业知识方面存在缺口,这使得在复杂、多域的网络中扩展安全、闭环的自动化变得困难。

目前,大多数电信网络运维中心(NOC)仍然采用被动、告警驱动的工作流程。工程师需要手动在多个工具之间对成千上万的故障进行分类,筛选海量的告警和性能数据,并将碎片化的仪表板和日志拼凑起来,之后才能应用修复方案或派遣现场团队。NOC是自治网络的天然起点,因为它集中了大量、可重复的任务,AI可以直接在这些任务中缩短平均修复时间(MTTR)并降低运营成本(OPEX)。

Tech Mahindra(一家为各行业企业提供技术咨询和数字解决方案的全球领先供应商)与某机构正在合作弥合这一AI技能缺口。他们的做法是将自治网络的构建模块——开放模型、工具和实现指南——转化为电信开发者可以在自己环境中直接采用和适配的资产。

本文概述了如何使用某机构 NeMo微调推理模型,使其表现得像NOC工程师一样,安全地驱动闭环、自愈的工作流程。内容包括:

  • 生成合成且符合电信现实的故障数据
  • 使用生产级参考工作流,将专家流程转化为结构化的推理轨迹,从而教会模型协调工具、推理网络状态并端到端执行故障管理任务

最终成果是一个可重复的方法,电信团队可以用它来构建自己专用于网络运营的AI智能体。这些智能体能够对高发的故障类别进行分类、根因分析和修复,帮助运营商迈向TM Forum 4级及更高级别的高度自治网络。

为什么网络运维中心需要推理模型?

传统的NOC自动化大多基于规则且是开环的:脚本在固定条件下触发,但难以处理噪声信号、跨域依赖以及不断变化的网络行为。因此,许多一级和二级任务——分类、根因分析、变更后的验证——仍然依赖人工,导致MTTR居高不下,并限制了运营商向真正自治运营迈进的程度。

[图1:从人工处理NOC告警转向嵌入NOC工作流的推理智能体]

电信推理模型成为了AI智能体的引擎,能够以可控、可审计的方式承担这种工作模式。智能体不再使用硬编码的运行手册和零散脚本,而是利用模型来解释故障、决定调用哪些工具,并根据实时响应调整其行动。关键特性包括:

  • AI推理 + 工具调用:通过调用NOC工具进行验证、根因分析和跨现有系统的修复,取代人工告警分类
  • 端到端自动化:处理各类故障(如断网、震荡、拥塞、配置问题)的告警验证、RCA和修复
  • 降噪:利用历史模式过滤自清除或低价值告警,让工程师专注于更高优先级的任务
  • 秒级修复,而非数小时:将高发、已充分理解的故障的修复时间从数小时缩短到秒级,显著降低MTTR

最终成果是一个闭环、自愈的网络。专门的NOC智能体处理常规的分类和修复,工程师则从被动的告警处理转向主动优化和复杂问题解决。

设计电信推理流水线

该解决方案的技术方法将以下组件组合成一个可重复的流水线:

  • 合成故障数据
  • 专家NOC流程
  • 结构化推理轨迹
  • 监督式微调
  • 评估

模型不是直接从原始日志和告警中学习,而是在精选的示例上进行训练,这些示例展示了一位经验丰富的工程师将如何分析故障、调用工具以及判断修复何时完成。

[图2:智能体训练流水线,从合成故障生成到推理模型,再到微调和评估(涵盖工具调用、推理和结论)]

本例中,Qwen3-32B作为基础推理模型,针对电信NOC工作流进行微调,设计原则如下:

  • 聚焦少数高影响力的故障类型,这些类型占据了大部分故障并需要明确的行动。这使得模型能够深入理解最重要的故障类别。
  • 为每种问题类型定义逐步的操作指南,包括RCA和修复步骤,以及智能体必须使用的NOC工具。
  • 生成结构化的推理轨迹,捕捉多步工具调用及其背后的决策逻辑,并使用NeMo Skills参考工作流自动化轨迹和故障数据的生成。

NeMo Skills端到端地编排这个流水线,利用其CLI、vLLM或TensorRT LLM服务器以及训练工具,从原始故障数据过渡到微调后的电信推理模型。

合成故障数据与NOC工具调用

流水线的输入是一个完全合成的故障数据集,其建模于真实的NOC行为。每条记录包括区域、域、优先级、问题类型、可能原因和时间戳等字段。同时还包含工程师笔记(描述中间步骤)以及总结最终解决方案和关闭代码的结单备注。

故障摘要捕获了网络降级或中断的原因,是模型训练所要解决的核心问题。流水线集中在最频繁、高影响力的故障类型上,这些类型占据了故障总量的大部分并需要明确的行动。推理模型深入学习那些驱动MTTR和OPEX的案例。

为了模拟真实的NOC工作流,定义了一组自定义工具供智能体在多步流程中调用,例如:

  • 确认并跟踪初始告警
  • 检查站点和设备状态
  • 执行远程操作(重启、解锁、启用)
  • 监控自动恢复或告警清除
  • 检查拓扑、电源和光纤,以及公开的中断信息
  • 应用配置修复
  • 当告警仍处于活动状态时重新检查告警状态
  • 调查持续性或重复性告警
  • 记录行动和状态更新
  • 协调现场派遣或硬件更换
  • 确认最终站点健康状态并关闭故障

针对每种问题类型,领域专家将现有工作流转化为映射到上述工具的分步指南。例如:首先查阅哪个分类工具包;查询哪些告警;何时重启设备;如何验证光纤切断、电源故障或网元问题。

这些指南成为模型将要学习的合成推理轨迹的蓝图。它们后续定义了NOC智能体在生产中执行闭环工作流时的动作空间。

将专家流程转化为推理轨迹

为了将专家NOC流程转化为电信专用推理模型的训练数据,遵循下面概述的三步NeMo Skills工作流。它将运行手册转化为结构化的多轮推理轨迹,供自治NOC智能体使用。

步骤1:生成结构化的动作序列

使用NeMo Skills的参考工作流,一个教师模型根据提示(包含故障字段和指南模板)为每个故障生成标准化的动作序列。这些步骤直接映射到NOC工具。

轨迹被格式化,使得每一步都记录动作、参数、工具调用和即时结果,形成NOC工作流的结构化视图。

步骤2:附加每步推理

第二轮为每个动作丰富推理文本,解释为何采取该步骤、使用哪些信号以及它如何影响下一个决策。这创建了一条推理链,反映了一位经验丰富的NOC工程师如何基于拓扑、告警和历史行为进行推理。

由于原始轨迹可能冗长或重复,一个压缩阶段会合并相关步骤,同时保留关键决策点,使序列对训练更高效。

步骤3:为多轮、工具调用模型格式化

使用NeMo Skills的另一个工作流,将格式化后的轨迹转换为Qwen兼容的格式,该格式编码了多轮对话式交互和工具调用动作。多轮分词模拟了真实的交互场景,其中智能体在推理、调用工具和解释工具响应之间交替进行,这对于部署ReAct风格的NOC智能体至关重要。

最终结果是一个课程式结构的数据集:较简单的案例和较短的轨迹出现在早期,而更复杂的多步故障出现在后期,从而在模型训练期间支持课程学习。

微调电信推理模型

微调阶段对编译好的推理数据集进行标准的训练/测试拆分,NeMo Skills负责数据准备,Qwen3 32B作为基础推理模型。NeMo Skills的prepare_data工具应用了一个电信专用的提示模板(noc_reasoning_sft)和Qwen分词器。这将训练拆分中的每条轨迹转换为一个监督式微调(SFT)样本,包含:

  • 故障上下文和NOC信号
  • 多步工具调用和中间结果
  • 解释每个决策的推理轨迹
  • 最终解决方案和故障摘要

由此生成一个包含SFT就绪样本的单一JSONL文件,用于电信推理模型。

为了提高学习效率,应用了课程学习,将样本从简单的单问题故障排序到更复杂的多步、多工具案例。这使得模型在处理长序列、多轮故障排查模式之前,能够先掌握核心的NOC行为。

多轮分词确保每个样本保留查询、工具调用、响应和后续行动的真实序列,而不是孤立的单轮提示。这些能力对于必须在长上下文中协调多个工具的下游ReAct风格智能体至关重要。

最终,在长序列长度和跨GPU的张量模型并行条件下,基于此电信推理课程对Qwen3-32B进行微调。检查点和实验跟踪允许团队迭代数据质量、课程设计和超参数。

成果是一个电信专用推理模型,它理解故障字段、关闭代码和NOC流程,并能在生产环境中可靠地驱动多工具、多轮的工具调用工作流。

评估故障摘要准确性与安全性

初始评估聚焦于故障摘要准确性:嵌入ReAct风格智能体并配有工具的模型,针对给定故障预测并执行正确修复路径的能力。

实验将微调后的电信推理模型与基线Qwen3-32B在留出的故障数据上进行比较,测量各问题类型和关闭代码类别的准确率、精确率和召回率。也可以在单一问题类型内分析故障摘要准确性,以凸显推理轨迹和课程学习带来的最大收益,从而为未来迭代合成数据生成和指南设计提供信息。多次迭代的评估显示,微调后的模型将准确率从大约20%提升到了60%。

除了故障摘要指标,还可以随时间引入额外的评估方法以进一步加固系统,包括:

  • 使用LLM作为评判员的设置,评估推理轨迹的正确性、完整性和安全性。
  • 使用LLM作为评判员评估最终结论和修复计划。
  • 工具调用基准测试(如BFCLv3),衡量智能体对工具调用进行排序和解释的可靠性。
  • 推演和拒绝采样,在许多模拟故障上对行为进行压力测试。
  • 向轨迹中注入受控错误,教模型检测并恢复自身的错误。
  • 结合检索增强生成(RAG) 与历史少样本示例,提高在长尾场景下的鲁棒性。

开始为自治网络构建电信推理模型

由合成数据、结构化轨迹和安全工具调用驱动的电信专用推理模型,能够推动NOC迈向零接触、自愈的运营。通过聚焦高影响力的关闭代码、将专家指南编码为多轮推理轨迹,并使用某机构 NeMo软件工具包微调大型模型,运营商可以构建出能够可靠承担真实NOC工程师任务的智能体。

该流水线是可重用且可适配的,因此这种方法可以根据每个运营商的工具、数据和策略进行定制。这加速了行业从人工告警处理向智能、自治网络运营的过渡。

要开始微调推理模型以构建用于网络运营的AI智能体,请参阅《教模型推理电信网络故障》一文。FINISHED