详解华为设备接口Down

971 阅读39分钟

接口Down的原因有很多种,通过display interface命令可以查看到接口的“current state”状态,从现象上主要分为接口状态为Error-Down、接口状态为Down且有提示原因和接口状态为Down且无提示原因三类。本文从以上三类现象出发,逐一分析接口Down的原因并给出相应的问题排查手段和解决方法。

1、接口状态为Error-Down

当接口处于Error-Down状态时,其指示灯状态为常灭,接口不能正常收发报文,设备上产生ERROR-DOWN_1.3.6.1.4.1.2011.5.25.257.2.1 hwErrordown告警。通过display interface命令可以查看到接口的“current state”显示为"ERROR DOWN( )",其中()内容表示接口Error-Down的具体原因。

<HUAWEI> display interface 10ge 1/0/1
10GE1/0/1 current state : ERROR DOWN(link-flap) (ifindex: 53)
Line protocol current state : DOWN
Description:
Route Port,The Maximum Transmit Unit is 1500,The Maximum Frame Length is 9216
Internet protocol processing : disabled
IP Sending Frames' Format is PKTFMT_ETHNT_2, Hardware address is 04f9-388d-e682
Port Mode:             AUTO,     Port Split/Aggregate:               -
Speed:                 AUTO,     Loopback:                        NONE
Duplex:                FULL,     Negotiation:                        -
Input Flow-control: DISABLE,     Output Flow-control:          DISABLE
Mdi:                      -,     Fec:                                -
Last physical up time   : -
Last physical down time : 2019-03-24 18:28:31
Current system time: 2019-05-15 03:07:30
Statistics last cleared:never
……

接口Error-Down的原因及恢复措施

接口Error-Down的原因

Error-Down机制是设备提供的一种保护机制,涉及接口、堆叠、SVF、安全等多个特性。配置上述特性的指定功能后,一旦检测到接口或者接口关联的业务存在异常,设备即关闭接口并将接口状态设置为Error-Down,从而防止异常进一步扩散影响到整个网络。

CloudEngine系列数据中心交换机上能够引起接口Error-Down的原因有很多种,如下所示。

  • 安全可靠性 

    auto-defend 原因:指定攻击溯源的自动防御措施为将攻击报文进入的接口Shutdown。

    portsec-reachedlimit 原因:检测到接口学习到的MAC地址数超过限制数时,接口物理状态变为Down。

    monitor-link 原因:Monitor Link组中上行接口Down或者上行Smart Link组中的接口全部Down,引起关联的下行接口状态变为Down。

    storm-control 原因:配置了接口下的风暴控制后,如果连续3个风暴控制检测时间间隔,每个时间间隔内都出现接口接收广播、组播或未知单播报文的平均速率大于指定的高阈值的现象,接口将进行关闭处理。

  • 以太网

    bpdu-protection 原因:设备上启动了BPDU保护功能后,如果边缘接口收到配置BPDU报文,边缘接口将被Shutdown。

    m-lag-peer-error 原因:当M-LAG应用于普通以太网络、VXLAN网络或IP网络的双归接入时,peer-link故障但心跳状态正常会导致状态为备的设备上除管理网口、peer-link接口和堆叠口以外的物理接口处于Error-Down状态。一旦peer-link故障恢复,处于Error-Down状态的M-LAG接口默认将在4分钟后自动恢复为Up状态,其它物理接口默认立即恢复为Up状态。

    m-lag-consistency-check-error 原因:当使能M-LAG配置一致性检查功能,并指定检查模式为严格检查模式时,如果M-LAG两端设备存在关键配置Type 1配置不一致,会导致M-LAG备设备上的M-LAG成员接口处于Error-Down状态,且触发设备对关键配置Type 1类型配置检查不一致的告警。

    mac-address-flapping 原因:检测到接口学习到的MAC地址发生漂移,接口物理状态变为Down。

    loopback-detect 原因:检测到接口存在环回(再次接收到了发送的环回检测报文),设备将根据用户配置的指定动作进行处理。关闭接口是可配置的动作之一。

  • 接口

    link-flap 原因:链路振荡,联动的接口物理状态变为Down。

    crc-statistics 原因:检测到接口接收的CRC错误报文超过阈值,接口将被Shutdown。

    fabric-link-failure 原因:检测到接口板和交换网板之间链接的Serdes链路均产生故障导致流量异常时,接口将被Shutdown(仅针对CE12800系列)。

    forward-engine-buffer-failed 原因:检测到接口缓存异常,出方向大量报文被丢弃,接口将被Shutdown。

    forward-engine-interface-failed 原因:检测到转发引擎的故障,接口工作不稳定,可能导致丢包或者不通,接口将被Shutdown。

    transceiver-power-low 原因:检测到接口光功率低于默认的下限阈值,接口将被Shutdown。

  • 堆叠

    no-stack-link 原因:如果两台成员设备间无转发链路,则会导致某台成员设备的业务口变为Down。

    resource-mismatch 原因:如果堆叠成员设备启动过程中其资源模式与主设备配置的资源模式不一致,或者接口拆分配置不一致,则该设备上除堆叠物理成员接口之外的业务口会变为Down。资源模式包括:低时延网络模式、Eth-Trunk数目、隧道模式、EEDB资源模式。

    stack-config-conflict 原因:在堆叠建立过程中,如果其他交换机与主交换机有冲突的堆叠配置,则有可能导致堆叠建立失败,且该交换机的所有接口将会变为Down。

    dual-active-fault-event 原因:堆叠分裂并发生双主故障,竞争失败的交换机的业务口(保留接口除外)变为Down。 堆叠快速升级时,原主设备加入堆叠失败后会触发本端双主检测,将原主设备的业务口(保留接口除外)变为Down。

    stack-member-exceed-limit 原因:堆叠成员交换机数量超出规格限制,多余交换机的接口将变为Down。

    stack-packet-defensive 原因:堆叠物理成员接口在短时间内收到大量堆叠协议报文或堆叠错误报文。

  • SVF

    spine-type-unsupported 原因:CE6850-48T4Q-EI/CE6850-48T6Q-HI/CE6855-48T6Q-HI不支持作为父交换机加入SVF系统。当CE6850- 48T4Q-EI/CE6850-48T6Q-HI/CE6855-48T6Q-HI尝试加入由SVF父交换机组成的堆叠系统时,其接口将被Shutdown。

    stack-member-exceed-limit 原因:在建立盒式SVF时,如果因错误的配置或连线导致父交换机数量大于2台,则多余的设备将无法加入SVF系统,这些多余设备的接口将都被Shutdown。

    leaf-mstp 原因:SVF系统中,接收到BPDU报文的叶子交换机下行接口将被Shutdown。

接口Error-Down检测机制

无论接口Error-Down是由哪一种原因引起,均意味着设备检测到了异常。那么设备是在何时进行异常检测的呢?

  • 设备正常启动后,即开始相应的异常检测功能,例如link-flap。
  • 配置相关特性的基本功能后,系统自动检测与该特性相关联的异常。例如与堆叠特性相关的资源模式不一致(resource-mismatch)、堆叠配置冲突(stack-config-conflict)等。
  • 配置独立的异常检测功能或者子功能后,系统开始检测异常。例如BPDU保护功能(bpdu-protection),MAC地址漂移(mac-address-flapping)等。

设备在检测到异常并将接口状态设置为Error-Down后,可以通过自动恢复和手动恢复两种措施将接口从Error-Down状态恢复。

  • 接口Error-Down时无论采用哪种恢复方式,首先都需要根据接口Error-Down原因排除相关的业务故障来恢复业务,其次再进行接口Error-Down状态恢复,以防止接口再次进入Error-Down状态。
  • 删除引起接口Error-Down的配置,无法恢复已经处于Error-Down状态的接口。

接口Error-Down自动恢复功能

接口Error-Down的自动恢复功能是指经过用户设置的Up延迟时间后,处于Error-Down状态的接口状态自动恢复为Up的功能。此功能一般是在设备检测到异常情况前,提前配置部署的一种自动恢复措施。

自动恢复功能对由同一原因导致Error-Down的所有接口同时生效,避免了手工方式逐一开启多个接口时效率低,接口易遗漏等问题。

  • 自动恢复措施对已经处于ERROR DOWN状态的接口不生效,只对配置该功能后再变为Error-Down状态的接口生效,因此建议您在配置业务的同时配置自动恢复功能。
  • 由于接口Error-Down后需要一定的时间来排除业务故障,因此建议您将Up延迟时间设置的足够长,例如1小时。

#配置步骤

  1. 执行命令system-view,进入系统视图。

  2. 执行error-down auto-recovery cause { auto-defend | bpdu-protection | crc-statistics | dual-active | fabric-link-failure | forward-engine-buffer-failed | forward-engine-interface-failed | link-flap | loopback-detect | m-lag | m-lag-consistency-check | mac-address-flapping | no-stack-link | portsec-reachedlimit | stack-config-conflict | stack-member-exceed-limit | stack-packet-defensive | storm-control | transceiver-power-low } interval _interval-value_命令,配置处于Error-Down状态的接口自动恢复为Up的延迟时间。

    不同设备对于以上参数的支持情况不同。具体支持情况可通过在系统视图下输入error-down auto-recovery cause后再输入“?”获取该设备支持的全部参数。

  3. 执行display error-down recovery显示处于Error-Down状态的接口的相关信息,包括接口名、Error-Down原因、接口状态恢复到Up的延迟时间和当前的剩余时间。

接口Error-Down的手动恢复措施

接口Error-Down的手动恢复措施是指在接口状态为Error-Down的接口下逐一执行命令来重启接口的方法。适用于配置业务时没有同时配置接口Error-Down自动恢复功能的场景。手工恢复的方式需要在每个接口下逐一配置命令,存在配置效率低且接口易遗漏等问题。接口Error-Down的手动恢复措施主要有以下两种方式:

  1. 在接口视图下依次执行命令shutdownundo shutdown命令,重启接口。
  2. 在接口视图下执行命令restart,重启接口。

举例:接口状态为ERROR DOWN(link-flap)怎么办?

故障现象

CE系列交换机接口对接时接口指示灯不亮,说明接口状态没有Up。设备上执行display interface命令查看接口状态:

<HUAWEI> display interface 10GE 1/0/1 
10GE1/0/1 current state : ERROR DOWN(link-flap) (ifindex: 5)
Line protocol current state : DOWN 
  ---- More ----   

从current state项可以看出接口当前的物理状态为ERROR DOWN(link-flap),链路振荡,导致接口不能正常工作。

常见原因

接口状态显示为ERROR DOWN(link-flap)表示接口使能了Link-flap保护功能并且发生过频繁的Up/Down变化,从而被设备判断为接口状态异常,触发接口Error-Down(默认情况下10s内接口闪断5次,接口就会被Error-Down)。将物理状态频繁Up/Down变化的接口关闭,这样避免网络拓扑结构频繁变化,或者在有备份链路的网络中业务将切换到备用链路,以保护网络正常。

故障处理步骤

当接口状态显示为ERROR DOWN(link-flap)时,建议按照以下思路处理:

  1. 检查历史告警。如果过去长时间内,接口存在较多的Up/Down告警,表明接口工作状态不稳定,建议排查链路两端的光模块和光纤是否正常。
  2. 恢复接口状态。默认情况下接口Error-Down后不会自动恢复,需要执行shutdownundo shutdown命令手动恢复,对于光接口,从V200R002C50版本开始用户可以插拔介质手动恢复。用户也可以在接口未Error-Down时,通过执行error-down auto-recovery cause link-flap interval _interval-value_命令配置接口ERROR DOWN(link-flap)后自动恢复。

如果用户不希望检测到接口闪断,可以关闭接口检测功能或者调整检测门限,具体操作如下:

  • 关闭接口的Link-flap检测功能。如果不希望对某个接口做Link-flap检测,可以进入该接口视图关闭Link-flap检测。执行此操作后系统将不会及时检测到因Link-flap引起的接口故障,请谨慎操作。
  • 调整Link-flap检测门限。有部分服务器网卡在服务器启动过程中会出现比较频繁的闪断,造成设备误判。这时可以考虑通过执行port link-flap { interval interval-value threshold threshold-value | interval interval-value | threshold threshold-value }命令增大Link-flap的检测门限。

2、接口状态为Down且有提示原因

当接口处于DOWN状态时,其指示灯状态为常灭,接口不能正常收发报文。通过display interface命令可以查看到接口的“current state”显示为"DOWN( )",其中()内容表示接口Down的具体原因。

<HUAWEI> display interface 10ge 1/0/1
10GE1/0/1 current state : DOWN(Transceiver type mismatch) (ifindex: 53)
Line protocol current state : DOWN
Description:
Route Port,The Maximum Transmit Unit is 1500,The Maximum Frame Length is 9216
Internet protocol processing : disabled
……

接口Down的提示原因说明及恢复措施

  • 接口物理层故障Down 

    DOWN(Transceiver speed mismatch) 原因:光模块速率不匹配。 措施:通过speed命令手动调整接口速率或者更换匹配的光模块。

    DOWN(Transceiver type mismatch) 原因一(通用原因):光模块类型不匹配。 原因二(特殊原因):当CE6875EI设备上的QSFP+-QSFP+高速线缆或QSFP28-QSFP28高速线缆没有作为堆叠线缆或者M-LAG peer-link口线缆使用时,设备会报Transceiver type mismatch; 措施一:手动调整速率或者更换匹配的光模块。 措施二:更换匹配的线缆。

    DOWN(The optical power is too low) 原因:光功率过低。 措施:更换匹配的光模块。

    DOWN(Transceiver loose) 原因:光模块未插紧。 措施:重新插拔光模块。

    DOWN(Negotiation unsupported) 原因:不支持自协商。 措施:通过negotiation disable命令关闭自协商功能。

    DOWN(Port mode mismatch) 原因:接口模式不匹配。 措施:通过port mode命令调整接口模式的配置。

    DOWN(Cable for stack or peer-link interface only) 原因:使用QSFP+ - QSFP+高速线缆或QSFP28 - QSFP28高速线缆时只有堆叠口或peer-link口才能UP。 措施:更换匹配的线缆。

    DOWN(Fast-up configuration mismatch) 原因:快速Up功能配置不匹配。 措施:调整快速Up功能的配置。

    DOWN(Trunk error down) 原因:对应的Eth-Trunk接口处于Error-Down状态。 措施:恢复Eth-Trunk成员接口的Error-Down,具体可参考接口状态为Error-Down章节。

    DOWN(Port unavailable) 原因:接口不可用。 措施:一般是可变速率的接口升速导致的。可以尝试降低接口速率。

  •  链路故障Down 

    TRIGGER DOWN(1AG auto recover) 原因:CFM检测到链路故障。 措施:对当前接口进行7秒闪断处理,即先关闭该接口,然后7秒后再打开该接口。

  •  管理员强制Down 

    Administratively DOWN 原因:网络管理员在该接口下执行了shutdown命令。 措施:网络管理员在该接口下执行undo shutdown命令。

  •  流量状态Down

    Flow DOWN 原因:接口的流量状态为Down。 措施:该状态与绑定的管理VRRP状态一致。如果绑定的管理VRRP状态为Backup或者Initialize,则业务接口的流量状态为Down。管理VRRP状态恢复正常后,业务接口的流量状态会自动恢复为Up。

举例:接口状态为DOWN(Transceiver type mismatch)怎么办?

故障现象

CE系列交换机接口对接时接口指示灯不亮,说明接口状态没有Up。设备上执行display interface命令查看接口状态:

<HUAWEI> display interface 10ge 1/0/5
10GE1/0/1 current state : DOWN(Transceiver type mismatch) (ifindex: 198)                                  
Line protocol current state : DOWN                                              
  ---- More ----  

从current state项可以看出接口当前的物理状态为Down(Transceiver type mismatch),光模块类型不匹配,导致接口不能正常工作。

常见原因

出现接口Down(Transceiver type mismatch)时通常从以下几方面考虑:

  • 光模块类型和接口配置不匹配。

    1. 如果用户在当前配置生效后,更换了光模块或者单板,且新的光模块或者单板不支持原配置可能会导致接口出现Down(Transceiver type mismatch)。当删除了当前模块不支持的配置,或者更换为支持原配置的模块后,接口可以恢复正常状态。
    2. 对于未拆分的光接口插入接头类型为MPO的光模块,或者对于拆分的光接口插入接头类型为LC的光模块时,配置接口拆分命令后,接口处于Down(Transceiver type mismatch)状态。
    3. 对于40GE/100GE光接口来说,如果两个接口插入了40GE铜缆并配置了training disable,然后其中一个接口换插成40GE光模块,则该接口状态为DOWN(Transceiver type mismatch),当执行命令undo training disable后,接口恢复正常状态。
  • 介质使用错误。

    1. 当QSFP+-QSFP+高速线缆或QSFP28-QSFP28高速线缆没有作为堆叠线缆或者M-LAG peer-link口线缆使用时,对于CE6875EI,设备会报Transceiver type mismatch。
    2. 对于CE6863、CE6863K、CE6881E,当其25GE接口工作在25GE速率时,对于V200R020C00版本及以后的版本,支持1m、3m和5m的SFP28高速线缆,当使用非1m的铜缆时必须开启RS-FEC功能,否则接口会处于Down(Transceiver type mismatch)状态。
  • 光模块类型与QSA转换器不匹配。

    对于CE6855HI、CE6856HI和CE7855EI,40GE接口配置接口拆分后,支持插入QSA转换器,在QSA转换器插入10GE速率的介质,使接口作为一个10GE接口使用,且只有第一个拆分口正在工作,其他三个拆分接口不可使用。如果接口未配置接口拆分就插入QSA转换器,或者配置接口拆分使用QSA转换器后插入非10GE速率的介质,接口会处于Down(Transceiver type mismatch)状态。

故障处理步骤

  1. 建议先排除是介质使用错误的问题。如果是使用的不匹配的介质,就通过更换光模块、光纤/电缆、铜缆等方式,排除介质问题。

  2. 检查接口的配置是否和光模块类型相匹配,如果不匹配,则尝试通过更改配置为一致来恢复接口故障。

  3. 接口如果使用了QSA转换器,检查是否正确配置了拆分操作并且使用了相匹配的介质,如果不满足,则通过更改配置或者更换介质的方式恢复接口故障。

  4. 以上三种途径操作后接口仍是Down,请参考《故障处理》手册中的“硬件故障-接口故障”介绍的故障排查方法。

3、接口状态为Down且无提示原因

当接口处于DOWN状态时,其指示灯状态为常灭,接口不能正常收发报文。通过display interface命令可以查看到接口的“current state”显示为"DOWN"。

<HUAWEI> display interface 10ge 1/0/1
10GE1/0/1 current state : DOWN(ifindex: 53)
Line protocol current state : DOWN
Description:
Route Port,The Maximum Transmit Unit is 1500,The Maximum Frame Length is 9216
Internet protocol processing : disabled
……

检查接口UP的前置条件是否满足

接口Down且没有其他提示信息时,可以先检查一下接口UP的前置条件是否满足。接口使能是由多个动作组合决定的,只有这些动作组合同时满足了接口UP的条件,才会触发接口使能成功,我们经常执行的**[ undo ] shutdown的操作就是其中的一项。通过display system internal device port**命令可以查看接口未使能成功的诊断信息。

# 查看接口10GE1/0/1的故障诊断信息。

<HUAWEI> display system internal device port 10ge 1/0/1
Port create related check:
--------------------------------------------------------------------------------
Item             LogicCfg         PhyCfg           Picm             IsPass
--------------------------------------------------------------------------------
board module     0x3000001f       0x3000001f       N/A              YES
board device     0x14000207       0x14000207       N/A              YES
lfe device       0x80000000       0x80000000       N/A              YES
pic module       0x50000020       0x50000020       N/A              YES
pic device       0x43000006       0x43000006       N/A              YES
panelport 1      0x50000004       0x50000004       N/A              YES
media type 1     --               --               N/A              NO
port device      0x6000002f       0x6000002f       N/A              YES
--------------------------------------------------------------------------------

Port enable related check:
--------------------------------------------------------------------------------
DevType          AttrName         AttrValue        ExpectValue      IsPass
--------------------------------------------------------------------------------
board            isFastUpgrade    0                == 0             YES
PhyLpuBrd        isIssuUpgrade    0                == 0             YES
PhyLfe           Status           0x10001          != 0             YES
port             isAvailable      0x1              == 1             YES
port             isshut           0x1              == 1             YES
port             portlfeisup      0x1              == 1             YES
port             portissuup       0                == 0             YES
port             triggerShut      0x1              == 1             YES
port             port12x100gDown  0                == 0             YES
port             phyportisshut    0x1              == 1             YES
--------------------------------------------------------------------------------

Port physical related check:
--------------------------------------------------------------------------------
Link    Enable    Speed    Negotiation     Loopback
--------------------------------------------------------------------------------
DOWN    DISABLE   100000   DISABLE         PHY
--------------------------------------------------------------------------------

上述查询内容中,只要“Port enable related check”中有任何一个“IsPass”项不为“YES”,则接口都不会UP。

isFastUpgrade:portsec-reachedlimit
该项未pass说明接口识别到当前系统正处于堆叠快速升级状态,接口不会UP。需要确认当前环境是否正处于堆叠快速升级状态。

isIssuUpgrade:ISSU升级状态
该项未pass说明接口识别到当前正处于ISSU升级状态,接口不会UP。

Status:lfe组件平滑结束标记
该项未pass说明接口识别到当前系统平滑未结束,接口不会UP。可以通过display fei frame boot state slot 1 component feisw命令查看FEISW组件当前启动状态。

isAvailable:接口离线状态
该项未pass说明接口离线。

isshut:接口配置了shutdown
检查接口是否配置了shutdown。

portlfeisup:接口所在的FEI转发引擎实例是否Up
该项未pass说明接口所在的FEI转发引擎实例未up,即phyLfe的status属性无效。

portissuup:ISSU状态
检查是否处于ISSU升级状态。

triggerShut:触发关闭接口
检查是否有相关配置触发了接口关闭。

port12x100gDown:检查CE12800设备上的12*100G单板是否有未注册的C网板
该项未pass说明12800上有12*100G单板但是没有注册的C网板,请检查是否存在注册的C网板。

phyportisshut:该属性为上述各属性联动的结果。在上述检查项通过的前提下,如果该检查项未通过,说明内部逻辑错误
收集日志并联系华为工程师。具体步骤请参见收集信息并寻求技术支持。

检查接口的介质状态

如果检查后确认接口使能联动状态是成功的,但是接口仍然Down,可以再检查接口的介质状态,排查确认是否硬件、环境等因素导致的。

  • 以太网光接口
    1. 检查介质是否在位:

      执行命令display interface transceiver,如果命令行没有回显或者回显异常,说明介质没有在位,可能是介质没有插紧的原因,此时可以尝试拔插模块恢复。

      使用**display device slot **可以批量查询介质是否在位。

    2. 检查介质型号是否匹配:

      执行命令display interface

      interface-type interface-number

      transceiver verbose,检查光模块信息。

      <HUAWEI> display interface 10ge 1/0/1 transceiver verbose  
        
        10GE1/0/1 transceiver information: 
      -------------------------------------------------------------------
        Common information:  
        Transceiver Type                      :1000BASE_SX   //模块类型  
        Connector Type                        :LC            //光纤接口类型  
        Wavelength (nm)                       :850           //光波长  
        Transfer Distance (m)                 :150(62.5um/125um OM1)    
                                               300(50um/125um OM2)    
                                               400(50um/125um OM4)  
        Digital Diagnostic Monitoring         :YES   
        Vendor Name                           :SumitomoElectric   
        Vendor Part Number                    :SCP6F86-GL-CWH  
        Ordering Name                         : 
      ------------------------------------------------------------------- 
       Manufacture information:  
        Manu. Serial Number                   :7YK056C08623  
        Manufacturing Date                    :2007-11-13  
        Vendor Name                           :SumitomoElectric 
      ------------------------------------------------------------------- 
       Alarm information:  
         Non-Huawei-Ethernet-Switch-Certified Transceiver  
         LOS alarm 
      -------------------------------------------------------------------
      
      • 根据Transceiver Type项查看光模块类型和对端是否匹配。比如对端使用GE光模块,本端使用10GE光模块,那么接口不会Up,用户可以根据实际情况更换本端或者对端的光模块,使两端的光模块速率一致。

        根据Manu. Serial Number项查看铜缆的序列号和对端是否一致。如果不一致,用户可以根据实际情况更换部件,使铜缆两端的序列号保持一致。

      • 根据Transfer Distance项查看光模块的传输距离,根据当前所用光纤类型,判断其长度是否在光模块支持的传输距离范围内。例如:上述回显中,OM1类型光纤支持传输距离为150米,如果实际传输距离超过150米,则需要更换更高级别的光纤。

      • 根据Alarm information项判断光模块是否华为非认证的光模块。如果显示“Non-Huawei-Certified Transceiver”或“Non-Huawei-Ethernet-Switch-Certified Transceiver”的告警信息,则表示当前使用的光模块为非华为认证光模块,需要更换为华为认证光模块。

      • 如果Alarm informationLOS Alarm告警,则表示本端光模块没有接收到光信号,说明链路出现异常。怀疑对端异常或者光纤光模块异常。可以在接口视图下执行命令display this查看两端接口是否被shutdown,如果接口shutdown了,则执行undo shutdown操作,如果没有被shutdown,还需要检查光模块与光纤是否正常。

    3. 检查收发光功率是否正常:

      执行命令display interface

      interface-type interface-number

      transceiver verbose,检查收发光功率是否正常。

      <HUAWEI> display interface 10ge 1/0/1 transceiver verbose 
      
      ...... 
      ------------------------------------------------------------------- 
       Diagnostic information:  
         Temperature (Celsius)                 :33.68    
         Voltage (V)                           :3.29   
         Bias Current (mA)                     :7.97  
         Bias High Threshold (mA)              :13.20  
         Bias Low Threshold (mA)               :4.00  
         Current RX Power (dBm)                :-2.15 
         Default RX Power High Threshold (dBm) :1.00  
         Default RX Power Low Threshold (dBm)  :-11.90 
         Current TX Power (dBm)                :-2.07  
         Default TX Power High Threshold (dBm) :1.00  
         Default TX Power Low Threshold (dBm)  :-9.30 
      -------------------------------------------------------------------
      
      • 如果接收功率低(Current RX Power小于Default RX Power Low Threshold),说明对端发送的信号不好,则可能出现接口Down或者Up后报文收发有丢弃,此时请先排查传输距离是否过远,超出了该光模块的传输距离,再排查光模块、光纤是否匹配,是否有脏污或者损坏。

      • 如果接收功率高(Current RX Power大于Default RX Power High Threshold),说明对端信号太强,可能原因是该光模块为长距光模块,而实际传输距离太短,导致信号未衰减,此时应在光模块上增加光衰,以对光模块进行保护。

      • 如果发送功率低(Current TX Power小于Default TX Power Low Threshold),说明该光模块发送信号不好或者光模块本身故障,可能会导致对端接收功率低,而造成接口Down或者Up后报文收发有丢弃,建议更换光模块或者与技术支持人员联系。

      • 如果发送功率高(Current TX Power大于Default TX Power High Threshold),说明该光模块发送信号太强,可能会导致对端接收功率高,而造成对端光模块因接收功率持续过高而烧坏,可能原因是本端光模块故障,建议更换光模块。

    4. 检查光纤光模块是否匹配

      • 确认光模块类型。

        光模块上一般会标明:速度等级、中心波长、模式(单模(SM)/多模(MM))将光模块插入匹配的接口,执行命令display interface transceiver查询。

      • 确认使用的光模块和光纤是否匹配

        • 单模光模块(一般波长为1310nm、1550nm)对应单模光纤(一般是黄色)。

        • 多模光模块(一般波长为850nm)对应多模光纤(一般是橙色)。

      • 彩色光模块:如果使用的是彩色光模块,则需要通过wavelength-channel

        channel-number

        命令手动配置彩色光模块中心波长对应的波道号,并检查对接的两端接口上的光模块波长是否一致。

    5. 检查光模块外环测试是否正常。

      用一根光纤将光模块的TX侧和RX侧连接起来,对光模块进行自环测试(长距离光模块必须通过光衰器件互连),如果接口指示灯常亮,接口可以Up,说明本侧的接口和光模块正常;否则说明接口或者光模块可能存在问题,建议更换正常的光模块或者接口测试。

      进行环回测试时,务必防止环路。并且在进行外环回测试时,防止光模块接收光功率太高对模块产生影响。通常选用短距光模块配合多模光纤进行外环回测试,并且需要通过光模块信息查询命令检查接收光功率,确保接收光功率低于接收光最高门限值。

    6. 交叉测试是否正常。

      进行模块及光纤链路的交叉测试,根据交叉测试结果判断故障点:本端接口、本端光模块、光纤链路(包括光纤、跳线架、熔纤点、分光器以及波分传输等中间设备)、对端光模块、对端接口的问题。

      • 如果中间经过传输或波分等中间设备,测试绕过或者更换中间设备,如果能正常Up,说明和中间设备有关。

      • 更换光纤、跳线架,如果能正常Up,说明和光纤链路有关。

      • 更换本端光模块后如果能正常Up,则本端光模块有问题。

      • 本端更换为其他接口如果能正常Up,说明本端接口有问题。

      • 更换对端光模块后如果能正常Up,说明对端光模块问题。

      • 更换对端接口后如果能正常Up,则对端接口有问题。

      请优先考虑更换光模块及光纤,链路中间有波分或者其它传输设备的,尝试移除传输设备直接对接,或者更换传输设备。其次再通过更换接口和设备,定界是否与特定的接口或者设备有关系。

  • 以太网电接口
    1. 检查电缆状态。在接口视图下执行命令virtual-cable-test查看电缆状态,如果显示状态不是OK,例如显示OpenShort,请更换电缆。
    2. 检查是否连接了正确的接口。

检查接口配置是否正确

如果检查后确认接口的介质状态也是正常的,则可以再排查是否由于接口相关的配置导致的。影响接口UP的功能主要有以下几种:

  1. 接口协商状态

    对接的两端接口的协商状态需要保持一致,如果协商状态不一致,可能会导致接口Down。此时需要将对接的两端接口配置相同的协商状态。

    执行命令display interface interface-type interface-number,检查两端设备互连接口协商状态是否一致。

    <HUWEI> display interface 10ge 1/0/1 
    10GE1/0/1 current state : DOWN (ifindex: 52) 
    Line protocol current state : DOWN  
    Description:  
    Switch Port, PVID :    1, TPID : 8100(Hex), The Maximum Frame Length is 9216 
    Internet protocol processing : disabled 
    IP Sending Frames' Format is PKTFMT_ETHNT_2, Hardware address is e468-a357-cbc1 
    Port Mode:    COMMON COPPER,     Port Split/Aggregate:         DISABLE 
    Speed:                 1000,     Loopback:                        NONE 
    Duplex:                FULL,     Negotiation:                   ENABLE 
    Input Flow-control: DISABLE,     Output Flow-control:          DISABLE 
    Mdi:                   AUTO,     Fec:                             NONE 
    Last physical up time   : - 
    ...
    
    • GE光接口或10GE光接口在插入SFP-GE电模块或者SFP-GE光模块后,40GE光接口插入高速线缆后,缺省都工作在自协商模式,并且支持通过negotiation disable配置接口工作在非自协商模式。当接口的非自协商模式生效后,如果用户更换了模块,且新模块不支持negotiation disable配置,例如GE光接口插入了SFP-FE光模块,10GE光接口插入了SFP+光模块,40GE光接口插入QSFP+光模块,这种情况下接口将处于Down状态。此时用户可以在接口视图下执行undo negotiation disable删除原有的非自协商模式的配置,使得接口的状态重新变为Up。

    • 针对40GE光接口,当接口插入高速线缆时,缺省工作在自协商模式,如果对端设备的接口不支持自协商,此时就需要使用negotiation disable命令配置本端40GE接口工作在非自协商模式。

    • CE-L36LQ-EG单板的40GE接口通过无源QSFP+高速线缆与部分类型网卡(如Mellanox网卡)对接时,由于40GBASE-CR4协商协议的差异,会导致接口无法Up,用户可以通过关闭该接口的自协商功能使接口恢复Up。

    # 关闭10GE1/0/1自协商。

    <HUAWEI> system-view 
    [~HUAWEI] interface 10ge 1/0/1 
    [~HUAWEI-10GE1/0/1] negotiation disable 
    [*HUAWEI-10GE1/0/1] commit
    
  2. 接口速率

    如果对接的两端接口速率不一致,会导致协商出现问题,可以尝试手动配置接口速率。如果速率显示auto,说明底层链路未建立,此时可以先排查其他的可能性,或交叉其他接口缩小故障范围。

  3. FEC状态

    通过display interface命令可以查询接口的FEC状态,如果对接的两端接口FEC状态不一致,接口也无法UP。此时可尝试关闭协商后使用fec mode命令手动配置。

  4. 双工模式

    以太网的物理层存在半双工和全双工两种模式。两端接口的双工模式要求一致,否则接口将无法UP。

  5. 接口拆分如果接口上没有正确配置接口拆分操作或者使用合适的拆分线缆,则可能会导致接口Down。比如在40GE接口未做拆分的情况下,通过一分四线缆与对端设备的4个10GE接口对接时,本端设备40GE接口不能Up,指示灯为灭,对端4个10GE接口可能UP,指示灯为亮,但是接口不能正常工作。需要正确配置接口拆分操作或者更换合适的拆分线缆。

  6. Fault检测滤波
    Fault检测的滤波功能是在接口Fault检测时增加的过滤功能,可以避免接口因链路信号抖动等原因导致的频繁的Up/Down状态变化,提高链路的稳定性。使能接口Fault检测的滤波功能后,可能会造成短暂的本端接口Up,对端接口Down的现象。如果对接的两台设备都支持接口Fault检测的滤波功能,建议两端设备同时开启此功能。如果一端设备支持,另一端设备不支持接口Fault检测的滤波功能,建议关闭接口Fault检测的滤波功能。

  7. 环回检测功能
    如果对端配置了接口环回检测功能,则可能会导致本端接口Down。此时可以尝试关闭对端的接口环回检测功能。
    在进行某些特殊功能测试时,例如初步定位以太网故障时,可以开启以太网接口环回检测功能,测试接口功能是否异常。
    配置内环回检测功能会影响其他功能使用,可能导致接口或链路无法正常工作。测试完毕后,需要及时执行undo loopback命令取消环回,关闭环回检测功能后将恢复原有配置。自协商、接口流量控制、接口流量控制自协商、接口速率、FEC、电接口的能效以太网功能配置建议不要与接口环回检测功能叠加配置,否则对应的配置可能不生效。

  8. 单纤功能
    “单纤”是指光模块之间只通过一根光纤连接,“单向”是指报文只能由发送端向接收端发送报文,无法反向发送。
    光模块一般包含发送端(TX)和接收端(RX)。光接口对接时需要使用两根光纤将一端光模块TX端与另一端RX连接,一端光模块RX端与另一端TX连接。设备分别通过两根独立光纤进行报文的发送和接收。接口未使能单纤通信功能时,如果光接口之间仅连接一根光纤,设备之间将无法通信。接口下配置了single-fiber enable命令后,设备之间可实现单向通信功能。
    在配置了单纤单向通信功能后,如果接口上不插光模块或者插上的是单纤双向光模块或者高速线缆,则接口会处于Down状态。此时可以通过更换光模块(使用非单纤双向光模块)尝试恢复。如果没有光模块,则可以在接口下执行device transceiver

  9. 节能协议
    光接口激光器自动关断ALS:通过配置光口的ALS功能,可以对光模块激光器的发光进行控制,当接口光纤不在位或光纤链路发生故障时,激光器自动关闭发光功能,从而实现节能减排,同时也避免激光灼伤人的眼睛。
    电接口能效以太网EEE:此功能只在电接口(管理网口除外)上支持,配置了此功能后,当接口处于业务空闲状态时,系统将会自动调节给该接口的供电,进入低功耗模式,即休眠状态,这样能够节省系统的总体能耗;当接口开始正常传输数据时,则恢复正常供电。
    电接口接口休眠:此功能只在GE电接口(管理网口除外)上支持通过配置电接口接口休眠功能,可以实现接口闲置时自动关闭,节约用电。
    当接口上配置了以上一种或几种节能协议时,可以先排查配置是否正确。

举例:为什么支持GE光模块的接口插入GE光模块后不UP?

故障现象

10GE光接口支持GE光模块,但是插入GE光模块后物理层不UP,查看接口状态如下:

<HUAWEI> display interface 10ge 1/0/1
10GE1/0/1 current state : DOWN (ifindex: 9)
Line protocol current state : DOWN
Description:
Switch Port, PVID :    1, TPID : 8100(Hex), The Maximum Frame Length is 9216
Internet protocol processing : disabled
IP Sending Frames' Format is PKTFMT_ETHNT_2, Hardware address is 0025-9e01-0204
Port Mode:     COMMON FIBER,     Port Split/Aggregate:         DISABLE
Speed :               10000,     Loopback:                        NONE
Duplex:                FULL,     Negotiation:                        -
Input Flow-control: DISABLE,     Output Flow-control:          DISABLE
Mdi:                      -,     Fec:                                -
Last physical up time   : -
Last physical down time : 2020-04-10 03:12:43
Current system time: 2020-04-13 10:42:27
......

常见原因

  • 接口UP的前置条件不满足。
  • 光模块未插紧或光纤故障。
  • 光模块型号等使用不合理。
  • 光纤传输模式、长度等使用不合理。
  • 本端和对端协商失败。
  • 光模块故障。

故障处理步骤

  1. 确保接口未被shutdown强制关闭,或者未处于堆叠快速升级、设备平滑等过程中。

    使用display system internal device port命令可以查看接口10GE1/0/1的内部诊断信息。

    <HUAWEI> display system internal device port 10ge 1/0/1
    Port create related check:
    --------------------------------------------------------------------------------
    Item             LogicCfg         PhyCfg           Picm             IsPass
    --------------------------------------------------------------------------------
    board module     0x3000001f       0x3000001f       N/A              YES
    board device     0x14000207       0x14000207       N/A              YES
    lfe device       0x80000000       0x80000000       N/A              YES
    pic module       0x50000020       0x50000020       N/A              YES
    pic device       0x43000006       0x43000006       N/A              YES
    panelport 1      0x50000004       0x50000004       N/A              YES
    media type 1     --               --               N/A              NO
    port device      0x6000002f       0x6000002f       N/A              YES
    --------------------------------------------------------------------------------
    
    Port enable related check:
    --------------------------------------------------------------------------------
    DevType          AttrName         AttrValue        ExpectValue      IsPass
    --------------------------------------------------------------------------------
    board            isFastUpgrade    0                == 0             YES
    PhyLpuBrd        isIssuUpgrade    0                == 0             YES
    PhyLfe           Status           0x10001          != 0             YES
    port             isAvailable      0x1              == 1             YES
    port             isshut           0x1              == 1             YES
    port             portlfeisup      0x1              == 1             YES
    port             portissuup       0                == 0             YES
    port             triggerShut      0x1              == 1             YES
    port             port12x100gDown  0                == 0             YES
    port             phyportisshut    0x1              == 1             YES
    --------------------------------------------------------------------------------
    
    Port physical related check:
    --------------------------------------------------------------------------------
    Link    Enable    Speed    Negotiation     Loopback
    --------------------------------------------------------------------------------
    DOWN    DISABLE   100000   DISABLE         PHY
    --------------------------------------------------------------------------------
    

    上述查询内容中,只要“Port enable related check”中有任何一个“IsPass”项不为“YES”,则接口都不会UP。

  2. 执行命令display interface [ interface-type interface-number ] transceiver verbose,查看光模块信息是否异常。

    • 如果存在告警信息,请尝试插紧光模块、更换光纤,并执行命令restart重启接口。

      -------------------------------------------------------------------
       Alarm information:
          LOS Alarm
      -------------------------------------------------------------------
      
    • 如果没有告警,检查光模块的光功率是否在正常工作范围。即,Default RX Power Low Threshold < Current RX Power <Default RX Power High Threshold且Default TX Power Low Threshold < Current TX Power < Default TX Power High Threshold。

      -------------------------------------------------------------------
       Diagnostic information:
         Temperature (°C)                     :34.77
         Voltage (V)                           :3.29
         Bias Current (mA)                     :7.19
         Bias High Threshold (mA)              :10.50
         Bias Low Threshold (mA)               :2.50
         Current RX Power (dBM)                :-2.19
         Default RX Power High Threshold (dBM) :3.01
         Default RX Power Low Threshold (dBM)  :-15.02
         Current TX Power (dBM)                :-2.57
         Default TX Power High Threshold (dBM) :3.01
         Default TX Power Low Threshold (dBM)  :-9.00
      ------------------------------------------------------------------- 
      
  3. 确保本端和对端光模块的速率(同为10GE或同为1GE)、波长一致。对端设备的光模块需要确保处于正常发送光信号状态。

    根据如下方法查看光模块的波长,判断两端是否一致:在用户视图、系统视图或接口视图下执行命令display interface transceiver verbose,查看光模块详细信息。

    <HUAWEI> display interface transceiver verbose
    
     10GE1/0/1 transceiver information:
    -------------------------------------------------------------------
     Common information:
       Transceiver Type                    :10GBASE_Passive_Copper_Cable
       Connector Type                        :-
       Wavelength (nm)                     :850
       Transfer Distance (m)                 :1(Copper)
       Digital Diagnostic Monitoring         :NO
       Vendor Name                           :TIME
       Vendor Part Number                    :D09181-4A
       Ordering Name                         :
    -------------------------------------------------------------------
     Manufacture information:
       Manu. Serial Number                   :D132810062
       Manufacturing Date                    :2013-10-08
       Vendor Name                           :TIME
    -------------------------------------------------------------------
     Alarm information:
    -------------------------------------------------------------------
                                                                                    
    
  4. 确保本端和对端光模块的光纤传输模式一致(单模或多模),确保使用适当长度的光纤。

    光模块中光信号传输使用的不同波段可以传输不同的距离,根据光信号在光纤中传输时存在损耗和色散程度不同,光模块的传输距离分为:短距、中距、长距。一般认为2km以下为短距;10~20km为中距;更远的为长距。CE系列交换机支持的光模块传输距离可达80km。

    常用的光模块工作波长信息有如下几种:

    • 850nm:光模块为多模光模块。多用于短距离传输。

    • 1310nm:光模块多为单模光模块,也有多模的。多用于中长距离传输。

    • 1550nm:光模块为单模光模块。多用于长距离传输。

    光纤标识:

    • 单模光纤一般为黄颜色,多模光纤一般为橘红色。
    • 一般情况下,多模光模块拉环颜色为黑色,单模光模块拉环颜色为蓝色;也可以通过光模块上的标签识别单模或多模:SM表示单模,MM表示多模。

    在使用光模块和光纤的时候,需要注意以下几点:

    • 多模光模块必须配合多模光纤使用;单模光模块一般配合单模光纤使用,也可使用多模光纤。单模光模块使用单模光纤,传输距离一般在10km以上。

    • 如果传输距离较长,光模块需要使用光衰减器(防止光功率过高)。

    • 如果传输距离较短,不要使用较长光纤。

  5. 一般情况下,在10GE接口插入GE光模块或GE光电模块时,可以支持配置自协商功能,但是部分设备款型的10GE/25GE光接口插入GE光模块后不支持自协商。具体支持情况和使用约束,可以通过以下两种途径获取。如果是GE光模块或GE光电模块,请确保本端和对端的协商方式、速率保持一致。

  6. 用一根光纤连接同一个光模块的接收端和发送端,形成光模块自环,观察接口能否Up。如果能Up,说明是外部光纤问题,需要更换光纤;如果不能Up,则可能是接口问题,请联系技术支持人员处理。

4、收集信息并寻求技术支持

如果以上几种操作仍然无法定位出接口Down的原因,可以收集信息并寻求技术支持。

  • 收集上述步骤的操作结果,并记录到文件中。

  • 一键式收集设备的所有诊断信息并导出文件。

    1. 在用户视图下,执行display diagnostic-information

      file-name

      命令,采集设备诊断信息并保存为文件。

      <HUAWEI> display diagnostic-information dia-info.txt 
      Now saving the diagnostic information to the device 
       100% 
      Info: The diagnostic information was saved to the device successfully.
      

      生成的文本文件的缺省保存路径为flash:/,您可以在用户视图下使用dir命令可以确认文件是否正确生成。

    2. 当诊断信息文件生成之后,您可以通过SFTP、SCP等方式将其从设备上导出。

  • 收集设备的日志和告警信息并导出文件。

    1. 执行以下命令,将缓冲区的日志和告警信息保存为文件。

      <HUAWEI> save logfile      //收集普通用户日志 
      <HUAWEI> system-view 
      [~HUAWEI] diagnose 
      [~HUAWEI-diagnose] save logfile diagnose-log      //收集诊断日志 
      [~HUAWEI-diagnose] collect diagnostic information      //收集操作系统诊断信息
      
    2. 当日志信息文件生成之后,您可以通过SFTP、SCP等方式将其从设备上导出。

  • 寻求技术支持。

    请您参考如下网页链接信息e.huawei.com/cn/how-to-b…,寻求技术支持。