kube-ovn vxlan_sys_4789 down 问题

137 阅读4分钟

kube-ovn vxlan_sys_4789 down 问题, 这个问题出现的概率不大,但也是会遇到,一个集群中有多个节点,有时候会出现一个,和重启节点上的 network manager 感觉好像有关系


(v.v) ➜  Downloads grep -i NetworkManager -r /var/log/messages
May 29 09:19:31 node-02 NetworkManager[244091]: <info>  [1748481571.2623] manager: (e6ca2c9963d0_c): new Veth device (/org/freedesktop/NetworkManager/Devices/95)
May 29 09:19:31 node-02 NetworkManager[244091]: <info>  [1748481571.2635] manager: (e6ca2c9963d0_h): new Veth device (/org/freedesktop/NetworkManager/Devices/96)
May 29 09:19:31 node-02 NetworkManager[244091]: <info>  [1748481571.3549] device (e6ca2c9963d0_h): carrier: link connected
May 29 09:19:35 node-02 NetworkManager[244091]: <info>  [1748481575.8850] manager: (93eac906743c_c): new Veth device (/org/freedesktop/NetworkManager/Devices/97)
May 29 09:19:35 node-02 NetworkManager[244091]: <info>  [1748481575.8859] manager: (93eac906743c_h): new Veth device (/org/freedesktop/NetworkManager/Devices/98)
May 29 09:19:35 node-02 NetworkManager[244091]: <info>  [1748481575.9791] device (93eac906743c_h): carrier: link connected
May 29 10:47:10 node-02 NetworkManager[244091]: <info>  [1748486830.0382] device (vxlan_sys_4789): state change: unmanaged -> unavailable (reason 'connection-assumed', sys-iface-state: 'managed')
May 29 10:47:10 node-02 NetworkManager[244091]: <info>  [1748486830.0398] device (vxlan_sys_4789): state change: unavailable -> disconnected (reason 'none', sys-iface-state: 'managed')

你的日志显示,vxlan_sys_4789 这个虚拟网络接口的状态发生了变化,主要包括:

  1. 设备创建和连接

    • 早期时间(09:19:31 和 09:19:35),NetworkManager 创建了Veth设备(虚拟以太网接口对),并且连接状态显示“link connected”,表明虚拟网卡链路已连接。
  2. 状态变化

    • 在 10:47:10,vxlan_sys_4789 进入了“unmanaged”状态(由管理变为未管理),随后变成“unavailable”和“disconnected”。状态变化的原因是:

      • connection-assumed:系统假设连接信息,可能是因为检测不到网络连接或者网络配置发生了变化。
      • none:无明确原因,通常意味着接口被禁用、被手动断开,或网络配置变化导致接口状态变化。

可能原因包括:

  • 网络配置被手动修改或重启。
  • VXLAN 配置或相关虚拟网络设备被重新初始化或重启。
  • 相关服务(如NetworkManager)重启或重置网络状态。
  • 物理网络或虚拟网络底层的连接中断。
  • 系统更新或网络脚本调整。

简单总结:

vxlan_sys_4789 的状态变化,主要由网络管理策略或配置的变动引起,导致接口从“连接”状态变为“不可用”。若经常出现,建议检查网络配置脚本、虚拟网络的设置或者相关的服务状态。

NetworkManager 重启可能与 vxlan_sys_4789 变为 unavailable 有关系。

具体原因包括:

  • 网络接口管理变化

    • NetworkManager 控制虚拟网络接口,包括 VXLAN 和底层虚拟网卡。重启后,它会重新扫描、管理网络设备。
    • 如果在重启过程中,NetworkManager 重新配置、禁用或删除相关的虚拟接口,导致接口状态变为 unavailable
  • OVS与NetworkManager的协调问题

    • 有时候,NetworkManager 可能会影响OVS的配置或网络接口的连接。
    • 在重启后,如果OVS未能正确重新连接到网络或虚拟接口,接口状态可能会变成 unavailable
  • 配置刷新或冲突

    • 重启可能引起配置冲突,或写入新的配置导致接口被禁用。
    • 例如,重启后,OVS端的VXLAN隧道没有正常重新建立,接口变为不可用。
  • 服务启动顺序或延迟

    • 重启过程中,NetworkManager和OVS可能没有同步完成,导致某些虚拟接口暂时不可用。

结论:

  • 是的,NetworkManager重启可能会直接或间接引起 vxlan 接口状态变为 unavailable,特别是在网络配置、虚拟接口管理、OVS服务重新加载等环节。

如果觉得相关,可以查看重启前后:

  • ovs-vsctl show 输出,确认OVS端的配置状态。
  • ip link show,确认vxlan_sys_4789的状态。
  • journalctl 日志,观察NetworkManager和OVS重启或管理接口的详细信息。