kube-ovn vxlan_sys_4789 down 问题, 这个问题出现的概率不大,但也是会遇到,一个集群中有多个节点,有时候会出现一个,和重启节点上的 network manager 感觉好像有关系
(v.v) ➜ Downloads grep -i NetworkManager -r /var/log/messages
May 29 09:19:31 node-02 NetworkManager[244091]: <info> [1748481571.2623] manager: (e6ca2c9963d0_c): new Veth device (/org/freedesktop/NetworkManager/Devices/95)
May 29 09:19:31 node-02 NetworkManager[244091]: <info> [1748481571.2635] manager: (e6ca2c9963d0_h): new Veth device (/org/freedesktop/NetworkManager/Devices/96)
May 29 09:19:31 node-02 NetworkManager[244091]: <info> [1748481571.3549] device (e6ca2c9963d0_h): carrier: link connected
May 29 09:19:35 node-02 NetworkManager[244091]: <info> [1748481575.8850] manager: (93eac906743c_c): new Veth device (/org/freedesktop/NetworkManager/Devices/97)
May 29 09:19:35 node-02 NetworkManager[244091]: <info> [1748481575.8859] manager: (93eac906743c_h): new Veth device (/org/freedesktop/NetworkManager/Devices/98)
May 29 09:19:35 node-02 NetworkManager[244091]: <info> [1748481575.9791] device (93eac906743c_h): carrier: link connected
May 29 10:47:10 node-02 NetworkManager[244091]: <info> [1748486830.0382] device (vxlan_sys_4789): state change: unmanaged -> unavailable (reason 'connection-assumed', sys-iface-state: 'managed')
May 29 10:47:10 node-02 NetworkManager[244091]: <info> [1748486830.0398] device (vxlan_sys_4789): state change: unavailable -> disconnected (reason 'none', sys-iface-state: 'managed')
你的日志显示,vxlan_sys_4789 这个虚拟网络接口的状态发生了变化,主要包括:
-
设备创建和连接:
- 早期时间(09:19:31 和 09:19:35),NetworkManager 创建了Veth设备(虚拟以太网接口对),并且连接状态显示“link connected”,表明虚拟网卡链路已连接。
-
状态变化:
-
在 10:47:10,
vxlan_sys_4789进入了“unmanaged”状态(由管理变为未管理),随后变成“unavailable”和“disconnected”。状态变化的原因是:connection-assumed:系统假设连接信息,可能是因为检测不到网络连接或者网络配置发生了变化。none:无明确原因,通常意味着接口被禁用、被手动断开,或网络配置变化导致接口状态变化。
-
可能原因包括:
- 网络配置被手动修改或重启。
- VXLAN 配置或相关虚拟网络设备被重新初始化或重启。
- 相关服务(如NetworkManager)重启或重置网络状态。
- 物理网络或虚拟网络底层的连接中断。
- 系统更新或网络脚本调整。
简单总结:
vxlan_sys_4789 的状态变化,主要由网络管理策略或配置的变动引起,导致接口从“连接”状态变为“不可用”。若经常出现,建议检查网络配置脚本、虚拟网络的设置或者相关的服务状态。
NetworkManager 重启可能与 vxlan_sys_4789 变为 unavailable 有关系。
具体原因包括:
-
网络接口管理变化:
NetworkManager控制虚拟网络接口,包括 VXLAN 和底层虚拟网卡。重启后,它会重新扫描、管理网络设备。- 如果在重启过程中,
NetworkManager重新配置、禁用或删除相关的虚拟接口,导致接口状态变为unavailable。
-
OVS与
NetworkManager的协调问题:- 有时候,
NetworkManager可能会影响OVS的配置或网络接口的连接。 - 在重启后,如果OVS未能正确重新连接到网络或虚拟接口,接口状态可能会变成
unavailable。
- 有时候,
-
配置刷新或冲突:
- 重启可能引起配置冲突,或写入新的配置导致接口被禁用。
- 例如,重启后,OVS端的VXLAN隧道没有正常重新建立,接口变为不可用。
-
服务启动顺序或延迟:
- 重启过程中,
NetworkManager和OVS可能没有同步完成,导致某些虚拟接口暂时不可用。
- 重启过程中,
结论:
- 是的,
NetworkManager重启可能会直接或间接引起vxlan接口状态变为unavailable,特别是在网络配置、虚拟接口管理、OVS服务重新加载等环节。
如果觉得相关,可以查看重启前后:
ovs-vsctl show输出,确认OVS端的配置状态。ip link show,确认vxlan_sys_4789的状态。journalctl日志,观察NetworkManager和OVS重启或管理接口的详细信息。