ZSTACK · 答客问 | 高频问题合集本期QA涵盖4 个话题、12 个具体问题，包括存储容量异常、安全加固翻车、云主

云轴科技ZStack 每周整理近期客户在使用过程中提出的高频问题，集中作答后向全量用户同步。这不是一份文档更新通知，而是一次真实问题的还原——提问的是你们，整理的是我们，希望答案对更多人有用。

本周共整理了 4 个话题、12 个具体问题，覆盖存储容量异常、安全加固翻车、云主机性能与迁移、网络变更导致集群失联。如有问题未被覆盖，欢迎通过支持渠道继续提交。

1. 主存储还剩 20%，云主机却创建失败了？

90% 的容量问题都不是"真的满了"

Q1、存储没满，业务为什么无法正常运行？

云平台的容量不是一个大池子，而是多个独立空间叠加运行。总量显示 80% 使用率，不等于每个子空间都安全——某一块到顶，对应操作就会失败。

空间类型	常见误区
主存储总量	以为没到 100% 就安全
可分配容量（availableCapacity）	这个值是 0 时，创建就会失败
镜像缓存池	创建云主机都会先占用这里
系统盘 + 日志目录	经常被忽略，却是工单重灾区
备份 / 快照周转空间	备份任务失败，往往是这里先爆

遇到"明明有空间但创建失败"，先跑这两条：

1 # 看逻辑卷状态
2 pvs && vgs
3
4 # 看各分区实际使用率
5 df -Th

Q2、想快速过一遍容量风险，点位在哪？

按顺序查，5 分钟心里有数：

1. 管理节点磁盘：df -h + du -h / --max-depth=1 --exclude=/proc | grep G
2. 存储池总量 vs 可分配量：重点看 availableCapacity 是否为 0
3. 日志盘：日志堆积等是最常见的占用来源
4. 告警阈值：阈值设置太宽松，等告警响的时候已经晚了

Q3、什么情况下该扩容，而不是继续清理？

出现以下任意一种，请及时走扩容流程：

• 主存储长期处于 80%+ 高水位，清理只能撑一周
• 克隆、备份、快照任务开始频繁失败
• 业务增长是可预期的趋势，不是短期波动
• 巡检报告已经连续 3 个月提示容量风险

记住：清理解决的是历史包袱，扩容解决的是未来问题。等迁移、升级撞上容量红线，变更窗口会更难排。

立即行动

• 跑一遍 df -Th，看系统盘 / 备份盘 / 日志盘是否在高位
• 查存储池的 availableCapacity，确认可分配空间充足
• 清理 90 天未操作的快照、废弃镜像、可疑日志
• 确认关键节点已配置有效容量告警阈值

如果空间清理后问题依旧，或者容量已经逼近红线，欢迎联系支持团队做进一步诊断。

2. 安全加固后平台反而出现异常了？

动作做了，边界没看清——三个高频踩坑一次说清

Q1、加固完平台就异常，哪里最容易踩雷？

三个高危区，逐一拆解：

① 端口收紧，误伤了集群内部通信

平台内部节点之间有大量必须通信的端口，一旦被收口：集群心跳断了 HA 开始误判；存储面和管理面失联任务全部卡住；证书验证失败部分调度判断直接跳过。

如果你用的是 chronyd 做时间同步，加固时别直接封 123/udp。时间同步异常，证书、HA、调度判断都会受影响。

② 禁用登录方式，影响了管理面服务

为了"更安全"直接禁用某些认证路径，结果可能是管理控制台无法正常登录、API 调不通、节点加入集群失败。

③ 直接手工改配置，没用经过验证的加固方法

不同版本、不同环境，加固方案不能照搬。先在测试环境验证测试，再上生成环境执行变更。

Q2、忘记控制台密码，或者改完密码平台失联了怎么办？

云主机控制台密码重置：

1. 进入云主机 → 更多操作 → 系统配置
2. 找到"设置控制台密码"，先取消，再重新设置
3. 重启云主机生效

建议放在维护窗口做，别在业务高峰期临时操作。

Q3、哪些加固动作推荐做，哪些不建议直接硬改？

推荐坚持做：强密码策略 + 定期轮换；控制台密码、数据库密码规范化；敏感操作有审计记录；用户权限分级。

不建议在生产环境直接硬改：未核验影响就收紧集群内部通信端口；未确认兼容性就禁用关键登录方式；底层root密码改了但平台侧配置没同步；在业务高峰期执行安全变更。

立即行动

• 确认当前加固方案是否经过测试环境验证
• 检查集群内部通信端口是否仍然可达（尤其 22/SSH、443/API、2379/etcd 相关）
• 核对控制台密码、数据库密码是否存在"底层改了但平台未同步"
• 把后续安全变更统一排进低峰期维护窗口

如果加固后已经出现服务异常、HA 失效或管理面报错，请勿重复尝试操作，避免扩大影响——联系支持团队做一次系统性诊断。

03. 云主机装好了，为什么性能还是差、迁移失败？

Guest Tools、Virtio、CPU 模式——三个最容易忽视的底层配置

Q1、云主机能用，为什么性能一直不对？

"能用"和"用得顺"之间，差的是运行优化。三个最常见的性能杀手：

问题	典型表现	排查方向
Guest Tools 未安装 / 安装不完整	监控数据不准、性能比预期差	检查是否使用了平台推荐的安装方式
磁盘模式未按推荐配置	IO 延迟高、磁盘性能上不去	确认是否使用了 virtio-scsi 或推荐模式
关键配置修改后未规范重启	改完参数后问题依旧	通过平台界面完成规范重启，不是直接重启系统

小提示：云主机安装完 VMTools 后，网卡可能会从 e1000 变成 virtio。如果是云主机系统内配置了静态 IP，云主机重启后 IP 会丢失，需要重新配置静态IP。

Q2、热迁移总失败，为什么通常不是网络问题？

热迁移失败最常被误判为"网络问题"或"平台偶发"，但实际上 80% 以上和 CPU 模式与兼容性有关。

典型踩坑场景：

1. 跨 CPU 型号迁移：源物理机和目标物理机 CPU 能力不一致，直通模式迁移云主机会直接报错
2. 选了直通又想要迁移灵活性：高性能和跨节点迁移在某些场景下是矛盾的
3. 业务高峰期强行迁移：内存脏页 + 磁盘 IO + 网络波动叠加，迁移窗口根本不够用

实操案例：一台云主机迁移时提示"区域内没有目标物理机"，最后排查发现是 CPU 直通模式 + 源集群 CPU 型号不一致。把 CPU 模式改成 none 后迁移成功。

如果你需要的是"稳定的跨节点迁移能力"，建议优先选 none 或更通用的 CPU 模式；如果追求极致性能且不需要迁移，再考虑直通模式。

Q3、新购云主机或做模板前，最值得先做什么？

重复工单里，很大一部分问题其实在模板阶段就埋下了。建议模板制作前完成这 4 件事：

1. 统一 Guest Tools 安装规范：不要每次现装现配
2. 确认磁盘模式和驱动符合推荐做法：尤其是 Windows 模板
3. 有迁移需求的业务，提前确认 CPU 模式：避免迁移失败后再回溯调整

Windows 老系统迁移特别提示：从 Windows 2003 或更老系统迁移过来，安装性能优化工具经常遇到异常。推荐处理顺序：① 停止目标端云主机 → ② 先做快照再回滚 → ③ 检查是否挂载了 ISO，必要时先卸载 → ④ 在系统内执行工具挂载命令，重启后重装优化工具。

立即行动

• 抽查 3-5 台关键业务云主机，确认 Guest Tools 安装状态
• 对近期有性能异常或迁移失败的云主机，核查磁盘模式和 CPU 模式
• 确认当前 CPU 模式是否与业务迁移需求匹配
• Windows 模板用户：检查驱动和 Guest Tools 安装流程是否已标准化
• 近期有大规模新建或迁移计划：先做小范围验证

如果同类云主机反复迁移失败、驱动调整后问题依旧、跨节点性能差异明显——联系支持团队做兼容性评估。

04. 改完交换机配置，整个集群都失联了？

网络变更前必须确认的 3 件事

Q1、为何仅调整一台交换机，便引发大范围业务异常？

因为云平台的网络天然具有放大效应。几个典型场景：

• 物理机上的 bond 配置了多个 VLAN，但不同 VLAN 共用了同一个 MAC 地址 → MAC 漂移，全网不通
• 存储网络和管理网络混用同一个物理链路 → 一旦链路抖动，平台管理和存储 IO 同时受影响
• 上联口 trunk 没有放通新 VLAN → 以为只影响新业务，实际旧业务也断了

关键认知：网络变更后故障范围多大，不取决于你"改了多少"，而取决于有没有动到关键链路上的共享资源。

Q2、网络变更前，最该先确认什么？

按这个顺序过一遍，至少降低 80% 的异常风险：

① 确认四类网络用途边界
先把管理网络（集群内部通信）、业务网络（租户 workload）、迁移网络（热迁移）、存储网络（数据盘 IO）各自的用途、承载设备和物理路径理清楚。不要在没有边界图的情况下直接改配置。

② 交换机侧和主机侧配置一致性

检查项	常见问题
VLAN	两端是否一致？新增 VLAN 时 trunk allowed 是否同步放通？
聚合模式	LACP 协商是否正常？
上联链路	是否有链路聚合？是否配置了冗余路径？
交换协议	STP / RSTP 状态是否正常？

在接入交换机新增 VLAN 时，记得同步放通上联口 trunk，例如：switchport trunk allowed vlan add 136

Q3、改完后接口消失了，或者服务起不来，如何排查？

两个高频场景，对号入座：

场景 1：NetworkManager 和平台网卡管理冲突（麒麟系统）

物理机网桥上的 VLAN 接口莫名丢失，关也关不掉。解法：在真实网卡、bond、br_bond 的配置文件中都加上 NM_CONTROLLED=no，这样 NetworkManager 就不会和平台侧抢控制权。

场景 2：网卡配置写了 DHCP，现场根本没有 DHCP 服务器

物理机重装后 bond 网卡起不来，根因不是 bond 坏了，而是配置里全是 DHCP 模式，但机房根本没有 DHCP 服务——等请求超时才发现问题。解法：改成静态 IP 配置，重启网络服务。

立即行动

• 梳理当前环境中管理网络、存储网络、业务网络的物理边界
• 核对交换机侧和主机侧的 VLAN、聚合模式、上联配置是否一致
• 确认关键地址（管理 IP、存储 IP）是否有冗余路径保障
• 检查是否有 LACP hash 策略不一致导致的负载不均问题
• 近期有网络变更计划？先安排一轮小范围验证再动生产环境

如果变更后已经出现多节点同时异常、存储网络和管理面同时波动、无法判断问题在交换机侧还是主机侧——请勿重复尝试操作，避免扩大影响，联系支持团队协助定位。