面试官关注点:你是把安全当"加分项"还是"红线"?等保 2.0 过过没?RAM/KMS/堡垒机怎么用?最小权限落实到什么程度?
阿里对资深运维的要求:能独立对接等保测评、主导一次安全事件应急、建立账号+权限+密钥+审计闭环。
一、云上安全责任共担模型
阿里云负责「OF THE CLOUD」的安全
├── 物理机房
├── 虚拟化层
├── 底层网络
└── 云产品自身漏洞
客户负责「IN THE CLOUD」的安全
├── 账号与身份
├── 应用与数据
├── 网络配置(VPC、安全组)
├── 操作系统补丁
└── 合规落实
面试加分:清晰说出哪些是阿里云兜底、哪些是业务方责任,说明你真正理解云。
二、账号与身份(RAM / IAM)
2.1 阿里云账号体系
- 主账号:根账号,权限无穷,只用于注册 + 最初配置,日常禁用
- RAM 用户:子账号,按人/机器分配
- RAM 角色:可被用户/服务扮演(STS 临时凭证)
- 云 SSO / IDaaS:企业 IDP 单点登录(接入 AD/LDAP)
- 资源组:跨产品的资源分组,权限授权到资源组
2.2 最小权限(Least Privilege)
- 默认零权限,按需授权
- 用 AliyunXxxReadOnlyAccess 替代 FullAccess
- 敏感操作用 Condition 限制:来源 IP、时间、MFA
- 定期 Review:阿里云操作审计 + 访问分析,识别未用权限
2.3 密钥与凭证
| 类型 | 用途 | 管理 |
|---|---|---|
| AK/SK | 程序调用 API | 轮换、最小权限、禁止放代码 |
| STS Token | 临时凭证 | 24 小时内有效,推荐使用 |
| RAM 角色 for ECS | ECS 内免 AK 调 API | 生产机器强烈推荐 |
| 控制台密码 + MFA | 人工登录 | 必须开 MFA |
| SSH Key | ECS 登录 | 禁用密码登录,密钥认证 |
2.4 MFA 强制策略
控制台登录 → 所有用户强制 MFA
API 高危操作 → Condition 要求 MFA
SSH 登录 → 堡垒机 + MFA 二次认证
VPN 接入 → MFA
三、主机安全
3.1 云安全中心(Cloud Security Center / 云盾)
阿里云原生安全产品,主机层核心能力:
- 漏洞扫描:Linux CVE、Windows 补丁、Web 应用漏洞
- 基线检查:CIS 基线、等保基线、自定义
- 入侵检测:异常登录、挖矿程序、Webshell、反弹 Shell、横向移动
- 资产指纹:安装包、进程、启动项、端口、账号
- 日志审计:登录日志、进程启动、文件变更
- 病毒查杀
3.2 主机加固清单
账号:
- 禁用 root SSH 直接登录(
PermitRootLogin no) - 禁用密码登录(
PasswordAuthentication no),只用密钥 - 普通用户 + sudo 提权
- 无用系统账号锁定(
passwd -l) - 密码复杂度策略
/etc/security/pwquality.conf
SSH:
- 改默认端口(或堡垒机隔离)
- 限制源 IP(安全组 + 堡垒机)
-
MaxAuthTries 3 -
ClientAliveInterval 300 ClientAliveCountMax 2
服务:
- 关闭不必要服务(telnet、rsh、ftp)
- 防火墙(firewalld / iptables)配合安全组
文件系统:
- /tmp /var 独立分区 + noexec nosuid
- 关键文件
chattr +i(不可修改)
审计:
- auditd 开启,关键操作审计
- 命令历史 + 时间戳(HISTTIMEFORMAT)
- 禁止清理 history
3.3 内核与补丁
- Alibaba Cloud Linux(龙蜥):阿里维护,长期支持,上云首选
- 热补丁(kpatch/livepatch)处理无法重启的关键漏洞
- 定期安全更新(
yum update --security)
四、网络安全
4.1 分层防御
第一层:DDoS 高防 / BGP Anycast 清洗
第二层:WAF(HTTP 层)+ Anti-Bot
第三层:CDN / DCDN(分散流量)
第四层:SLB + 安全组(网络层)
第五层:主机防火墙 + 云安全中心
第六层:应用层认证鉴权 + 业务风控
4.2 WAF(Web Application Firewall)
- 规则集:OWASP Top 10、CC 防护、Bot 识别、0-day 虚拟补丁
- 部署形态:独立 WAF(通过域名解析到 WAF)、SLB 集成 WAF、CDN 侧 WAF
- 精准访问控制:自定义规则(UA / IP / 参数)
- 业务风控:薅羊毛、撞库、爬虫
4.3 DDoS 防护
| 产品 | 能力 | 场景 |
|---|---|---|
| 基础防护 | 5Gbps 免费 | 小业务 |
| DDoS 原生防护企业版 | 按带宽计费,集成到云产品 | 中大规模 |
| DDoS 高防 IP | T 级防护,独立 IP 牵引 | 大规模 + 被打过 |
4.4 零信任(Zero Trust)
- 原则:不默认信任任何内网流量,每次访问鉴权
- 实现:
- BeyondCorp 模式:基于身份 + 设备指纹 + 上下文
- 阿里云 SASE:零信任 + 安全接入
- SPIFFE / SPIRE:服务身份
4.5 API 安全
- 网关层认证(JWT/OAuth2)
- 签名防篡改(HMAC)
- 限流防爆破
- 审计所有 API 调用
五、数据安全
5.1 加密体系
| 层次 | 方案 |
|---|---|
| 传输加密 | TLS 1.2+、证书托管(SSL 证书服务) |
| 存储加密 | ESSD 加密盘、OSS SSE、RDS TDE |
| 应用层加密 | 字段级加密(身份证、手机号) |
| 密钥管理 | KMS + HSM(硬件加密机) |
5.2 KMS(密钥管理服务)
- CMK(Customer Master Key):主密钥,KMS 托管永不出 HSM
- Data Key:数据密钥,CMK 加密后可存业务侧
- 信封加密:Data Key 加密数据,CMK 加密 Data Key
- KMS 凭据管家:统一管理 DB 密码、AK/SK 等,自动轮换
5.3 数据分类与分级(等保 2.0 要求)
- 公开:无保护
- 内部:员工可访问
- 敏感:仅指定人员(用户个人信息)
- 绝密:加密 + 审计 + 访问留痕(身份证、支付信息)
5.4 敏感数据保护(SDDP)
阿里云产品,能力:
- 识别:扫描 RDS/OSS/MaxCompute,自动识别 PII(手机号、身份证、银行卡)
- 分级:自动打级
- 脱敏:查询返回时动态脱敏
- 审计:敏感数据访问日志
5.5 备份与容灾
- 3-2-1 原则:3 份备份、2 种介质、1 份异地
- 混合云备份 HBR:ECS、文件、数据库统一备份
- 定期恢复演练:至少季度一次
六、堡垒机(Bastion)
6.1 堡垒机核心价值
- 统一入口:禁止直连 ECS
- 权限管控:RBAC,用户 ↔ 资源 ↔ 协议
- 审计留痕:SSH 操作录屏、指令全量记录
- 密码托管:免记密码,堡垒机代理登录
- 双因子认证:MFA、短信、钉钉扫码
6.2 阿里云堡垒机
- 基于开源 JumpServer 商业化
- 支持 SSH/RDP/数据库(MySQL/Oracle/PG)
- 与 RAM/云 SSO 集成
6.3 落地原则
- 所有生产机访问必经堡垒机
- 运维用个人账号,不共享
- 高危操作命令黑名单(
rm -rf /、dd if=) - 操作录屏保留 ≥ 180 天
七、合规与审计
7.1 等保 2.0(GB/T 22239-2019)
等级划分:
- 一级:自主保护级(最低)
- 二级:指导保护级(一般业务)
- 三级:监督保护级(大部分互联网/金融业务)
- 四级:强制保护级(金融核心)
- 五级:专控保护级(军工)
三级要求核心域:
- 安全物理环境(云厂商负责)
- 安全通信网络(VPC、WAF、DDoS)
- 安全区域边界(安全组、堡垒机、IDS)
- 安全计算环境(主机加固、补丁、审计)
- 安全管理中心(SOC、日志集中、告警)
- 安全管理制度、机构、人员、建设、运维
阿里云等保合规包:一键勾选购买符合等保的产品组合,通过 云盾等保合规产品辅助测评。
7.2 其他合规标准
- ISO 27001:信息安全管理体系
- PCI DSS:支付卡行业(金融必过)
- GDPR:欧盟隐私法规(出海业务)
- 个人信息保护法 PIPL(国内)
- HIPAA:美国医疗
- SOC 2:服务组织控制
7.3 审计
- 操作审计 ActionTrail:所有阿里云 API 调用留痕 180 天+
- 配置审计 Config:资源配置历史 + 合规检查(比如"所有 ECS 必须加密")
- 日志审计 SLS:应用日志集中 + 长期归档
- 数据库审计 DMS/DAS:SQL 执行审计
八、K8s 安全
8.1 K8s 威胁面
- 暴露的 API Server(kubelet 8080 老版本,dashboard 未授权)
- 镜像带漏洞
- 特权容器(
privileged: true) - HostPath 挂载敏感目录
- RBAC 配置过松(cluster-admin 滥用)
- Secret 明文(etcd 未加密)
8.2 加固清单
- API Server:TLS 强制、匿名访问关闭、Webhook 认证
- RBAC:默认无权限,精细到 Verb + Resource
- Pod Security Standards:Restricted 级别禁特权、禁 hostNetwork
- 准入控制器:PodSecurity、OPA/Kyverno、ImagePolicyWebhook
- NetworkPolicy:默认拒绝,按需放行
- Secret 加密:EncryptionConfiguration + KMS
- etcd 加密:at-rest encryption
- 节点访问:禁止 kubelet 匿名访问、关闭只读端口
- 镜像:签名 + 漏洞扫描阻塞部署
- Runtime:gVisor / Kata 沙箱化高风险工作负载
- 审计日志:apiserver audit log 开启并收集
8.3 ACK 安全产品
- ACK Pro:自带加密 etcd、审计日志、CIS 检查
- 云安全中心 K8s 模块:集群安全巡检
- ACR 镜像安全:签名、扫描、不可变 tag
九、应急响应
9.1 常见安全事件
- 主机被入侵:挖矿、反弹 Shell、后门
- Webshell:应用层被植入
- 数据泄露:内部人员 / SQL 注入 / API 滥用
- DDoS 攻击:业务不可用
- 勒索病毒:数据加密勒索
- 供应链攻击:依赖包被投毒
9.2 应急流程
1. 发现(SOC 告警/外部通报)
2. 确认(是否真实,排除误报)
3. 隔离(被感染机器下线但不关机,保留现场)
4. 分析(日志、网络连接、进程、文件)
5. 止损(切断攻击路径、重置密钥、封 IP)
6. 恢复(备份还原、重建环境)
7. 复盘(根因 + 改进)
8. 上报(按合规要求通报监管)
9.3 取证要点
- 快照:内存 dump、磁盘快照
- 网络抓包:可疑连接保留 pcap
- 日志归档:SLS 相关日志标记长期保留
- 时间线:按攻击者活动梳理
9.4 重装还是清理
- 清理:后门是否能完全清干净?通常不能
- 原则:被入侵的主机 直接重装/销毁重建,不要尝试修复
- 预防复发:修补入侵用的漏洞、重置所有关联凭证
十、面试高频问答
Q1:怎么设计一个 RAM 权限体系? A:分层 + 最小权限:
- 按角色:开发(读开发资源)、测试(读生产 + 测试环境)、运维(管理权限 + 审批)、DBA(DB 相关)
- 按资源组:业务线/项目隔离
- 按权限策略:优先用系统策略 ReadOnly / PowerUser + 自定义 Deny
- Condition 限制:来源 IP(办公网 + VPN)、MFA 要求、时间窗
- 定期 Review:季度权限审计,清理未使用
Q2:AK 泄露怎么处理? A:5 分钟响应:
- 立即禁用 / 删除 AK(RAM 控制台)
- 查操作审计 ActionTrail 评估损失范围
- 生成新 AK 替换应用配置
- 排查泄露路径(Git 仓库、日志、监控截图)
- 事后:启用 RAM 角色 for ECS 或 STS,从机制上消除 AK
Q3:等保三级核心要求有哪些? A:关键词速答:
- 物理安全(云厂商负责)
- 网络安全:区域隔离(VPC)、安全组、IPS、WAF
- 主机安全:漏洞管理、基线、入侵检测、防病毒
- 应用安全:身份鉴别、访问控制、安全审计
- 数据安全:完整性、保密性、备份恢复
- 管理制度:操作规程、人员培训、应急预案、定期评估
Q4:K8s 中如何管理密钥? A:
- 避免:ConfigMap / Secret 明文放 Git
- 推荐:
- 外部 Secret Operator(External Secrets Operator)+ KMS/Vault
- SealedSecrets:Git 里存加密,集群控制器解密
- CSI Secret Store:运行时挂载
- etcd at-rest 加密 + RBAC 限制 Secret 读
Q5:一台 ECS 怀疑被入侵怎么排查? A:快速排查清单:
w/last/lastb:异常登录ps -ef+top:异常进程(挖矿通常 CPU 100%)netstat -antp/ss -antp:异常连接(连接 IRC、矿池)crontab -l+/etc/cron.*:计划任务后门ls -la /tmp /dev/shm:临时目录可疑文件lsof -p <pid>:可疑进程打开的文件history:命令历史(可能被清)/etc/passwd:新增账号find / -perm -4000:SUID 后门- 云安全中心告警 + SLS 登录日志
处理:快照留证 + 下线 + 重建,不要"修好继续用"。
Q6:WAF 和 IPS 的区别? A:
- WAF:应用层(HTTP/HTTPS),理解 SQL 注入、XSS、业务逻辑
- IPS:网络层,识别网络层攻击(端口扫描、漏洞利用包)
- 互补,WAF 入口层,IPS 内网东西向
Q7:如何给一个跨境业务做合规设计? A:多法规叠加:
- 出海 = 数据出境,评估 PIPL 合规(个人信息出境需安全评估)
- 目的国合规:欧盟 GDPR、加州 CCPA、新加坡 PDPA
- 数据本地化:敏感数据在 Region 内闭环
- 加密:传输 TLS、存储 SSE-KMS
- 同意链:用户同意记录可追溯
- DPO:数据保护官(GDPR 要求)
- 第三方审计:SOC 2、ISO 27001
Q8:0day 漏洞爆发了怎么快速响应? A:标准 SOP:
- 确认影响面(哪些机器/应用用了受影响组件)
- 官方补丁 / 临时缓解措施(WAF 规则、配置关闭、进程隔离)
- 优先级:公网暴露 > 内网高权限 > 内部普通
- 灰度打补丁,观察
- 全量修复 + 验证
- 复盘:供应链管理、依赖版本管理
Q9:Log4j 爆发时你怎么处理? A:经典考题,答题结构:
- 当晚:评估 log4j 2.x 使用面(全公司服务扫描依赖)
- 临时缓解:WAF 规则拦截
${jndi:+ 启动参数-Dlog4j2.formatMsgNoLookups=true - 分批升级:核心业务优先升到 2.17.x
- 复盘:建立 SBOM,下次 0day 能快速定位依赖
Q10:为什么说 "安全是默认打开的"? A:Secure by Default 原则:
- 默认拒绝 > 默认允许
- 默认加密 > 明文
- 默认 MFA > 密码
- 默认最小权限 > 宽泛权限
- 默认不公开 > 公开
- 默认记录 > 不审计
让工程师"主动关闭"安全措施时需要理由,而不是"主动开启"时才有保护。
十一、生产安全巡检清单
- 主账号 MFA 开启、AK 已删
- 所有 RAM 用户 MFA 强制
- 无公网开放的非必要端口(3306、6379、27017、2379)
- 所有 ECS 走堡垒机(安全组限制)
- SSH 密钥登录 + 禁用密码
- 云安全中心开启并告警接入
- 云盾 WAF / DDoS 覆盖公网入口
- 操作审计 ActionTrail 启用 + 归档 OSS
- RDS/Redis 白名单 VPC only
- KMS 管理所有敏感密钥 + 轮换
- K8s 所有 Pod 有 resources limits(防 DoS)
- 镜像扫描接入 CI,高危漏洞阻塞
- 备份策略 + 季度恢复演练
- 等保测评证书在有效期内
- 应急预案 + 联系方式更新
十二、必读资源
- 阿里云安全中心最佳实践文档
- 等保 2.0 基本要求(GB/T 22239-2019)
- CIS Benchmarks(Linux、Docker、K8s)
- OWASP Top 10
- NIST Cybersecurity Framework
- 《白帽子讲 Web 安全》