09 安全与合规阿里对资深运维的要求：能独立对接等保测评、主导一次安全事件应急、建立账号+权限+密钥+审计闭环。一、

面试官关注点：你是把安全当"加分项"还是"红线"？等保 2.0 过过没？RAM/KMS/堡垒机怎么用？最小权限落实到什么程度？

阿里对资深运维的要求：能独立对接等保测评、主导一次安全事件应急、建立账号+权限+密钥+审计闭环。

一、云上安全责任共担模型

阿里云负责「OF THE CLOUD」的安全
├── 物理机房
├── 虚拟化层
├── 底层网络
└── 云产品自身漏洞

客户负责「IN THE CLOUD」的安全
├── 账号与身份
├── 应用与数据
├── 网络配置（VPC、安全组）
├── 操作系统补丁
└── 合规落实

面试加分：清晰说出哪些是阿里云兜底、哪些是业务方责任，说明你真正理解云。

二、账号与身份（RAM / IAM）

2.1 阿里云账号体系

主账号：根账号，权限无穷，只用于注册 + 最初配置，日常禁用
RAM 用户：子账号，按人/机器分配
RAM 角色：可被用户/服务扮演（STS 临时凭证）
云 SSO / IDaaS：企业 IDP 单点登录（接入 AD/LDAP）
资源组：跨产品的资源分组，权限授权到资源组

2.2 最小权限（Least Privilege）

默认零权限，按需授权
用 AliyunXxxReadOnlyAccess 替代 FullAccess
敏感操作用 Condition 限制：来源 IP、时间、MFA
定期 Review：阿里云操作审计 + 访问分析，识别未用权限

2.3 密钥与凭证

类型	用途	管理
AK/SK	程序调用 API	轮换、最小权限、禁止放代码
STS Token	临时凭证	24 小时内有效，推荐使用
RAM 角色 for ECS	ECS 内免 AK 调 API	生产机器强烈推荐
控制台密码 + MFA	人工登录	必须开 MFA
SSH Key	ECS 登录	禁用密码登录，密钥认证

2.4 MFA 强制策略

控制台登录 → 所有用户强制 MFA
API 高危操作 → Condition 要求 MFA
SSH 登录 → 堡垒机 + MFA 二次认证
VPN 接入 → MFA

三、主机安全

3.1 云安全中心（Cloud Security Center / 云盾）

阿里云原生安全产品，主机层核心能力：

漏洞扫描：Linux CVE、Windows 补丁、Web 应用漏洞
基线检查：CIS 基线、等保基线、自定义
入侵检测：异常登录、挖矿程序、Webshell、反弹 Shell、横向移动
资产指纹：安装包、进程、启动项、端口、账号
日志审计：登录日志、进程启动、文件变更
病毒查杀

3.2 主机加固清单

账号：

禁用 root SSH 直接登录（PermitRootLogin no）
禁用密码登录（PasswordAuthentication no），只用密钥
普通用户 + sudo 提权
无用系统账号锁定（passwd -l）
密码复杂度策略 /etc/security/pwquality.conf

SSH：

改默认端口（或堡垒机隔离）
限制源 IP（安全组 + 堡垒机）
MaxAuthTries 3
ClientAliveInterval 300 ClientAliveCountMax 2

服务：

关闭不必要服务（telnet、rsh、ftp）
防火墙（firewalld / iptables）配合安全组

文件系统：

/tmp /var 独立分区 + noexec nosuid
关键文件 chattr +i（不可修改）

审计：

auditd 开启，关键操作审计
命令历史 + 时间戳（HISTTIMEFORMAT）
禁止清理 history

3.3 内核与补丁

Alibaba Cloud Linux（龙蜥）：阿里维护，长期支持，上云首选
热补丁（kpatch/livepatch）处理无法重启的关键漏洞
定期安全更新（yum update --security）

四、网络安全

4.1 分层防御

第一层：DDoS 高防 / BGP Anycast 清洗
第二层：WAF（HTTP 层）+ Anti-Bot
第三层：CDN / DCDN（分散流量）
第四层：SLB + 安全组（网络层）
第五层：主机防火墙 + 云安全中心
第六层：应用层认证鉴权 + 业务风控

4.2 WAF（Web Application Firewall）

规则集：OWASP Top 10、CC 防护、Bot 识别、0-day 虚拟补丁
部署形态：独立 WAF（通过域名解析到 WAF）、SLB 集成 WAF、CDN 侧 WAF
精准访问控制：自定义规则（UA / IP / 参数）
业务风控：薅羊毛、撞库、爬虫

4.3 DDoS 防护

产品	能力	场景
基础防护	5Gbps 免费	小业务
DDoS 原生防护企业版	按带宽计费，集成到云产品	中大规模
DDoS 高防 IP	T 级防护，独立 IP 牵引	大规模 + 被打过

4.4 零信任（Zero Trust）

原则：不默认信任任何内网流量，每次访问鉴权
实现：
- BeyondCorp 模式：基于身份 + 设备指纹 + 上下文
- 阿里云 SASE：零信任 + 安全接入
- SPIFFE / SPIRE：服务身份

4.5 API 安全

网关层认证（JWT/OAuth2）
签名防篡改（HMAC）
限流防爆破
审计所有 API 调用

五、数据安全

5.1 加密体系

层次	方案
传输加密	TLS 1.2+、证书托管（SSL 证书服务）
存储加密	ESSD 加密盘、OSS SSE、RDS TDE
应用层加密	字段级加密（身份证、手机号）
密钥管理	KMS + HSM（硬件加密机）

5.2 KMS（密钥管理服务）

CMK（Customer Master Key）：主密钥，KMS 托管永不出 HSM
Data Key：数据密钥，CMK 加密后可存业务侧
信封加密：Data Key 加密数据，CMK 加密 Data Key
KMS 凭据管家：统一管理 DB 密码、AK/SK 等，自动轮换

5.3 数据分类与分级（等保 2.0 要求）

公开：无保护
内部：员工可访问
敏感：仅指定人员（用户个人信息）
绝密：加密 + 审计 + 访问留痕（身份证、支付信息）

5.4 敏感数据保护（SDDP）

阿里云产品，能力：

识别：扫描 RDS/OSS/MaxCompute，自动识别 PII（手机号、身份证、银行卡）
分级：自动打级
脱敏：查询返回时动态脱敏
审计：敏感数据访问日志

5.5 备份与容灾

3-2-1 原则：3 份备份、2 种介质、1 份异地
混合云备份 HBR：ECS、文件、数据库统一备份
定期恢复演练：至少季度一次

六、堡垒机（Bastion）

6.1 堡垒机核心价值

统一入口：禁止直连 ECS
权限管控：RBAC，用户 ↔ 资源 ↔ 协议
审计留痕：SSH 操作录屏、指令全量记录
密码托管：免记密码，堡垒机代理登录
双因子认证：MFA、短信、钉钉扫码

6.2 阿里云堡垒机

基于开源 JumpServer 商业化
支持 SSH/RDP/数据库（MySQL/Oracle/PG）
与 RAM/云 SSO 集成

6.3 落地原则

所有生产机访问必经堡垒机
运维用个人账号，不共享
高危操作命令黑名单（rm -rf /、dd if=）
操作录屏保留 ≥ 180 天

七、合规与审计

7.1 等保 2.0（GB/T 22239-2019）

等级划分：

一级：自主保护级（最低）
二级：指导保护级（一般业务）
三级：监督保护级（大部分互联网/金融业务）
四级：强制保护级（金融核心）
五级：专控保护级（军工）

三级要求核心域：

安全物理环境（云厂商负责）
安全通信网络（VPC、WAF、DDoS）
安全区域边界（安全组、堡垒机、IDS）
安全计算环境（主机加固、补丁、审计）
安全管理中心（SOC、日志集中、告警）
安全管理制度、机构、人员、建设、运维

阿里云等保合规包：一键勾选购买符合等保的产品组合，通过 云盾等保合规产品辅助测评。

7.2 其他合规标准

ISO 27001：信息安全管理体系
PCI DSS：支付卡行业（金融必过）
GDPR：欧盟隐私法规（出海业务）
个人信息保护法 PIPL（国内）
HIPAA：美国医疗
SOC 2：服务组织控制

7.3 审计

操作审计 ActionTrail：所有阿里云 API 调用留痕 180 天+
配置审计 Config：资源配置历史 + 合规检查（比如"所有 ECS 必须加密"）
日志审计 SLS：应用日志集中 + 长期归档
数据库审计 DMS/DAS：SQL 执行审计

八、K8s 安全

8.1 K8s 威胁面

暴露的 API Server（kubelet 8080 老版本，dashboard 未授权）
镜像带漏洞
特权容器（privileged: true）
HostPath 挂载敏感目录
RBAC 配置过松（cluster-admin 滥用）
Secret 明文（etcd 未加密）

8.2 加固清单

8.3 ACK 安全产品

ACK Pro：自带加密 etcd、审计日志、CIS 检查
云安全中心 K8s 模块：集群安全巡检
ACR 镜像安全：签名、扫描、不可变 tag

九、应急响应

9.1 常见安全事件

主机被入侵：挖矿、反弹 Shell、后门
Webshell：应用层被植入
数据泄露：内部人员 / SQL 注入 / API 滥用
DDoS 攻击：业务不可用
勒索病毒：数据加密勒索
供应链攻击：依赖包被投毒

9.2 应急流程

1. 发现（SOC 告警/外部通报）
2. 确认（是否真实，排除误报）
3. 隔离（被感染机器下线但不关机，保留现场）
4. 分析（日志、网络连接、进程、文件）
5. 止损（切断攻击路径、重置密钥、封 IP）
6. 恢复（备份还原、重建环境）
7. 复盘（根因 + 改进）
8. 上报（按合规要求通报监管）

9.3 取证要点

快照：内存 dump、磁盘快照
网络抓包：可疑连接保留 pcap
日志归档：SLS 相关日志标记长期保留
时间线：按攻击者活动梳理

9.4 重装还是清理

清理：后门是否能完全清干净？通常不能
原则：被入侵的主机 直接重装/销毁重建，不要尝试修复
预防复发：修补入侵用的漏洞、重置所有关联凭证

十、面试高频问答

Q1：怎么设计一个 RAM 权限体系？ A：分层 + 最小权限：

按角色：开发（读开发资源）、测试（读生产 + 测试环境）、运维（管理权限 + 审批）、DBA（DB 相关）
按资源组：业务线/项目隔离
按权限策略：优先用系统策略 ReadOnly / PowerUser + 自定义 Deny
Condition 限制：来源 IP（办公网 + VPN）、MFA 要求、时间窗
定期 Review：季度权限审计，清理未使用

Q2：AK 泄露怎么处理？ A：5 分钟响应：

立即禁用 / 删除 AK（RAM 控制台）
查操作审计 ActionTrail 评估损失范围
生成新 AK 替换应用配置
排查泄露路径（Git 仓库、日志、监控截图）
事后：启用 RAM 角色 for ECS 或 STS，从机制上消除 AK

Q3：等保三级核心要求有哪些？ A：关键词速答：

物理安全（云厂商负责）
网络安全：区域隔离（VPC）、安全组、IPS、WAF
主机安全：漏洞管理、基线、入侵检测、防病毒
应用安全：身份鉴别、访问控制、安全审计
数据安全：完整性、保密性、备份恢复
管理制度：操作规程、人员培训、应急预案、定期评估

Q4：K8s 中如何管理密钥？ A：

避免：ConfigMap / Secret 明文放 Git
推荐：
- 外部 Secret Operator（External Secrets Operator）+ KMS/Vault
- SealedSecrets：Git 里存加密，集群控制器解密
- CSI Secret Store：运行时挂载
etcd at-rest 加密 + RBAC 限制 Secret 读

Q5：一台 ECS 怀疑被入侵怎么排查？ A：快速排查清单：

w / last / lastb：异常登录
ps -ef + top：异常进程（挖矿通常 CPU 100%）
netstat -antp / ss -antp：异常连接（连接 IRC、矿池）
crontab -l + /etc/cron.*：计划任务后门
ls -la /tmp /dev/shm：临时目录可疑文件
lsof -p <pid>：可疑进程打开的文件
history：命令历史（可能被清）
/etc/passwd：新增账号
find / -perm -4000：SUID 后门
云安全中心告警 + SLS 登录日志

处理：快照留证 + 下线 + 重建，不要"修好继续用"。

Q6：WAF 和 IPS 的区别？ A：

WAF：应用层（HTTP/HTTPS），理解 SQL 注入、XSS、业务逻辑
IPS：网络层，识别网络层攻击（端口扫描、漏洞利用包）
互补，WAF 入口层，IPS 内网东西向

Q7：如何给一个跨境业务做合规设计？ A：多法规叠加：

出海 = 数据出境，评估 PIPL 合规（个人信息出境需安全评估）
目的国合规：欧盟 GDPR、加州 CCPA、新加坡 PDPA
数据本地化：敏感数据在 Region 内闭环
加密：传输 TLS、存储 SSE-KMS
同意链：用户同意记录可追溯
DPO：数据保护官（GDPR 要求）
第三方审计：SOC 2、ISO 27001

Q8：0day 漏洞爆发了怎么快速响应？ A：标准 SOP：

确认影响面（哪些机器/应用用了受影响组件）
官方补丁 / 临时缓解措施（WAF 规则、配置关闭、进程隔离）
优先级：公网暴露 > 内网高权限 > 内部普通
灰度打补丁，观察
全量修复 + 验证
复盘：供应链管理、依赖版本管理

Q9：Log4j 爆发时你怎么处理？ A：经典考题，答题结构：

当晚：评估 log4j 2.x 使用面（全公司服务扫描依赖）
临时缓解：WAF 规则拦截 ${jndi: + 启动参数 -Dlog4j2.formatMsgNoLookups=true
分批升级：核心业务优先升到 2.17.x
复盘：建立 SBOM，下次 0day 能快速定位依赖

Q10：为什么说 "安全是默认打开的"？ A：Secure by Default 原则：

默认拒绝 > 默认允许
默认加密 > 明文
默认 MFA > 密码
默认最小权限 > 宽泛权限
默认不公开 > 公开
默认记录 > 不审计

让工程师"主动关闭"安全措施时需要理由，而不是"主动开启"时才有保护。

十一、生产安全巡检清单

十二、必读资源

阿里云安全中心最佳实践文档
等保 2.0 基本要求（GB/T 22239-2019）
CIS Benchmarks（Linux、Docker、K8s）
OWASP Top 10
NIST Cybersecurity Framework
《白帽子讲 Web 安全》