09 安全与合规

3 阅读12分钟

面试官关注点:你是把安全当"加分项"还是"红线"?等保 2.0 过过没?RAM/KMS/堡垒机怎么用?最小权限落实到什么程度?

阿里对资深运维的要求:能独立对接等保测评、主导一次安全事件应急、建立账号+权限+密钥+审计闭环


一、云上安全责任共担模型

阿里云负责「OF THE CLOUD」的安全
├── 物理机房
├── 虚拟化层
├── 底层网络
└── 云产品自身漏洞

客户负责「IN THE CLOUD」的安全
├── 账号与身份
├── 应用与数据
├── 网络配置(VPC、安全组)
├── 操作系统补丁
└── 合规落实

面试加分:清晰说出哪些是阿里云兜底、哪些是业务方责任,说明你真正理解云。


二、账号与身份(RAM / IAM)

2.1 阿里云账号体系

  • 主账号:根账号,权限无穷,只用于注册 + 最初配置,日常禁用
  • RAM 用户:子账号,按人/机器分配
  • RAM 角色:可被用户/服务扮演(STS 临时凭证)
  • 云 SSO / IDaaS:企业 IDP 单点登录(接入 AD/LDAP)
  • 资源组:跨产品的资源分组,权限授权到资源组

2.2 最小权限(Least Privilege)

  • 默认零权限,按需授权
  • 用 AliyunXxxReadOnlyAccess 替代 FullAccess
  • 敏感操作用 Condition 限制:来源 IP、时间、MFA
  • 定期 Review:阿里云操作审计 + 访问分析,识别未用权限

2.3 密钥与凭证

类型用途管理
AK/SK程序调用 API轮换、最小权限、禁止放代码
STS Token临时凭证24 小时内有效,推荐使用
RAM 角色 for ECSECS 内免 AK 调 API生产机器强烈推荐
控制台密码 + MFA人工登录必须开 MFA
SSH KeyECS 登录禁用密码登录,密钥认证

2.4 MFA 强制策略

控制台登录 → 所有用户强制 MFA
API 高危操作 → Condition 要求 MFA
SSH 登录 → 堡垒机 + MFA 二次认证
VPN 接入 → MFA

三、主机安全

3.1 云安全中心(Cloud Security Center / 云盾)

阿里云原生安全产品,主机层核心能力:

  • 漏洞扫描:Linux CVE、Windows 补丁、Web 应用漏洞
  • 基线检查:CIS 基线、等保基线、自定义
  • 入侵检测:异常登录、挖矿程序、Webshell、反弹 Shell、横向移动
  • 资产指纹:安装包、进程、启动项、端口、账号
  • 日志审计:登录日志、进程启动、文件变更
  • 病毒查杀

3.2 主机加固清单

账号

  • 禁用 root SSH 直接登录(PermitRootLogin no
  • 禁用密码登录(PasswordAuthentication no),只用密钥
  • 普通用户 + sudo 提权
  • 无用系统账号锁定(passwd -l
  • 密码复杂度策略 /etc/security/pwquality.conf

SSH

  • 改默认端口(或堡垒机隔离)
  • 限制源 IP(安全组 + 堡垒机)
  • MaxAuthTries 3
  • ClientAliveInterval 300 ClientAliveCountMax 2

服务

  • 关闭不必要服务(telnet、rsh、ftp)
  • 防火墙(firewalld / iptables)配合安全组

文件系统

  • /tmp /var 独立分区 + noexec nosuid
  • 关键文件 chattr +i(不可修改)

审计

  • auditd 开启,关键操作审计
  • 命令历史 + 时间戳(HISTTIMEFORMAT)
  • 禁止清理 history

3.3 内核与补丁

  • Alibaba Cloud Linux(龙蜥):阿里维护,长期支持,上云首选
  • 热补丁(kpatch/livepatch)处理无法重启的关键漏洞
  • 定期安全更新(yum update --security

四、网络安全

4.1 分层防御

第一层:DDoS 高防 / BGP Anycast 清洗
第二层:WAF(HTTP 层)+ Anti-Bot
第三层:CDN / DCDN(分散流量)
第四层:SLB + 安全组(网络层)
第五层:主机防火墙 + 云安全中心
第六层:应用层认证鉴权 + 业务风控

4.2 WAF(Web Application Firewall)

  • 规则集:OWASP Top 10、CC 防护、Bot 识别、0-day 虚拟补丁
  • 部署形态:独立 WAF(通过域名解析到 WAF)、SLB 集成 WAF、CDN 侧 WAF
  • 精准访问控制:自定义规则(UA / IP / 参数)
  • 业务风控:薅羊毛、撞库、爬虫

4.3 DDoS 防护

产品能力场景
基础防护5Gbps 免费小业务
DDoS 原生防护企业版按带宽计费,集成到云产品中大规模
DDoS 高防 IPT 级防护,独立 IP 牵引大规模 + 被打过

4.4 零信任(Zero Trust)

  • 原则:不默认信任任何内网流量,每次访问鉴权
  • 实现
    • BeyondCorp 模式:基于身份 + 设备指纹 + 上下文
    • 阿里云 SASE:零信任 + 安全接入
    • SPIFFE / SPIRE:服务身份

4.5 API 安全

  • 网关层认证(JWT/OAuth2)
  • 签名防篡改(HMAC)
  • 限流防爆破
  • 审计所有 API 调用

五、数据安全

5.1 加密体系

层次方案
传输加密TLS 1.2+、证书托管(SSL 证书服务)
存储加密ESSD 加密盘、OSS SSE、RDS TDE
应用层加密字段级加密(身份证、手机号)
密钥管理KMS + HSM(硬件加密机)

5.2 KMS(密钥管理服务)

  • CMK(Customer Master Key):主密钥,KMS 托管永不出 HSM
  • Data Key:数据密钥,CMK 加密后可存业务侧
  • 信封加密:Data Key 加密数据,CMK 加密 Data Key
  • KMS 凭据管家:统一管理 DB 密码、AK/SK 等,自动轮换

5.3 数据分类与分级(等保 2.0 要求)

  • 公开:无保护
  • 内部:员工可访问
  • 敏感:仅指定人员(用户个人信息)
  • 绝密:加密 + 审计 + 访问留痕(身份证、支付信息)

5.4 敏感数据保护(SDDP)

阿里云产品,能力:

  • 识别:扫描 RDS/OSS/MaxCompute,自动识别 PII(手机号、身份证、银行卡)
  • 分级:自动打级
  • 脱敏:查询返回时动态脱敏
  • 审计:敏感数据访问日志

5.5 备份与容灾

  • 3-2-1 原则:3 份备份、2 种介质、1 份异地
  • 混合云备份 HBR:ECS、文件、数据库统一备份
  • 定期恢复演练:至少季度一次

六、堡垒机(Bastion)

6.1 堡垒机核心价值

  • 统一入口:禁止直连 ECS
  • 权限管控:RBAC,用户 ↔ 资源 ↔ 协议
  • 审计留痕:SSH 操作录屏、指令全量记录
  • 密码托管:免记密码,堡垒机代理登录
  • 双因子认证:MFA、短信、钉钉扫码

6.2 阿里云堡垒机

  • 基于开源 JumpServer 商业化
  • 支持 SSH/RDP/数据库(MySQL/Oracle/PG)
  • 与 RAM/云 SSO 集成

6.3 落地原则

  • 所有生产机访问必经堡垒机
  • 运维用个人账号,不共享
  • 高危操作命令黑名单(rm -rf /dd if=
  • 操作录屏保留 ≥ 180 天

七、合规与审计

7.1 等保 2.0(GB/T 22239-2019)

等级划分

  • 一级:自主保护级(最低)
  • 二级:指导保护级(一般业务)
  • 三级:监督保护级(大部分互联网/金融业务
  • 四级:强制保护级(金融核心)
  • 五级:专控保护级(军工)

三级要求核心域

  1. 安全物理环境(云厂商负责)
  2. 安全通信网络(VPC、WAF、DDoS)
  3. 安全区域边界(安全组、堡垒机、IDS)
  4. 安全计算环境(主机加固、补丁、审计)
  5. 安全管理中心(SOC、日志集中、告警)
  6. 安全管理制度、机构、人员、建设、运维

阿里云等保合规包:一键勾选购买符合等保的产品组合,通过 云盾等保合规产品辅助测评。

7.2 其他合规标准

  • ISO 27001:信息安全管理体系
  • PCI DSS:支付卡行业(金融必过)
  • GDPR:欧盟隐私法规(出海业务)
  • 个人信息保护法 PIPL(国内)
  • HIPAA:美国医疗
  • SOC 2:服务组织控制

7.3 审计

  • 操作审计 ActionTrail:所有阿里云 API 调用留痕 180 天+
  • 配置审计 Config:资源配置历史 + 合规检查(比如"所有 ECS 必须加密")
  • 日志审计 SLS:应用日志集中 + 长期归档
  • 数据库审计 DMS/DAS:SQL 执行审计

八、K8s 安全

8.1 K8s 威胁面

  • 暴露的 API Server(kubelet 8080 老版本,dashboard 未授权)
  • 镜像带漏洞
  • 特权容器(privileged: true
  • HostPath 挂载敏感目录
  • RBAC 配置过松(cluster-admin 滥用)
  • Secret 明文(etcd 未加密)

8.2 加固清单

  • API Server:TLS 强制、匿名访问关闭、Webhook 认证
  • RBAC:默认无权限,精细到 Verb + Resource
  • Pod Security Standards:Restricted 级别禁特权、禁 hostNetwork
  • 准入控制器:PodSecurity、OPA/Kyverno、ImagePolicyWebhook
  • NetworkPolicy:默认拒绝,按需放行
  • Secret 加密:EncryptionConfiguration + KMS
  • etcd 加密:at-rest encryption
  • 节点访问:禁止 kubelet 匿名访问、关闭只读端口
  • 镜像:签名 + 漏洞扫描阻塞部署
  • Runtime:gVisor / Kata 沙箱化高风险工作负载
  • 审计日志:apiserver audit log 开启并收集

8.3 ACK 安全产品

  • ACK Pro:自带加密 etcd、审计日志、CIS 检查
  • 云安全中心 K8s 模块:集群安全巡检
  • ACR 镜像安全:签名、扫描、不可变 tag

九、应急响应

9.1 常见安全事件

  • 主机被入侵:挖矿、反弹 Shell、后门
  • Webshell:应用层被植入
  • 数据泄露:内部人员 / SQL 注入 / API 滥用
  • DDoS 攻击:业务不可用
  • 勒索病毒:数据加密勒索
  • 供应链攻击:依赖包被投毒

9.2 应急流程

1. 发现(SOC 告警/外部通报)
2. 确认(是否真实,排除误报)
3. 隔离(被感染机器下线但不关机,保留现场)
4. 分析(日志、网络连接、进程、文件)
5. 止损(切断攻击路径、重置密钥、封 IP)
6. 恢复(备份还原、重建环境)
7. 复盘(根因 + 改进)
8. 上报(按合规要求通报监管)

9.3 取证要点

  • 快照:内存 dump、磁盘快照
  • 网络抓包:可疑连接保留 pcap
  • 日志归档:SLS 相关日志标记长期保留
  • 时间线:按攻击者活动梳理

9.4 重装还是清理

  • 清理:后门是否能完全清干净?通常不能
  • 原则:被入侵的主机 直接重装/销毁重建,不要尝试修复
  • 预防复发:修补入侵用的漏洞、重置所有关联凭证

十、面试高频问答

Q1:怎么设计一个 RAM 权限体系? A:分层 + 最小权限:

  1. 按角色:开发(读开发资源)、测试(读生产 + 测试环境)、运维(管理权限 + 审批)、DBA(DB 相关)
  2. 按资源组:业务线/项目隔离
  3. 按权限策略:优先用系统策略 ReadOnly / PowerUser + 自定义 Deny
  4. Condition 限制:来源 IP(办公网 + VPN)、MFA 要求、时间窗
  5. 定期 Review:季度权限审计,清理未使用

Q2:AK 泄露怎么处理? A:5 分钟响应

  1. 立即禁用 / 删除 AK(RAM 控制台)
  2. 查操作审计 ActionTrail 评估损失范围
  3. 生成新 AK 替换应用配置
  4. 排查泄露路径(Git 仓库、日志、监控截图)
  5. 事后:启用 RAM 角色 for ECS 或 STS,从机制上消除 AK

Q3:等保三级核心要求有哪些? A:关键词速答:

  • 物理安全(云厂商负责)
  • 网络安全:区域隔离(VPC)、安全组、IPS、WAF
  • 主机安全:漏洞管理、基线、入侵检测、防病毒
  • 应用安全:身份鉴别、访问控制、安全审计
  • 数据安全:完整性、保密性、备份恢复
  • 管理制度:操作规程、人员培训、应急预案、定期评估

Q4:K8s 中如何管理密钥? A:

  • 避免:ConfigMap / Secret 明文放 Git
  • 推荐
    • 外部 Secret Operator(External Secrets Operator)+ KMS/Vault
    • SealedSecrets:Git 里存加密,集群控制器解密
    • CSI Secret Store:运行时挂载
  • etcd at-rest 加密 + RBAC 限制 Secret 读

Q5:一台 ECS 怀疑被入侵怎么排查? A:快速排查清单:

  1. w / last / lastb:异常登录
  2. ps -ef + top:异常进程(挖矿通常 CPU 100%)
  3. netstat -antp / ss -antp:异常连接(连接 IRC、矿池)
  4. crontab -l + /etc/cron.*:计划任务后门
  5. ls -la /tmp /dev/shm:临时目录可疑文件
  6. lsof -p <pid>:可疑进程打开的文件
  7. history:命令历史(可能被清)
  8. /etc/passwd:新增账号
  9. find / -perm -4000:SUID 后门
  10. 云安全中心告警 + SLS 登录日志

处理:快照留证 + 下线 + 重建,不要"修好继续用"。

Q6:WAF 和 IPS 的区别? A:

  • WAF:应用层(HTTP/HTTPS),理解 SQL 注入、XSS、业务逻辑
  • IPS:网络层,识别网络层攻击(端口扫描、漏洞利用包)
  • 互补,WAF 入口层,IPS 内网东西向

Q7:如何给一个跨境业务做合规设计? A:多法规叠加:

  1. 出海 = 数据出境,评估 PIPL 合规(个人信息出境需安全评估)
  2. 目的国合规:欧盟 GDPR、加州 CCPA、新加坡 PDPA
  3. 数据本地化:敏感数据在 Region 内闭环
  4. 加密:传输 TLS、存储 SSE-KMS
  5. 同意链:用户同意记录可追溯
  6. DPO:数据保护官(GDPR 要求)
  7. 第三方审计:SOC 2、ISO 27001

Q8:0day 漏洞爆发了怎么快速响应? A:标准 SOP:

  1. 确认影响面(哪些机器/应用用了受影响组件)
  2. 官方补丁 / 临时缓解措施(WAF 规则、配置关闭、进程隔离)
  3. 优先级:公网暴露 > 内网高权限 > 内部普通
  4. 灰度打补丁,观察
  5. 全量修复 + 验证
  6. 复盘:供应链管理、依赖版本管理

Q9:Log4j 爆发时你怎么处理? A:经典考题,答题结构:

  1. 当晚:评估 log4j 2.x 使用面(全公司服务扫描依赖)
  2. 临时缓解:WAF 规则拦截 ${jndi: + 启动参数 -Dlog4j2.formatMsgNoLookups=true
  3. 分批升级:核心业务优先升到 2.17.x
  4. 复盘:建立 SBOM,下次 0day 能快速定位依赖

Q10:为什么说 "安全是默认打开的"? A:Secure by Default 原则:

  • 默认拒绝 > 默认允许
  • 默认加密 > 明文
  • 默认 MFA > 密码
  • 默认最小权限 > 宽泛权限
  • 默认不公开 > 公开
  • 默认记录 > 不审计

让工程师"主动关闭"安全措施时需要理由,而不是"主动开启"时才有保护。


十一、生产安全巡检清单

  • 主账号 MFA 开启、AK 已删
  • 所有 RAM 用户 MFA 强制
  • 无公网开放的非必要端口(3306、6379、27017、2379)
  • 所有 ECS 走堡垒机(安全组限制)
  • SSH 密钥登录 + 禁用密码
  • 云安全中心开启并告警接入
  • 云盾 WAF / DDoS 覆盖公网入口
  • 操作审计 ActionTrail 启用 + 归档 OSS
  • RDS/Redis 白名单 VPC only
  • KMS 管理所有敏感密钥 + 轮换
  • K8s 所有 Pod 有 resources limits(防 DoS)
  • 镜像扫描接入 CI,高危漏洞阻塞
  • 备份策略 + 季度恢复演练
  • 等保测评证书在有效期内
  • 应急预案 + 联系方式更新

十二、必读资源

  • 阿里云安全中心最佳实践文档
  • 等保 2.0 基本要求(GB/T 22239-2019)
  • CIS Benchmarks(Linux、Docker、K8s)
  • OWASP Top 10
  • NIST Cybersecurity Framework
  • 《白帽子讲 Web 安全》