面试官关注点:你是否真的花过钱、背过预算、签过合同?能否把业务需求翻译成云产品组合,并持续优化成本?
一、整体采购决策框架
1.1 需求翻译四问法
面试时若被问"如何为某业务选型",按以下顺序拆解:
| 维度 | 关键问题 | 产出 |
|---|---|---|
| 业务特征 | 在线/离线?读写比?峰谷比?SLA 要求? | 选产品形态(ECS vs 函数计算 vs ACK) |
| 规模容量 | QPS、存储量、数据增长率、用户地域分布 | 选规格、选地域、选可用区数量 |
| 合规要求 | 数据不出境?等保几级?金融云? | 选 Region、选专有云/公共云 |
| 成本预算 | CapEx vs OpEx?一次性还是持续? | 选计费模式(包年包月/按量/Spot/RI/SCU) |
1.2 Region 与可用区(AZ)选择
- 就近用户:电商选华东 1(杭州)、华北 2(北京);海外选新加坡/法兰克福
- 容灾原则:生产至少 2 个 AZ,金融级业务 3 AZ 或 两地三中心
- 价格差异:同 Region 不同 AZ 价格几乎一致;Region 之间可差 10-30%(乌兰察布、张家口显著便宜)
- 合规:金融云在金融云 Region,政务在政务云,数据出境考虑 Region 与法律属地
二、计算类产品
2.1 ECS 规格族选型速查表
| 场景 | 规格族 | 代表实例 | 说明 |
|---|---|---|---|
| 通用 Web/应用 | g 系列 | g7、g8i | 1:4 CPU:内存,均衡型首选 |
| 计算密集 | c 系列 | c7、c8i | 1:2 CPU:内存,高主频 |
| 内存型(DB/缓存) | r 系列 | r7、r8i | 1:8 CPU:内存,Redis/MySQL |
| 大数据 | d 系列 | d2s | 本地 HDD,Hadoop |
| GPU/AI | gn 系列 | gn7i (A10)、ebmgn7e (A100) | 训练/推理 |
| 本地 SSD | i 系列 | i4、i4g | 超低延迟 IO,Kafka/ES |
| ARM | g8y、c8y | 倚天 710 | 性价比高 15-30%,需验证兼容性 |
| 弹性裸金属 | ebm 系列 | ebmc7a | 独占物理机,嵌套虚拟化 |
| 突发性能 | t6 | 低负载测试/开发 | CPU 积分机制,突发超限会被限流 |
面试必答:g7 和 g8i 区别?—— g8i 是 Intel 第 5 代至强(EMR),g8y 是倚天 ARM。新代次通常性能 +20%,价格接近甚至更低,优先选新代次。
2.2 ECS 计费模式组合拳
| 模式 | 折扣 | 适用 |
|---|---|---|
| 包年包月 | 基准价 | 长期稳定负载 |
| 按量付费 | 1.5-2x | 临时测试、应急扩容 |
| 节省计划(SCU) | 最高 7 折 | 灵活、不绑定实例规格 |
| 预留实例券(RI) | 最高 5 折 | 确定性负载,绑定规格族 |
| 抢占式实例(Spot) | 最低 1 折 | 无状态、可中断(离线计算、CI) |
成本优化实战组合:
- 60% 基线负载用 RI / SCU 3 年期
- 30% 日常波动用包月
- 10% 弹性峰值用按量 + 弹性伸缩
- 离线任务全部 Spot + 检查点机制
2.3 弹性伸缩(ESS)
- 触发方式:定时、监控告警(CPU/QPS/自定义 CloudMonitor 指标)、预测式伸缩
- 伸缩组 + 启动模板:模板定义镜像、规格、安全组、用户数据脚本
- 健康检查:ECS 实例健康 + SLB 健康检查双保险
- 实战坑:缩容时优先保留创建时间最长的实例(可配置策略),避免刚启动的实例被缩掉
2.4 Serverless 计算
- 函数计算 FC:事件驱动、毫秒计费、冷启动可通过预留实例缓解
- SAE(Serverless 应用引擎):微服务无服务器化,兼容 Spring Cloud/Dubbo
- ECI(弹性容器实例):Pod 级免运维,常作为 ACK 的弹性底座(virtual-kubelet)
三、存储类产品
3.1 云盘(块存储)选型
| 类型 | IOPS | 吞吐 | 延迟 | 场景 |
|---|---|---|---|---|
| ESSD PL0 | 1万 | 180 MB/s | 亚毫秒 | 开发测试 |
| ESSD PL1 | 5万 | 350 MB/s | 亚毫秒 | 生产 Web/应用 |
| ESSD PL2 | 10万 | 750 MB/s | 亚毫秒 | 中型数据库 |
| ESSD PL3 | 100万 | 4000 MB/s | 亚毫秒 | 核心数据库、高并发 |
| ESSD AutoPL | 按配置 | 按配置 | 亚毫秒 | IOPS/吞吐独立购买,避免为容量买性能 |
| SSD 云盘(旧) | 2.5万 | 256 MB/s | 毫秒 | 已不推荐,选 ESSD |
| 高效云盘 | 5000 | 140 MB/s | 毫秒级 | 成本敏感,冷数据 |
关键认知:ESSD 性能和容量挂钩(PL1 最小 20GB,PL3 最小 1.2TB)。如果你只需要 100GB 但要 PL3 性能,用 ESSD AutoPL 或接受容量浪费。
3.2 对象存储 OSS
| 存储类型 | 单价(约) | 取回费 | 场景 |
|---|---|---|---|
| 标准型 | 0.12元/GB/月 | 无 | 热数据、CDN 回源 |
| 低频访问 | 0.08元/GB/月 | 有(0.0325元/GB) | 月级访问的备份、日志 |
| 归档型 | 0.033元/GB/月 | 1 分钟取回 | 年级访问,合规归档 |
| 冷归档 | 0.015元/GB/月 | 数小时取回 | 极少访问、监管数据 |
成本优化:
- 生命周期规则:30 天 → IA,90 天 → 归档,365 天 → 冷归档
- Bucket 清单 + OSS 访问分析:识别冷热数据
- 小文件合并:OSS 请求费(每万次 0.01 元)小文件密集访问会爆掉
- 回源免流:同 Region ECS → OSS 内网免费;跨 Region 走公网要钱
3.3 NAS 与 CPFS
- NAS 通用型:NFS/SMB,共享文件系统,容量/性能型
- NAS 极速型:微秒级延迟,基于 SSD,小文件场景
- CPFS:并行文件系统,AI 训练、HPC,GB/s 级带宽
四、数据库类产品
4.1 关系型
| 产品 | 适用 | 关键特性 |
|---|---|---|
| RDS MySQL | 通用 OLTP | 高可用版(主备)、集群版(一主多读) |
| PolarDB MySQL | 中大型 | 计算存储分离、共享分布式存储、3 副本、秒级弹性 |
| PolarDB-X | 分库分表 | 原 DRDS,HTAP,水平拆分 |
| AnalyticDB | OLAP | MySQL/PostgreSQL 协议,亚秒查询 TB 级 |
| RDS PostgreSQL | GIS/JSON 复杂查询 | 开源 PG 生态 |
PolarDB vs RDS 面试题:
- PolarDB 底层是共享存储(一写多读共享同一份数据),加只读节点秒级;RDS 集群版是独立存储+物理复制,加节点需要全量复制
- PolarDB 计费 = 计算节点 + 存储空间(按实际使用自动收费);RDS 存储是预购的
- 大数据量(>1TB)选 PolarDB,<500GB 且成本敏感选 RDS
4.2 NoSQL 与缓存
| 产品 | 场景 |
|---|---|
| Redis 云数据库 | 标准版(主从)、集群版(分片)、读写分离版 |
| Tair | 阿里自研增强版 Redis,性能型(内存)、容量型(持久内存)、存储型(SSD) |
| MongoDB 云数据库 | 副本集、分片集群 |
| Lindorm | 原 HBase 增强版,宽表/时序/搜索一体化 |
| Tablestore(OTS) | 结构化大数据,按量付费,适合 IoT/日志 |
4.3 时序与搜索
- TSDB:时序数据库,监控指标场景(与 Prometheus 远程存储集成)
- ES Elasticsearch 服务:全文搜索、日志分析(配合 SLS 或单独使用)
五、网络类产品(详见 03 文档)
快速记忆:
- VPC:自建网络隔离,必须
- SLB(经典,已弱化)/ ALB(应用层 HTTP/7 层)/ NLB(网络层 TCP/UDP,超高性能)
- NAT 网关:SNAT 共享出公网,DNAT 端口映射
- 弹性公网 IP(EIP):公网入口
- 共享带宽包:多 EIP 共享带宽池,削峰
- CEN(云企业网):跨 Region、跨 VPC、线下 IDC 互联骨干
六、成本优化实战方法论
6.1 分析阶段
- 费用中心:按产品/Tag/项目分组查账单
- 成本分析:趋势、环比、Top N 资源
- Cost Manager / 费用账单 API:自建报表
6.2 优化手段清单(按 ROI 排序)
| 手段 | 预期节省 | 实施难度 |
|---|---|---|
| 闲置资源清理(未挂载磁盘、游离 EIP、停机未释放) | 5-15% | ⭐ |
| 规格合理化(Rightsizing,基于 CloudMonitor 历史数据) | 15-30% | ⭐⭐ |
| 计费模式优化(包年 + RI + SCU + Spot 组合) | 20-40% | ⭐⭐ |
| 存储分层(OSS 生命周期、冷数据下沉归档) | 30-70%(仅存储部分) | ⭐⭐ |
| 架构改造(Serverless、容器化提高密度) | 30-50% | ⭐⭐⭐⭐ |
| 代次升级(老 ECS → g7/g8i) | 10-20% | ⭐⭐ |
| 跨 Region 流量重构(就近接入、CDN) | 网络费 30-50% | ⭐⭐⭐ |
6.3 FinOps 落地
- Tag 体系:业务线、环境、Owner、成本中心 4 个维度必打
- 预算告警:分 BU/项目设月度预算,超 80% 告警
- Showback/Chargeback:成本分摊到业务线,推动业务方优化
- 定期 Review:月度成本会议,Top 10 异常资源追因
七、合同与采购层面(资深才会被问)
- 折扣谈判:年消耗超 100 万可谈客户经理折扣,通常 8-9 折,大客户能到 6-7 折
- 云优惠计算器:官方价 + 代金券 + RI + SCU 组合报价
- 多云策略:阿里 + 腾讯/华为做备份容灾,也是议价筹码
- 账号体系:主账号 + RAM 子账号 + 资源组,多 BU 财务隔离用企业账号+多成员账号+财务管理
- 合规要求:等保 2.0 二级/三级、ISO27001、GDPR、PCI DSS — 阿里云多数产品已合规,你需要的是证据链
八、面试高频问答
Q1:如何为一个日活 100 万的电商 App 做云资源选型? 答题结构:
- 拆业务:Web/API(g7 + SLB)、DB(PolarDB 一写两读)、缓存(Tair 集群版)、文件(OSS + CDN)、消息(RocketMQ)、搜索(ES)
- 估容量:峰值 QPS = DAU × 人均请求 / 峰值系数,反推实例数
- 容灾:双 AZ 部署,RDS 主备跨 AZ,OSS 同城冗余
- 计费:基线 SCU 3 年、弹性按量、离线 Spot
- 可观测:SLS + ARMS 全家桶
- 预算:给出月度费用估算范围和优化路径
Q2:ECS 包年包月到期不续费会怎样?
- 到期前 7 天提醒 → 到期后实例进入停机保留(15 天,云盘和公网 IP 保留)→ 超过释放期自动销毁
- 运维红线:所有包月资源必须开自动续费 or 告警到人
Q3:为什么有时按量付费反而更便宜?
- 利用率 < 30% 的机器,按量(只在使用时计费)总成本低于包月
- 但阿里云按量是按小时,不足 1 小时按 1 小时算,频繁启停要注意
Q4:Spot 实例怎么用才靠谱?
- 必须无状态 + 可中断
- 监听
instance-action元数据端点,收到中断信号(提前 5 分钟)优雅退出 - 多规格池:启动模板配置多个规格族,某个池被抢走时自动换池
- 配合 ECI Spot 跑 K8s 离线 Job 是经典方案
Q5:包年包月 vs SCU 怎么选?
- 包月:锁定具体实例,迁移规格要重购
- SCU:锁定消费金额,可自由切换规格族和 Region(更灵活)
- 新架构优先 SCU;已有大量包月存量,到期切 SCU
九、必看官方资料
- 阿里云产品文档:help.aliyun.com
- 阿里云架构中心:bp.aliyun.com(各行业最佳实践)
- 阿里云定价计算器:www.aliyun.com/price/produ…
- Well-Architected Framework 阿里云版:搜索"阿里云 Well-Architected"