01 阿里云产品选型与采购

0 阅读9分钟

面试官关注点:你是否真的花过钱、背过预算、签过合同?能否把业务需求翻译成云产品组合,并持续优化成本?


一、整体采购决策框架

1.1 需求翻译四问法

面试时若被问"如何为某业务选型",按以下顺序拆解:

维度关键问题产出
业务特征在线/离线?读写比?峰谷比?SLA 要求?选产品形态(ECS vs 函数计算 vs ACK)
规模容量QPS、存储量、数据增长率、用户地域分布选规格、选地域、选可用区数量
合规要求数据不出境?等保几级?金融云?选 Region、选专有云/公共云
成本预算CapEx vs OpEx?一次性还是持续?选计费模式(包年包月/按量/Spot/RI/SCU)

1.2 Region 与可用区(AZ)选择

  • 就近用户:电商选华东 1(杭州)、华北 2(北京);海外选新加坡/法兰克福
  • 容灾原则:生产至少 2 个 AZ,金融级业务 3 AZ两地三中心
  • 价格差异:同 Region 不同 AZ 价格几乎一致;Region 之间可差 10-30%(乌兰察布、张家口显著便宜)
  • 合规:金融云在金融云 Region,政务在政务云,数据出境考虑 Region 与法律属地

二、计算类产品

2.1 ECS 规格族选型速查表

场景规格族代表实例说明
通用 Web/应用g 系列g7、g8i1:4 CPU:内存,均衡型首选
计算密集c 系列c7、c8i1:2 CPU:内存,高主频
内存型(DB/缓存)r 系列r7、r8i1:8 CPU:内存,Redis/MySQL
大数据d 系列d2s本地 HDD,Hadoop
GPU/AIgn 系列gn7i (A10)、ebmgn7e (A100)训练/推理
本地 SSDi 系列i4、i4g超低延迟 IO,Kafka/ES
ARMg8y、c8y倚天 710性价比高 15-30%,需验证兼容性
弹性裸金属ebm 系列ebmc7a独占物理机,嵌套虚拟化
突发性能t6低负载测试/开发CPU 积分机制,突发超限会被限流

面试必答:g7 和 g8i 区别?—— g8i 是 Intel 第 5 代至强(EMR),g8y 是倚天 ARM。新代次通常性能 +20%,价格接近甚至更低,优先选新代次

2.2 ECS 计费模式组合拳

模式折扣适用
包年包月基准价长期稳定负载
按量付费1.5-2x临时测试、应急扩容
节省计划(SCU)最高 7 折灵活、不绑定实例规格
预留实例券(RI)最高 5 折确定性负载,绑定规格族
抢占式实例(Spot)最低 1 折无状态、可中断(离线计算、CI)

成本优化实战组合

  • 60% 基线负载用 RI / SCU 3 年期
  • 30% 日常波动用包月
  • 10% 弹性峰值用按量 + 弹性伸缩
  • 离线任务全部 Spot + 检查点机制

2.3 弹性伸缩(ESS)

  • 触发方式:定时、监控告警(CPU/QPS/自定义 CloudMonitor 指标)、预测式伸缩
  • 伸缩组 + 启动模板:模板定义镜像、规格、安全组、用户数据脚本
  • 健康检查:ECS 实例健康 + SLB 健康检查双保险
  • 实战坑:缩容时优先保留创建时间最长的实例(可配置策略),避免刚启动的实例被缩掉

2.4 Serverless 计算

  • 函数计算 FC:事件驱动、毫秒计费、冷启动可通过预留实例缓解
  • SAE(Serverless 应用引擎):微服务无服务器化,兼容 Spring Cloud/Dubbo
  • ECI(弹性容器实例):Pod 级免运维,常作为 ACK 的弹性底座(virtual-kubelet)

三、存储类产品

3.1 云盘(块存储)选型

类型IOPS吞吐延迟场景
ESSD PL01万180 MB/s亚毫秒开发测试
ESSD PL15万350 MB/s亚毫秒生产 Web/应用
ESSD PL210万750 MB/s亚毫秒中型数据库
ESSD PL3100万4000 MB/s亚毫秒核心数据库、高并发
ESSD AutoPL按配置按配置亚毫秒IOPS/吞吐独立购买,避免为容量买性能
SSD 云盘(旧)2.5万256 MB/s毫秒已不推荐,选 ESSD
高效云盘5000140 MB/s毫秒级成本敏感,冷数据

关键认知:ESSD 性能和容量挂钩(PL1 最小 20GB,PL3 最小 1.2TB)。如果你只需要 100GB 但要 PL3 性能,用 ESSD AutoPL 或接受容量浪费。

3.2 对象存储 OSS

存储类型单价(约)取回费场景
标准型0.12元/GB/月热数据、CDN 回源
低频访问0.08元/GB/月有(0.0325元/GB)月级访问的备份、日志
归档型0.033元/GB/月1 分钟取回年级访问,合规归档
冷归档0.015元/GB/月数小时取回极少访问、监管数据

成本优化

  • 生命周期规则:30 天 → IA,90 天 → 归档,365 天 → 冷归档
  • Bucket 清单 + OSS 访问分析:识别冷热数据
  • 小文件合并:OSS 请求费(每万次 0.01 元)小文件密集访问会爆掉
  • 回源免流:同 Region ECS → OSS 内网免费;跨 Region 走公网要钱

3.3 NAS 与 CPFS

  • NAS 通用型:NFS/SMB,共享文件系统,容量/性能型
  • NAS 极速型:微秒级延迟,基于 SSD,小文件场景
  • CPFS:并行文件系统,AI 训练、HPC,GB/s 级带宽

四、数据库类产品

4.1 关系型

产品适用关键特性
RDS MySQL通用 OLTP高可用版(主备)、集群版(一主多读)
PolarDB MySQL中大型计算存储分离、共享分布式存储、3 副本、秒级弹性
PolarDB-X分库分表原 DRDS,HTAP,水平拆分
AnalyticDBOLAPMySQL/PostgreSQL 协议,亚秒查询 TB 级
RDS PostgreSQLGIS/JSON 复杂查询开源 PG 生态

PolarDB vs RDS 面试题

  • PolarDB 底层是共享存储(一写多读共享同一份数据),加只读节点秒级;RDS 集群版是独立存储+物理复制,加节点需要全量复制
  • PolarDB 计费 = 计算节点 + 存储空间(按实际使用自动收费);RDS 存储是预购的
  • 大数据量(>1TB)选 PolarDB,<500GB 且成本敏感选 RDS

4.2 NoSQL 与缓存

产品场景
Redis 云数据库标准版(主从)、集群版(分片)、读写分离版
Tair阿里自研增强版 Redis,性能型(内存)、容量型(持久内存)、存储型(SSD)
MongoDB 云数据库副本集、分片集群
Lindorm原 HBase 增强版,宽表/时序/搜索一体化
Tablestore(OTS)结构化大数据,按量付费,适合 IoT/日志

4.3 时序与搜索

  • TSDB:时序数据库,监控指标场景(与 Prometheus 远程存储集成)
  • ES Elasticsearch 服务:全文搜索、日志分析(配合 SLS 或单独使用)

五、网络类产品(详见 03 文档)

快速记忆:

  • VPC:自建网络隔离,必须
  • SLB(经典,已弱化)/ ALB(应用层 HTTP/7 层)/ NLB(网络层 TCP/UDP,超高性能)
  • NAT 网关:SNAT 共享出公网,DNAT 端口映射
  • 弹性公网 IP(EIP):公网入口
  • 共享带宽包:多 EIP 共享带宽池,削峰
  • CEN(云企业网):跨 Region、跨 VPC、线下 IDC 互联骨干

六、成本优化实战方法论

6.1 分析阶段

  1. 费用中心:按产品/Tag/项目分组查账单
  2. 成本分析:趋势、环比、Top N 资源
  3. Cost Manager / 费用账单 API:自建报表

6.2 优化手段清单(按 ROI 排序)

手段预期节省实施难度
闲置资源清理(未挂载磁盘、游离 EIP、停机未释放)5-15%
规格合理化(Rightsizing,基于 CloudMonitor 历史数据)15-30%⭐⭐
计费模式优化(包年 + RI + SCU + Spot 组合)20-40%⭐⭐
存储分层(OSS 生命周期、冷数据下沉归档)30-70%(仅存储部分)⭐⭐
架构改造(Serverless、容器化提高密度)30-50%⭐⭐⭐⭐
代次升级(老 ECS → g7/g8i)10-20%⭐⭐
跨 Region 流量重构(就近接入、CDN)网络费 30-50%⭐⭐⭐

6.3 FinOps 落地

  • Tag 体系:业务线、环境、Owner、成本中心 4 个维度必打
  • 预算告警:分 BU/项目设月度预算,超 80% 告警
  • Showback/Chargeback:成本分摊到业务线,推动业务方优化
  • 定期 Review:月度成本会议,Top 10 异常资源追因

七、合同与采购层面(资深才会被问)

  • 折扣谈判:年消耗超 100 万可谈客户经理折扣,通常 8-9 折,大客户能到 6-7 折
  • 云优惠计算器:官方价 + 代金券 + RI + SCU 组合报价
  • 多云策略:阿里 + 腾讯/华为做备份容灾,也是议价筹码
  • 账号体系:主账号 + RAM 子账号 + 资源组,多 BU 财务隔离用企业账号+多成员账号+财务管理
  • 合规要求:等保 2.0 二级/三级、ISO27001、GDPR、PCI DSS — 阿里云多数产品已合规,你需要的是证据链

八、面试高频问答

Q1:如何为一个日活 100 万的电商 App 做云资源选型? 答题结构:

  1. 拆业务:Web/API(g7 + SLB)、DB(PolarDB 一写两读)、缓存(Tair 集群版)、文件(OSS + CDN)、消息(RocketMQ)、搜索(ES)
  2. 估容量:峰值 QPS = DAU × 人均请求 / 峰值系数,反推实例数
  3. 容灾:双 AZ 部署,RDS 主备跨 AZ,OSS 同城冗余
  4. 计费:基线 SCU 3 年、弹性按量、离线 Spot
  5. 可观测:SLS + ARMS 全家桶
  6. 预算:给出月度费用估算范围和优化路径

Q2:ECS 包年包月到期不续费会怎样?

  • 到期前 7 天提醒 → 到期后实例进入停机保留(15 天,云盘和公网 IP 保留)→ 超过释放期自动销毁
  • 运维红线:所有包月资源必须开自动续费 or 告警到人

Q3:为什么有时按量付费反而更便宜?

  • 利用率 < 30% 的机器,按量(只在使用时计费)总成本低于包月
  • 但阿里云按量是按小时,不足 1 小时按 1 小时算,频繁启停要注意

Q4:Spot 实例怎么用才靠谱?

  • 必须无状态 + 可中断
  • 监听 instance-action 元数据端点,收到中断信号(提前 5 分钟)优雅退出
  • 多规格池:启动模板配置多个规格族,某个池被抢走时自动换池
  • 配合 ECI Spot 跑 K8s 离线 Job 是经典方案

Q5:包年包月 vs SCU 怎么选?

  • 包月:锁定具体实例,迁移规格要重购
  • SCU:锁定消费金额,可自由切换规格族和 Region(更灵活)
  • 新架构优先 SCU;已有大量包月存量,到期切 SCU

九、必看官方资料

  • 阿里云产品文档:help.aliyun.com
  • 阿里云架构中心:bp.aliyun.com(各行业最佳实践)
  • 阿里云定价计算器:www.aliyun.com/price/produ…
  • Well-Architected Framework 阿里云版:搜索"阿里云 Well-Architected"