写给0-1岁的初创公司合伙人(4)：应用发布上线启动前的自查清单为确保应用上线后稳定、安全、高效运行，以下清单覆盖操作落

为确保应用上线后稳定、安全、高效运行，以下清单覆盖操作落地性、安全防护、可靠性保障、性能优化、成本控制五大核心维度，均为上线前需逐一验证的关键动作。

一、操作卓越性（保障上线与运维流畅）

制定事件响应计划：明确事件分级（如P0-P3）、责任人、升级路径（如一线运维→技术负责人→业务负责人）、内外部沟通渠道（如内部群、用户公告页）及回滚触发条件（如核心功能报错率＞1%、服务不可用超5分钟）。
配置全链路监控：覆盖性能指标（如接口响应时间、页面加载速度）、错误数据（如前端JS报错、后端5xx/4xx错误）、流量波动（如QPS峰值、用户地域分布），确保异常可实时告警、问题可追溯。
验证部署与回滚能力：测试灰度发布（如10%用户先行验证）、蓝绿部署（如新旧版本无缝切换）流程；确认回滚操作可在5分钟内完成，且回滚后数据一致性不受影响（如数据库回滚脚本有效性）。
优化构建效率（针对monorepo场景） ：配置构建缓存（如依赖包缓存、子项目编译结果缓存），避免每次部署重复构建无变更模块，缩短构建时长至合理范围（建议≤30分钟）。
完成域名配置与迁移：
- 添加www子域，并设置顶级域名（如example.com）自动重定向至www.example.com，避免域名访问歧义；
- 执行DNS零停机迁移（如先配置新DNS解析、等待全球生效后再停用旧解析），确保迁移期间用户无感知。

二、安全性（防范上线后安全风险）

部署安全防护策略：
- 配置Web应用防火墙（WAF），开启常见攻击防护（如SQL注入、XSS、CSRF），并设置异常流量拦截规则（如单IP单日请求超1000次触发挑战）；
- 实施内容安全策略（CSP），限制脚本、样式、图片等资源的加载源，禁用inline-script与unsafe-eval，同时配置必要安全头（如X-Frame-Options、X-XSS-Protection）。
启用环境与部署保护：
- 测试/预发环境添加访问控制（如密码验证、企业内网IP白名单），防止未授权人员访问；
- 生产环境禁用直接部署权限，需经代码评审、测试验证后通过审批流程触发部署。
保障日志与依赖安全：
- 配置日志持久化（如对接ELK、Splunk等工具），保留至少30天部署日志、访问日志，用于安全审计与问题排查；
- 提交依赖锁文件（如package-lock.json、pom.lock），固定依赖版本，避免上线后因依赖自动更新引入漏洞（可配合Snyk、Dependabot扫描依赖风险）。
合规与权限管控：
- 检查SSL/TLS证书：确认证书未过期、域名匹配（如泛域名覆盖所有子域）、支持TLS 1.2+协议，禁用不安全加密套件；
- 梳理团队权限：按“最小权限原则”配置角色（如开发仅可操作测试环境、运维拥有生产环境只读权限），移除离职人员账号；
- 按需启用单点登录（SSO，如SAML、OAuth2.0）与操作审计日志，跟踪权限变更、部署操作等关键行为；
- 配置Cookie合规：禁用不必要的第三方Cookie，标记必要Cookie的用途（如登录态Cookie），符合GDPR、CCPA等法规要求。
防范滥用风险：
- 对核心接口（如登录、支付）实施速率限制（如单用户1分钟内请求不超过10次）；
- 多租户应用需添加“滥用举报入口”，支持用户上报违规内容，且后台可快速处理（如封禁账号、删除内容）。

三、可靠性（避免上线后服务中断）

配置冗余与故障切换：
- 核心服务（如API接口、计算函数）部署多区域节点，启用自动故障切换（如某区域节点不可用时，流量自动路由至其他可用区域）；
- 数据库、缓存（如Redis）采用主从架构或集群模式，避免单点故障，且需测试主从切换的有效性（如主节点宕机后，从节点10秒内接管服务）。
优化缓存策略：
- 静态资源（如图片、CSS、JS）配置长期缓存（如Cache-Control: max-age=31536000），并使用CDN分发；
- API响应根据更新频率配置缓存（如实时数据不缓存、半实时数据缓存5分钟），同时明确缓存失效逻辑（如主动刷新、超时自动失效）；
- 区分“缓存头配置”与“增量静态再生（ISR）”的适用场景：静态页面用ISR（如新闻详情页，定时重新生成），动态数据用接口缓存（如用户个人信息）。
增强可观测性：
- 接入分布式跟踪工具（如OpenTelemetry），串联前端、API、数据库的请求链路，可定位跨服务的性能瓶颈或错误；
- 执行负载测试：模拟高并发场景（如QPS达预期峰值的1.5倍），验证上游服务（如数据库、第三方API）的承载能力，避免上线后因流量突增崩溃。

四、性能优化（提升用户体验）

监控核心性能指标：
- 接入前端性能工具（如Lighthouse、Sentry、Fathom），确保Core Web Vitals达标：LCP（最大内容绘制）≤2.5秒、FID（首次输入延迟）≤100毫秒、CLS（累积布局偏移）≤0.1；
- 审查后端接口TTFB（首次字节时间），核心接口（如首页数据接口）TTFB需≤300毫秒，非核心接口≤500毫秒。
优化资源加载效率：
- 图像优化：压缩体积（如用TinyPNG）、适配响应式尺寸（如移动端加载500px宽图片，PC端加载1000px宽图片）、使用WebP/AVIF格式，非首屏图像启用延迟加载；
- 脚本优化：拆分代码包（如路由懒加载）、按需加载非首屏脚本（如弹窗组件脚本）、禁用无意义第三方脚本（如未使用的统计工具），脚本加载添加defer/async属性避免阻塞渲染；
- 字体优化：使用字体子集（仅包含应用所需字符）、预加载关键字体（如首页标题字体）、配置font-display: swap避免“无字体显示（FOIT）”。
降低网络延迟：
- 核心服务（如API、数据库）部署区域与目标用户群体匹配（如国内用户用阿里云华东节点，海外用户用AWS新加坡节点）；
- 评估第三方代理（如CDN、API网关）的性能损耗，避免多层代理（如CDN→API网关→后端服务）导致的延迟叠加，必要时直接对接核心服务。

五、成本优化（避免资源浪费）

梳理成本构成与监控：
- 列出所有资源消耗项（如服务器实例、CDN流量、对象存储容量、数据库规格），明确各项目成本占比；
- 设置成本告警（如月度支出超预算10%时触发通知），实时跟踪资源使用趋势。
优化计算与存储资源：
- 调整计算资源规格：根据负载测试结果，配置API函数、容器实例的超时时间（如非核心接口超时设为3秒，避免资源占用过久）与规格（如低流量服务用2核4G实例，而非4核8G）；
- 清理无用资源：删除过期测试环境、未使用的依赖包、冗余备份文件（如仅保留近3份数据库备份），关闭闲置服务（如上线后停用的测试API）。
控制静态资源成本：
- 统一静态资源存储：将图片、文件等存入对象存储（如OSS、S3），避免重复存储，且配置访问规则（如禁止直接访问存储地址，需通过CDN转发）；
- 大型媒体文件处理：将GIF、视频等大体积文件移至专业存储（如blob存储、视频云），避免占用CDN流量（视频建议用HLS/DASH协议分片加载）。
优化缓存与再生策略：
- 调整ISR重新验证时间：根据内容更新频率设置（如新闻页1小时重新验证，静态页面1天重新验证），或改用“按需重新验证”（内容更新时主动触发再生），减少不必要的再生请求；
- 最大化缓存命中率：确保CDN缓存规则与资源更新逻辑匹配（如静态资源用版本号命名，更新时变更版本号触发缓存刷新），降低源站请求量。