需求确认明确目标网站、字段、频率、存储格式、合规边界。 2. 站点分析抓包分析接口、页面渲染方式(静态 / 异步 / JS 渲染)、参数加密、签名规则。 3. 方案设计确定技术栈(Requests/Playwright/Selenium)、是否用代理、并发策略。 4. 开发爬虫写请求、解析(XPath/JSON/ 正则)、字段提取、去重、异常捕获。 5. 反爬对抗处理 IP 封禁、Cookie、Token、验证码、UA、指纹、风控检测。 6. 数据清洗格式统一、缺失值处理、校验、结构化输出。 7. 部署与调度定时任务、分布式、日志、监控、告警。 8. 运维与迭代监控稳定性,页面改版后及时修复爬虫,持续优化效率。 9. 合规与安全遵守 robots、平台协议、法律法规,避免越权与大规模采集。