Prime Video如何将时间序列异常转化为可操作警报

53 阅读1分钟

Prime Video如何将时间序列异常转化为可操作警报

Prime Video客户必须能够在所有支持该应用的设备(如手机、智能电视或游戏主机)上可靠地流式传输内容。面对海量设备类型和地区组合,Prime Video团队通过重构问题为大规模在线时间序列异常检测任务,开发了自动化监控解决方案。

技术挑战与解决方案

1. 预期特殊事件

对于已知会影响指标流量的活动(如超级碗赛事或《指环王:力量之戒》首映),团队采用协变量增强的预测模型。通过二进制编码调度事件(如图表所示),结合历史数据分析不同赛事对流量波动的具体影响。

2. 非预期低影响事件

针对无法预见的区域性活动(如天气变化),提出集成检测方法:

  • 组合均值、方差、趋势等不同特征的检测器
  • 融合基于预测和基于导数的异常评分器(如图例所示)
  • 通过衍生指标和相关性检测器过滤无害异常

3. 非预期高影响事件

对于突发重大事件(如自然灾害或突发新闻),采用终端用户模拟策略:

  • 验证受影响区域内其他技术栈指标的同步偏差
  • 建立服务关联性分析机制

实施效果

该方案显著降低了误报率,使工程师能专注于真实故障。文章同时指出需持续评估误报抑制机制可能导致的漏检风险,并建议将领域特定知识与通用异常检测方法相结合。