数据采集层详解:如何识别代理池与群控设备(二)

7 阅读5分钟

在风控系统中,数据采集层决定上限。

如果你看不见攻击者,你就无法对抗攻击者。

黑灰产不会直接告诉你“我是脚本”,
他们会伪装成正常用户。

你的任务是:

还原“请求背后到底是谁”。

这篇文章,我们重点讲两个核心问题:

  1. 如何识别代理池
  2. 如何识别群控设备

一、代理池识别原理

1. 什么是代理池?

代理池是黑产最基础的能力设施。

它通常包含:

  • IDC 机房 IP
  • 云服务器 IP
  • 海外 VPS
  • 被劫持的家庭宽带
  • 动态住宅代理

攻击者通过轮换 IP:

  • 绕过频率限制
  • 避免黑名单
  • 提高成功率

如果你只按 IP 次数限流,几乎没有意义。


2. 代理池的识别思路

识别代理,不是“判断是不是代理”,而是计算:

这个 IP 像不像真实用户?

可以从四个维度判断。


2.1 IP 基础属性识别

通过第三方 IP 库或自建库识别:

  • ASN(自治系统号)
  • 是否属于云厂商
  • 是否 IDC 机房
  • 是否已知代理出口

例如:

  • 大量来自云服务器 ASN
  • 大量来自某个海外数据中心

这种 IP 风险天然偏高。

但问题在于:

现在很多代理是“住宅代理”

单纯 ASN 判断已经不够。


2.2 行为模式识别

真实用户的 IP 行为特征:

  • 请求间隔不规律
  • 访问路径有跳转
  • 停留时间自然
  • 只对应少量账号

代理池 IP 特征:

  • 请求节奏极其稳定
  • 短时间关联大量账号
  • 注册→登录→退出节奏固定
  • 24小时无间断活跃

可以构建如下特征:

近1小时注册数
近24小时关联账号数
请求间隔标准差
账号切换频率

真实用户的行为“有噪声”,脚本行为“高度规则”。


2.3 IP 画像评分模型

单个特征不够,需要综合评分。

示例评分公式:

IP风险分 = 
    0.3 * ASN风险值 +
    0.2 * 账号关联数 +
    0.2 * 请求频率异常度 +
    0.3 * 历史命中次数

超过阈值 → 高风险 IP。

这就是简单的“IP 画像模型”。


2.4 IP 关联图识别

如果一个 IP:

  • 关联 200 个账号
  • 这些账号彼此又有转账/邀请关系
  • 形成团伙图谱

那这个 IP 基本可以判定为代理出口。

这就进入图计算阶段。


二、群控设备识别原理

代理只是网络层问题。

更高阶攻击是:

一台物理设备控制几十甚至几百台手机。

这就是群控。


1. 群控设备的特征

群控通常表现为:

  • 设备指纹高度相似
  • 同一时间大量注册
  • 操作路径一致
  • 触摸行为节奏一致
  • 地理位置异常集中

群控设备的核心特点:

批量、同步、可编排。


2. 设备指纹识别

设备指纹不是简单的 deviceId。

常见采集字段:

  • 设备型号
  • 系统版本
  • 分辨率
  • CPU 架构
  • GPU 信息
  • 字体列表
  • WebGL 指纹
  • Canvas 指纹
  • 电池信息
  • 时区
  • 语言

组合成一个哈希值:

fingerprint = hash(多维度参数)

问题是:

高级群控会篡改部分字段。

所以不能用“完全一致”来判断。


3. 相似度匹配而不是完全匹配

构建设备特征向量:

[型号, 系统版本, 分辨率, 字体数, 时区, 语言...]

计算相似度:

  • Jaccard 相似度
  • 余弦相似度
  • 汉明距离

如果多个设备:

  • 相似度 > 0.9
  • 且短时间内注册多个账号

高度疑似群控。


4. 行为节奏识别(核心)

群控设备最难隐藏的是:

操作节奏

真实用户:

  • 输入间隔不稳定
  • 滑动速度变化大
  • 点击位置略有偏移

脚本或群控:

  • 输入间隔固定
  • 点击间隔精确
  • 滑动轨迹高度一致

可以采集:

两次点击时间差
输入时长
滑动轨迹点数量
轨迹加速度变化

再做异常检测。


三、注册场景完整识别链路示例

以注册为例:

1. 用户发起注册
2. 网关采集IP + 设备指纹
3. 实时计算IP风险分
4. 查询设备历史关联账号数
5. 计算行为节奏异常度
6. 综合打分
7. 输出决策

决策可能是:

  • 放行
  • 验证码
  • 短信校验
  • 直接拒绝

延迟要求通常 < 20ms。


四、系统架构建议

一个成熟的数据采集系统应该具备:

1. 边缘采集

  • 在网关层采集数据
  • 降低延迟
  • 防止绕过

2. 实时特征缓存

  • Redis 存储 IP 计数
  • 滑动窗口统计
  • 设备关联关系缓存

3. 异步图谱分析

  • 实时轻量决策
  • 离线图谱识别团伙
  • 反哺黑名单

五、对抗升级:黑产会如何绕过?

你做什么,他们就绕什么。

你封 IP → 他们用住宅代理
你封设备 → 他们随机化指纹
你做规则 → 他们打噪声

风控本质是:

让攻击成本高于收益。

不是 100% 阻断。


六、本质总结

识别代理池与群控设备的核心思想:

  1. 不看单点,看组合特征
  2. 不做绝对判断,做风险评分
  3. 不只做实时判断,要做历史关联
  4. 不只规则判断,要做统计与模型

风控系统的上限,取决于你对数据的理解深度。