在风控系统中,数据采集层决定上限。
如果你看不见攻击者,你就无法对抗攻击者。
黑灰产不会直接告诉你“我是脚本”,
他们会伪装成正常用户。
你的任务是:
还原“请求背后到底是谁”。
这篇文章,我们重点讲两个核心问题:
- 如何识别代理池
- 如何识别群控设备
一、代理池识别原理
1. 什么是代理池?
代理池是黑产最基础的能力设施。
它通常包含:
- IDC 机房 IP
- 云服务器 IP
- 海外 VPS
- 被劫持的家庭宽带
- 动态住宅代理
攻击者通过轮换 IP:
- 绕过频率限制
- 避免黑名单
- 提高成功率
如果你只按 IP 次数限流,几乎没有意义。
2. 代理池的识别思路
识别代理,不是“判断是不是代理”,而是计算:
这个 IP 像不像真实用户?
可以从四个维度判断。
2.1 IP 基础属性识别
通过第三方 IP 库或自建库识别:
- ASN(自治系统号)
- 是否属于云厂商
- 是否 IDC 机房
- 是否已知代理出口
例如:
- 大量来自云服务器 ASN
- 大量来自某个海外数据中心
这种 IP 风险天然偏高。
但问题在于:
现在很多代理是“住宅代理”
单纯 ASN 判断已经不够。
2.2 行为模式识别
真实用户的 IP 行为特征:
- 请求间隔不规律
- 访问路径有跳转
- 停留时间自然
- 只对应少量账号
代理池 IP 特征:
- 请求节奏极其稳定
- 短时间关联大量账号
- 注册→登录→退出节奏固定
- 24小时无间断活跃
可以构建如下特征:
近1小时注册数
近24小时关联账号数
请求间隔标准差
账号切换频率
真实用户的行为“有噪声”,脚本行为“高度规则”。
2.3 IP 画像评分模型
单个特征不够,需要综合评分。
示例评分公式:
IP风险分 =
0.3 * ASN风险值 +
0.2 * 账号关联数 +
0.2 * 请求频率异常度 +
0.3 * 历史命中次数
超过阈值 → 高风险 IP。
这就是简单的“IP 画像模型”。
2.4 IP 关联图识别
如果一个 IP:
- 关联 200 个账号
- 这些账号彼此又有转账/邀请关系
- 形成团伙图谱
那这个 IP 基本可以判定为代理出口。
这就进入图计算阶段。
二、群控设备识别原理
代理只是网络层问题。
更高阶攻击是:
一台物理设备控制几十甚至几百台手机。
这就是群控。
1. 群控设备的特征
群控通常表现为:
- 设备指纹高度相似
- 同一时间大量注册
- 操作路径一致
- 触摸行为节奏一致
- 地理位置异常集中
群控设备的核心特点:
批量、同步、可编排。
2. 设备指纹识别
设备指纹不是简单的 deviceId。
常见采集字段:
- 设备型号
- 系统版本
- 分辨率
- CPU 架构
- GPU 信息
- 字体列表
- WebGL 指纹
- Canvas 指纹
- 电池信息
- 时区
- 语言
组合成一个哈希值:
fingerprint = hash(多维度参数)
问题是:
高级群控会篡改部分字段。
所以不能用“完全一致”来判断。
3. 相似度匹配而不是完全匹配
构建设备特征向量:
[型号, 系统版本, 分辨率, 字体数, 时区, 语言...]
计算相似度:
- Jaccard 相似度
- 余弦相似度
- 汉明距离
如果多个设备:
- 相似度 > 0.9
- 且短时间内注册多个账号
高度疑似群控。
4. 行为节奏识别(核心)
群控设备最难隐藏的是:
操作节奏
真实用户:
- 输入间隔不稳定
- 滑动速度变化大
- 点击位置略有偏移
脚本或群控:
- 输入间隔固定
- 点击间隔精确
- 滑动轨迹高度一致
可以采集:
两次点击时间差
输入时长
滑动轨迹点数量
轨迹加速度变化
再做异常检测。
三、注册场景完整识别链路示例
以注册为例:
1. 用户发起注册
2. 网关采集IP + 设备指纹
3. 实时计算IP风险分
4. 查询设备历史关联账号数
5. 计算行为节奏异常度
6. 综合打分
7. 输出决策
决策可能是:
- 放行
- 验证码
- 短信校验
- 直接拒绝
延迟要求通常 < 20ms。
四、系统架构建议
一个成熟的数据采集系统应该具备:
1. 边缘采集
- 在网关层采集数据
- 降低延迟
- 防止绕过
2. 实时特征缓存
- Redis 存储 IP 计数
- 滑动窗口统计
- 设备关联关系缓存
3. 异步图谱分析
- 实时轻量决策
- 离线图谱识别团伙
- 反哺黑名单
五、对抗升级:黑产会如何绕过?
你做什么,他们就绕什么。
你封 IP → 他们用住宅代理
你封设备 → 他们随机化指纹
你做规则 → 他们打噪声
风控本质是:
让攻击成本高于收益。
不是 100% 阻断。
六、本质总结
识别代理池与群控设备的核心思想:
- 不看单点,看组合特征
- 不做绝对判断,做风险评分
- 不只做实时判断,要做历史关联
- 不只规则判断,要做统计与模型
风控系统的上限,取决于你对数据的理解深度。