当「看不见」的流量开始说谎:企业网络的异常IP识别与主动防御实战

0 阅读1分钟

干了十几年网络运维,我有个很深的感受:大部分安全事件发生之前,其实都有征兆,只是我们没注意到。

上个月凌晨三点,我前同事打电话给我,声音很紧张——他们公司出口带宽突然被打满,ERP系统彻底瘫痪。一查才发现,二十多台办公电脑正在往某个境外IP狂发数据,而这些电脑的主人早就下班回家了。

这不是什么高级APT攻击,就是典型的木马外联。但问题在于:为什么这么久才被发现?

CNCERT最近发布的监测报告给了我答案:今年一季度,异常网络活动同比增长明显,攻击者用动态IP打游击、走后门进终端,传统那套基于静态黑名单的防护基本成了摆设。

今天不扯概念,从实际出发聊聊怎么做。

## 那些我们最容易忽视的「正常」

做安全这么多年,我发现最难防的不是高级威胁,而是那些看起来很「正常」的东西。

**太规律的流量反而不对劲**

CNCERT的监测数据有个细节很有意思:涉事设备的通信行为高度统一——固定端口、周期连接、流量模式单一。

正常业务流量应该是随机的、多样的。但如果某个终端每天凌晨两点准时外联,频率精确到30秒一次,持续时间完全一致,这种「太准时」本身就是报警信号。我们之前处理过一个案子,某员工电脑深夜大量DNS请求,间隔完全一样,一查是个隐藏的远控木马。

**动态IP让传统封禁白忙活**

很多新手运维遇到攻击,第一反应是封IP。但现在的攻击者学聪明了,今天封了这个,明天换个地址段继续。CNCERT明确指出,这些异常IP地址段分散、更换频繁,静态名单根本跟不上。

**入口都是「正规渠道」**

最容易被忽视的一点:木马进内网,往往不是通过钓鱼邮件,而是通过员工从非官方渠道下载的那些「小工具」——截图软件、格式转换器、破解补丁。员工觉得是从官网下的,没问题。但攻击者早就污染了这些分发渠道。

CNCERT监测到的这批受影响设备,相当一部分就是这么进来的。

## 实战:四层防线怎么搭

说理论没意思,直接讲怎么落地。

### 第一层:先看到流量

看不见的东西没法管。

我们厂的方案是核心交换机旁路部署流量采集,采集NetFlow数据做分析。这东西开销小,但信息量大——能知道哪台设备在和谁通信、用了多少带宽、什么时候开始的。

DNS日志也要看。很多木马的C2通信依赖DNS,尤其是那种DGA域名生成的,解析行为会很异常。

有些朋友可能会问,要不要上DPI?我建议看预算。NetFlow够用,但如果资金充足,上个轻量级DPI解析TLS指纹,能发现更多隐藏的东西。

### 第二层:让系统自己「找不同」

光看到流量不够,还得让系统能自动发现不对劲的地方。

核心思路是**基线检测**:先给每台设备建立正常行为画像,包括它通常在什么时间段活跃、访问哪些IP段、流量多大。然后系统实时对比,有偏差就告警。

有个细节要注意——**单一维度别太当真**。某个终端流量大了,可能是有人在传大文件;某个终端深夜活跃,可能有人加班。真正可疑的信号是多个维度同时异常:比如某终端同时出现「深夜活跃+流量突增+连接境外IP」三个特征,这时候基本可以确认有问题。

### 第三层:自动化该上就上

发现异常之后,响应速度决定损失大小。

我见过太多团队,告警发到群里,值班的兄弟还得登录防火墙手动封IP。一通操作下来,十分钟过去了,该传的敏感数据早就传完了。

我们后来上了SOAR,把常见处置流程自动化:告警触发 → 自动隔离问题终端 → 同步通知值班人员 → 创建工单记录。整套流程30秒完成,人工只需要最后确认处置结果。

有人可能会说,小公司没预算上这些。那我建议至少把防火墙和监控平台联动起来,实现基础的自动封禁。这个不需要额外花钱,设备自带的功能。

### 第四层:每次事件都要复盘

这是最重要的,但也是最容易被忽略的。

每次告警处置完,必须做复盘:这次是真的攻击还是误报?误报原因是什么?检测规则要不要优化?有没有新的攻击手法需要补充检测?

我们团队有个规矩:每周安全数据要过一遍,看告警趋势、响应时长、闭环率。数据不会骗人,它会告诉你体系哪里有短板。

## 工具这事说两句

经常有人问我用什么工具做监控。

坦白讲,现在市面上方案挺多,我们厂用的是OpManager,主要图个省心——网络设备、服务器、虚拟机一套平台都能管,流量基线、告警规则、自动化工作流都有,基础能力够用。

但我想说的是:工具只是辅助,再好的系统也得有人盯。我见过太多公司买了安全平台,结果告警堆成山没人看,安全设备成了摆设。

我的建议是:先把现有工具用起来,把告警收敛做好,别急着上更多系统。小团队先把基础的监控和响应闭环跑顺,比一下子搞个大而全的体系强。

## 收尾

回到开头那通电话。我前同事后来怎么解决的?他们把感染主机的那个「截图工具」删了,清了木马,改了密码。

事情不大,但暴露的问题不小:如果不是那条及时触发的告警,数据早就没了。

安全这东西,做了不一定能完全避免出事,但没做的代价一定很大。

先把流量可视化做好,把基线建起来,把自动化响应跑通。这些基础做好了,至少能睡个安稳觉。