不写规则也能抽数据？本文探讨了企业在招聘数据分析中对薪资信息采集的挑战，分析了从纯规则采集到智能解析的发展，并指出智能

—— 以 BOSS 直聘职位页薪资解析为例

一、业务背景：企业为什么越来越依赖招聘数据分析

在企业人力资源管理中，招聘早已不是“发岗位、等简历”这么简单。

越来越多的 HR 团队、用人部门和管理层，开始关注这些问题：

同类岗位在市场上的真实薪资区间是多少？
我们给出的薪资是否高于 / 低于市场中位数？
不同城市、不同公司规模，对同一岗位的薪资描述有什么差异？
“15-25K”“20K·14薪”“年薪 30-50 万”这些描述，如何统一量化？

要回答这些问题，招聘网站的数据几乎是唯一可靠的数据来源。

而在国内招聘平台中，BOSS 直聘的职位页有一个非常典型的特征：

薪资描述高度非结构化

这恰好成为“规则爬虫”和“智能解析”能力边界的分水岭。

二、问题本质：薪资字段，为什么这么难爬？

以 BOSS 直聘为例，同一个“Python 工程师”岗位，薪资可能长这样：

15-25K
20-30K·13薪
年薪 40-60 万
面议
18-22K + 项目奖金
25K 起，上不封顶

从 HR 的角度看，这些描述信息量很大；
但从采集工程的角度看，这是一个噩梦：

没有固定格式
单位混杂（K / 万 / 年薪）
薪资结构嵌套在自然语言中
页面 UI 经常调整

这正是“智能解析”被频繁提起的现实土壤。

三、第一阶段：纯规则采集 —— 能用，但极其脆弱

1. 规则采集的典型做法

早期的做法非常直接：

分析 BOSS 直聘职位页 DOM
用 XPath / CSS Selector 定位薪资节点
提取文本，再用正则解析数值

//div[@class="salary"]/text()

2. 在 HR 分析中的优势

精准
可解释
适合少量、固定页面

3. 致命问题

页面 class 名经常变化
A/B 测试导致 DOM 层级不同
薪资字段偶尔被拆分成多个节点

对企业而言，这意味着：

数据口径一旦不稳定，所有招聘分析结论都会失真。

四、第二阶段：半自动规则抽象 —— 成本转移，而非消失

为降低维护成本，工程上开始做一些“规则抽象”：

常见思路

不依赖绝对 XPath，而是：
- 查找“薪资关键词附近节点”
- 结合 DOM 位置关系
使用正则匹配：
- \d+-\d+K
- 年薪.*万

改进点

页面微调不至于立即失效
可复用到多个岗位页面

局限依然明显

规则数量依旧随页面复杂度增长
“面议”“起薪”“上不封顶”等描述仍需人工兜底

本质上，工程复杂度只是被推迟了。

五、第三阶段：智能解析爬虫 —— 真正的转折点

随着 NLP 和大模型的发展，“智能解析”开始进入采集领域。

智能解析在招聘场景中的核心能力

自动识别“薪资语义块”
不再强依赖 DOM 结构
从自然语言中理解：
- 数值
- 区间
- 单位
- 薪资周期（月 / 年）

例如，模型可以判断：

“20-30K·13薪”
→ 月薪区间 + 年终薪资结构

从 HR 数据分析角度看，这非常有吸引力：

更快覆盖新岗位
减少人工规则维护
数据规模扩展更容易

六、智能解析的边界：在招聘场景中尤为明显

但问题也在这里。

1. 页面行为与反爬

BOSS 直聘存在：
- 动态加载
- 行为校验
- 访问频率限制

这不是智能解析能解决的问题，只能通过：

稳定代理 IP
合理访问策略

2. 语义漂移问题

同一个字段，在不同页面可能表达不同含义：

“25K 起”
“25K-35K（能力优秀可谈）”

模型理解的是“语义可能性”，
而企业分析需要的是确定性口径。

3. HR 视角的核心需求

企业不关心模型“猜得像不像”，
只关心数据是否稳定、可解释、可复盘。

这正是智能解析的天然边界。

七、工程实战：BOSS 直聘职位页采集示例（含代理 IP）

下面是一个最小可用示例，演示：

使用亿牛云爬虫代理保证访问稳定性
将“字段定位”交给智能解析模块
保留人工兜底空间

import requests

# ===============================
# 16YUN代理配置（示例）
# ===============================
proxy_host = "proxy.16yun.cn"
proxy_port = "8000"
proxy_user = "your_username"
proxy_pass = "your_password"

proxies = {
    "http": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}",
    "https": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}",
}

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)",
}

url = "https://www.zhipin.com/job_detail/xxxxxxxx.html"

response = requests.get(
    url,
    headers=headers,
    proxies=proxies,
    timeout=10
)

html = response.text

# ===============================
# 示例：将薪资解析交给智能解析模块
# ===============================
def smart_parse_salary(text):
    """
    模拟智能解析结果
    实际项目中可替换为 NLP / LLM 模块
    """
    # 这里只演示接口形态，不做具体实现
    return {
        "min_salary": 20000,
        "max_salary": 30000,
        "unit": "monthly",
        "extra": "13薪"
    }

salary_info = smart_parse_salary(html)

print(salary_info)

关键说明

代理 IP 解决的是“能不能访问”
智能解析解决的是“字段怎么理解”
二者职责完全不同，不可混用

八、推荐的企业级落地方案

从 HR 数据分析的实际需求出发，最稳妥的方案不是“全智能”。

架构原则

可解释 > 自动化程度
可回滚 > 模型准确率
数据稳定性 > 技术先进性

不写规则也能抽数据？