别让 AI 直接点 OA 网页：用受控 CLI 让 OA 更快、更稳、更安全（可审计、可幂等）引言：OA 自动化的真实困

引言：OA 自动化的真实困境

每天早上9点，某公司行政部的小张都要处理近20条请假申请核对——员工们在OA网页上填错日期、漏选假种、忘记附理由是常事；而研发部的小李，为了把“每月考勤对账”接入自动化流程，写了一堆浏览器脚本，结果OA前端一改版，脚本全部失效，还要重新调试DOM元素；更糟的是，尝试让AI协助处理审批的团队，曾因AI误点“驳回并归档”按钮，导致3条重要的加班调休申请被错误处理，复盘了整整两天。

这就是多数企业OA系统的现状：对人可用，对自动化/AI极不友好。员工手工操作能完成的登录、查余额、提请假、看审批，一旦想接入自动化或AI，就会暴露底层能力未抽象、操作不可控、风险无边界的核心问题。

一、OA 自动化的四大核心痛点

1. 操作高度依赖人工，重复且易出错

场景：某企业3000名员工，每人每月平均2次OA操作（查假、提请假、查审批），累计每月6000次重复操作；其中15%的操作因人工填错字段（如日期格式、假种选择）需要返工，每月额外消耗120人/小时。
本质：登录、跳转、填表、确认全是“人肉步骤”，效率低且稳定性完全依赖人的细心程度。

2. 系统能力无抽象，对外是“黑盒”

OA的核心能力（如请假提交、审批流转）藏在网页交互背后，外部无法获取稳定、可复用、可组合的接口语义：

对人：是“点页面、填表单”的直观操作；
对系统/AI：是DOM节点、按钮点击、页面跳转的无序组合，没有“提交请假申请”“查询年假余额”这类业务级语义。

3. 网页自动化≠系统化接入

很多团队用Selenium/Puppeteer做网页自动化，或让AI直接控制浏览器，看似解决了“自动操作”，但存在致命问题：

脆弱性：前端结构（如按钮ID、表单字段名）一改，自动化链路直接失效；
无管控：权限校验、幂等保护、误操作兜底、审计追踪全靠脚本开发者自行实现，极易遗漏；
不可控：AI无法区分“可逆操作（查余额）”和“不可逆操作（提交审批）”，误操作代价极高。

4. 高风险动作缺乏边界

查询类操作（查假种、余额）风险低，但审批、提单、驳回等动作一旦误触发，影响的是真实业务单据：

二、更稳妥的解法：AI 不碰网页，只调用受控 CLI 工具

核心架构对比

反模式（脆弱且高风险）：

在这里插入图片描述

最优解（稳定且可控）：
在这里插入图片描述

为什么要先做oa-cli？

oa-cli 不是“换个方式点网页”，而是把OA高频动作抽象成稳定、可治理、带管控的命令，收拢页面分散的流程、字段、校验和异常处理能力。

基础 CLI 命令示例（完整场景）

# 认证相关
oa-cli auth login --username zhangsan --password-env OA_PWD  # 密码从环境变量读取，避免明文
oa-cli auth status  # 输出JSON格式的登录状态
oa-cli auth logout --clean-cache  # 登出并清理本地会话缓存

# 请假相关
oa-cli leave types  # 查询所有可用假种（年假/事假/病假等）
oa-cli leave balance --type annual  # 查询年假余额
oa-cli leave list --start 2026-01-01 --end 2026-04-01  # 查询指定时间段请假记录
oa-cli leave preview --type annual --start "2026-04-10 09:00" --end "2026-04-10 18:00" --reason "事假"  # 预览提交结果（无实际提交）
oa-cli leave submit --type annual --start "2026-04-10 09:00" --end "2026-04-10 18:00" --reason "事假" --confirm --dry-run=false  # 确认提交（--dry-run=true时仅预览）
oa-cli leave cancel --apply-id 12345 --confirm  # 撤销请假申请（高风险操作需确认）

CLI 带来的三大核心收益

1. 操作结构化：

人、脚本、AI面对的是统一参数（如日期格式、假种枚举）和结构化输出（JSON），而非不确定的网页交互；

示例输出：oa-cli leave balance --type annual

{
  "code": 0,
  "msg": "success",
  "data": {
    "employee_id": "10086",
    "annual_leave_total": 10,
    "annual_leave_used": 3,
    "annual_leave_remaining": 7,
    "update_time": "2026-04-01 15:30:00"
  }
}

2. 管控能力内置：

工具层统一实现关键管控，无需使用者自行处理：

--dry-run：预览操作结果，无实际提交；
--confirm：高风险操作强制人工确认；
幂等保护：重复提交同一请假申请（相同apply-id）自动过滤；
日志留痕：所有命令执行记录（用户、时间、参数、结果）落地；
会话过期检测：自动识别登录态失效，触发重新登录；

3. AI 接入有边界：

AI仅能调用白名单命令，高风险动作（如提交、撤销、审批）保留人工确认门槛，杜绝无约束操作。

三、为什么“先做 CLI”比“直接上 AI”更重要？

如果跳过CLI层，直接让AI对接OA网页/底层接口，只会放大现有问题：

对接方式	稳定性	可管控性	误操作风险	可维护性
AI 直接控制浏览器	极低（前端改版即失效）	无（无法管控AI点击行为）	极高（不可逆操作易误触发）	极低（需适配DOM/页面逻辑）
AI 调用底层接口	中（接口变更需适配）	低（需手动管控参数/权限）	中（参数错误易导致业务异常）	中（需维护接口签名/参数）
AI 调用封装后的CLI	高（CLI屏蔽底层变化）	高（内置确认/审计/幂等）	低（仅开放白名单+人工确认）	高（聚焦业务动作，而非底层交互）

四、现实可落地的分阶段路线（附实操细节）

这类系统最怕“一步到位做平台”，更高效的方式是按阶段落地，每个阶段聚焦“最小闭环”：

Stage 0：技术路径摸底（1-2天）

核心目标：明确OA的技术细节，决定Stage 1的接入方式（API/浏览器自动化）。

需确认的关键信息：

维度	需确认的内容	应对方案示例
登录方式	账号密码/短信验证码/单点登录（SSO）？	验证码：对接打码平台/人工扫码；SSO：解析token生成逻辑
会话机制	会话凭证（Cookie/Token）、过期时间、刷新逻辑	本地加密存储Cookie，定时调用`auth status`检测过期
表单校验	请假表单的隐藏字段（如部门ID）、前置校验（如年假余额是否足够）	提前抓取表单元数据，CLI层内置校验逻辑
接口安全	是否有CSRF Token/请求签名/跨域限制？	CSRF：抓取页面的CSRF Token并带入请求；跨域：通过代理转发

Stage 1：登录+请假闭环（3-5天）

核心目标：跑通“登录→查假→提请假”的最小闭环，产出可用的oa-cli基础版本。

核心功能&实操代码示例：

1. 认证模块（Python伪代码）：

# oa_cli/auth.py
import json
import os
import cryptography.fernet  # 加密存储会话信息
from requests import Session

def login(username: str, password: str) -> dict:
    """登录OA，返回会话信息并加密存储到本地"""
    sess = Session()
    # 1. 对接OA登录接口（优先）或用Playwright模拟登录（兜底）
    login_res = sess.post("https://oa.example.com/api/login", data={
        "username": username,
        "password": password,
        "csrf_token": get_csrf_token(sess)  # 抓取页面CSRF Token
    })
    # 2. 验证登录结果
    if login_res.json()["code"] != 0:
        raise Exception(f"登录失败：{login_res.json()['msg']}")
    # 3. 加密存储会话信息（Cookie/Token）
    cipher = cryptography.fernet.Fernet(os.getenv("OA_CLI_SECRET_KEY"))
    session_data = json.dumps(dict(sess.cookies))
    with open("~/.oa-cli/session", "wb") as f:
        f.write(cipher.encrypt(session_data.encode()))
    return {"code": 0, "msg": "登录成功"}

def status() -> dict:
    """检查登录状态"""
    # 解密读取本地会话，调用OA状态接口
    # ... 省略实现 ...
    return {"code": 0, "data": {"is_login": True, "expire_time": "2026-04-10 23:59:00"}}

2. 请假模块：

实现leave types/balance/preview/submit命令，内置--dry-run预览、--confirm确认逻辑；

3. 本地存储：

用加密方式存储会话信息（避免明文密码/Token泄露）；

4. 错误处理：

标准化错误码（如1001=登录失效、2001=年假余额不足），便于排查问题。

Stage 2：从个人工具升级为流程工具（1-2周）

核心目标：补充审批相关能力，完善审计日志，支持团队级使用。

新增功能：

审批待办查询：oa-cli approval list --pending；
审批操作：oa-cli approval approve --id 12345 --comment "同意" --confirm；
全量操作审计：所有CLI命令执行记录同步到企业日志平台（如ELK），包含用户、时间、参数、结果；
权限校验：CLI层校验操作人是否有审批权限（如仅部门经理可审批本部门请假）。

Stage 3：开放给AI（1周）

核心目标：将CLI封装为AI可调用的接口，限定AI的操作边界。

落地方式：

封装MCP Server（Model Context Protocol）：将CLI命令封装为AI可识别的工具接口，定义参数约束；
白名单管控：仅向AI开放“查询类”（查余额/假种）和“预览类”（请假预览）命令，提交/审批类命令需人工确认；
交互模板：AI调用CLI后，返回结构化结果+人工友好的总结（如“你的年假余额为7天，2026-04-10请假1天的预览已生成，确认提交请回复【确认】”）。

Stage 4：生产化与治理（2-3周）

核心目标：补齐企业级治理能力，从PoC升级为生产级工具。

核心治理能力：

权限隔离：基于RBAC控制不同用户可执行的CLI命令（如普通员工仅能提请假，经理可审批）；
敏感信息脱敏：日志/输出中脱敏手机号、工号等敏感信息；
错误码体系：完善全局错误码（如1xxx=认证错误、2xxx=请假错误、3xxx=审批错误）；
限流与重试：对高频命令（如leave balance）做限流，对临时接口失败自动重试；
自动化测试：编写单元测试（CLI逻辑）+集成测试（对接OA真实环境）。

五、常见问题与应对策略

问题场景	解决方案
OA 登录需要验证码	1. 优先申请企业免验证权限； 2. 对接打码平台自动识别； 3. 支持人工扫码登录，缓存会话
会话频繁过期	1. 定时调用`auth status`检测会话状态； 2. 会话过期时自动触发重新登录； 3. 延长OA会话超时时间（需运维配合）
前端无公开接口，只能用浏览器自动化	1. 用Playwright/Puppeteer封装底层操作，对外暴露稳定CLI； 2. 监听前端DOM变化，通过特征（而非固定ID）定位元素； 3. 前端改版时仅需修改自动化层，CLI命令保持不变
AI 误触发高风险命令	1. 高风险命令需人工回复“确认”才能执行； 2. 给AI返回“操作需确认”的提示，而非直接执行； 3. 限制AI每日调用高风险命令的次数

CLI 层的核心设计原则

优先复用原生接口：优先对接OA现有开放API/前端内部接口（如请假提交的AJAX接口），浏览器自动化仅作为无接口时的兜底方案；
输出结构化JSON：所有命令默认输出JSON，便于脚本/AI解析，仅通过--human参数输出人类友好的文本；
高风险动作强管控：提交、审批、撤销等动作必须包含--confirm强制确认、操作日志审计、基于请求ID的幂等保护；
AI 仅能调用高层命令：AI看不到DOM、按钮、接口参数，只能调用“查询余额”“预览请假”“提交请假”等业务级命令。

六、落地价值参考

效率提升：员工请假相关操作耗时从平均5分钟/次降至30秒/次，团队每月节省80+人/小时；
错误率降低：请假申请填错字段的比例从15%降至1%以下；
风险可控：未再发生AI/脚本误操作导致的审批异常，所有高风险操作可追溯、可回滚；
可扩展性：基于CLI快速接入了加班申请、出差审批等新能力，适配周期从1周缩短至1天。

七、结语

一个只能被“人工点击”的OA系统，永远无法真正融入企业自动化/AI协作体系。

我们不是要“让AI代替人操作OA”，而是要先把OA的核心能力从“网页交互”收敛成“可复用、可管控、可审计的CLI工具”，再让AI在这个安全边界内发挥价值。

这套思路的核心不是技术多先进，而是先解决“可控性”，再解决“智能化” ——承认传统OA的复杂性，不把AI当“万能胶”，而是通过工程化的方式，让OA能力真正成为企业可复用的数字化资产。