工业AI Agent全解读:制造业生产流程自动化的技术趋势与开发者视角

1 阅读9分钟

当大模型“拿起鼠标”操作工业软件,一场关于“数字技术员”的范式革命正在车间里悄然发生

写在前面

2026年,AI Agent不再只是“能聊天的助手”,它开始真正“动手”了——打开ERP、登录MES、操作供应商平台、填报工单、比对合同、预警异常……这些曾经只能由人类完成的“跨系统操作”,现在可以由一个基于大模型的Agent自主完成。

工业AI Agent的核心命题是:如何让大模型理解屏幕、规划步骤、执行操作,并适应不断变化的环境? 本文将从一个开发者的视角,解读工业AI Agent的技术趋势、核心架构,并结合“实在Agent”这一国产实践,聊聊我们能为制造业生产流程自动化做些什么。


一、为什么制造业是AI Agent的“终极考场”?

制造业生产流程自动化的技术挑战,远高于一般办公自动化。原因有三:

1.1 系统“杂、老、闭”

一个典型工厂的信息系统生态:SAP ERP(可能还是1990年代的GUI)、MES(自研或小众厂商)、WMS、PLM、SRM,再加上客户的SRM网站、供应商的订单平台……API接口?要么没有,要么收费昂贵,要么不稳定。即使有,改一次版就断联。

对开发者来说,这意味着传统基于API的集成方案在这里经常失效。必须有一种不依赖API、直接操作界面的技术。

1.2 流程“长、跨、变”

一个采购订单的生命周期可能跨越5个系统、10个步骤、3个角色,中间还有各种异常(缺料、改期、换供应商)。固定脚本的RPA很难覆盖所有分支。

Agent需要具备自主规划和异常恢复能力,而不是靠if-else堆砌。

1.3 数据“多模态、非结构化”

除了结构化字段,还有PDF图纸、邮件附件、巡检照片、手写工单……这些都需要Agent能“看懂”并提取信息。

多模态理解是工业Agent的刚需。

正是这些挑战,让制造业成为检验AI Agent“真功夫”的终极考场。


二、技术趋势:从RPA到Agentic RPA

2.1 传统RPA的困境

传统RPA基于“录制-回放”机制,或通过图像/元素定位。优点是对API无依赖,缺点也同样明显:

  • 脆性:界面偏移/颜色改变/控件ID变化 → 脚本失效
  • 无认知:只能执行固定步骤,不能根据业务状态调整
  • 维护成本高:系统升级就要重新录制

2.2 Agentic RPA:大模型驱动的“活脚本”

Agentic RPA = 大模型(规划与决策) + RPA/UI自动化(执行与感知) + 记忆/知识(上下文与经验)

技术特点:

  • 意图驱动:用户说“处理今天的订单”,Agent自动拆解为“登录SRM → 下载 → 解析 → 录入ERP → 发送确认”。
  • 自适应界面:通过视觉语言模型(VLM) 或屏幕语义理解技术,识别界面元素语义而非位置,即使UI变化也能适应。
  • 自主异常处理:遇到弹窗、报错、网络超时,Agent尝试多种恢复策略,实在不行才请求人工。
  • 工具调用:大模型不仅能规划,还能主动调用RPA脚本、API、SQL查询、外部知识库等“技能”。

2.3 关键技术模块

模块作用典型实现
屏幕语义理解(ISSUT)“看懂”任意软件界面,识别按钮、表格、输入框实在智能 ISSUT;也可以基于Fuyu-8B等VLM微调
任务规划器(Planner)将自然语言指令转换为可执行步骤序列ReAct、CoT、Tree-of-Thought;LangGraph工作流
技能注册表(Skill Registry)为Agent提供可调用的原子操作(RPA脚本、API、函数)OpenAI function calling、LangChain tools
记忆(Memory)短期记忆存储上下文,长期记忆通过RAG从知识库检索向量数据库 + 嵌入模型
交互与审计操作日志、屏幕截图、人工接管接口可插拔的审计模块

三、实在Agent的架构剖析:一个国产工业Agent的实践

实在智能的“实在Agent”是目前少有的、真正在制造业生产流程中规模化落地的AI Agent产品。其技术架构对开发者很有参考价值。

3.1 整体架构

┌─────────────────────────────────────────────────────────┐
│                   用户交互层                             │
│     自然语言 / 低代码编排 / 定时器 / 事件触发             │
└─────────────────────────┬───────────────────────────────┘
                          ▼
┌─────────────────────────────────────────────────────────┐
│              TARS大模型(规划与推理)                     │
│   • 意图识别与任务拆解                                   │
│   • 工具选择与参数填充                                   │
│   • 异常识别与重试策略                                   │
└─────────────────────────┬───────────────────────────────┘
                          ▼
┌─────────────────────────────────────────────────────────┐
│               技能层(Skills + RPA)                     │
│  • 预置技能库:登录、查询、下载、填表、发送消息等         │
│  • RPA录制器:用户可自定义技能                           │
│  • API调用模块                                           │
└─────────────────────────┬───────────────────────────────┘
                          ▼
┌─────────────────────────────────────────────────────────┐
│            感知层(ISSUT + CV + OCR)                    │
│  • 屏幕截图理解                                          │
│  • 界面元素识别与定位                                    │
│  • 多模态文档解析                                        │
└─────────────────────────────────────────────────────────┘
                          ↕
┌─────────────────────────────────────────────────────────┐
│         记忆层(向量数据库 + 知识图谱)                   │
│  企业知识库:工艺文档、操作手册、历史工单、法规标准       │
└─────────────────────────────────────────────────────────┘

3.2 亮点技术:ISSUT(智能屏幕语义理解)

ISSUT是实在Agent实现“零API依赖”的核心。它不像传统RPA那样依赖XPath或图像像素比对,而是:

  1. 对屏幕截图进行视觉编码,提取UI组件的语义特征(按钮的文字、输入框的标签、表格的列头)。
  2. 结合DOM(对Web)或控件树(对桌面应用)的信息,形成元素-语义映射
  3. 大模型根据任务需求,自主选择要操作的UI元素,而不是硬编码坐标。

优势:当供应商平台改版(按钮从右边移到左边),只要语义没变(如“登录”按钮文字未改),ISSUT仍能正确识别。鲁棒性大幅提升。

3.3 开发者可扩展性

实在Agent提供了开放技能框架,开发者可以:

  • 用Python/JS编写自定义技能(如调用私有算法模型)
  • 将技能注册到平台,Agent规划时自动可调用
  • 通过Webhook接收Agent的事件,实现复杂业务逻辑

这为制造企业的内部开发团队提供了定制空间。


四、开发者的机会:如何构建自己的工业Agent?

如果你是企业内部的开发者,想尝试自建轻量级工业Agent(或基于现有平台二次开发),可以参考以下技术栈。

4.1 基础开源组件选择

组件推荐说明
大模型(本地)Qwen2.5-72B、DeepSeek-V3数据敏感需私有化
大模型(云API)GPT-4o、通义千问快速原型,注意数据安全
Agent框架LangGraph、AutoGen、OpenClaw工作流编排与多Agent协同
UI自动化Playwright(Web)、PyAutoGUI(桌面)跨平台,比Selenium更现代
屏幕语义理解自研VLM(微调Fuyu)或接入ISSUT API高阶能力,也可以先用坐标回退
向量数据库Qdrant、MilvusRAG记忆
任务队列Celery、RabbitMQ异步执行与重试

4.2 简单示例:一个能“看懂”SRM网页并下载订单的Agent

下面用LangGraph + Playwright + 简单VLM(调用API)演示核心思路。

from langgraph.graph import StateGraph, END
from playwright.sync_api import sync_playwright
import openai

# 定义状态
class AgentState(TypedDict):
    instruction: str
    steps: list
    current_step: int
    page_screenshot: str   # base64
    result: str

# 步骤1:规划
def planner(state: AgentState):
    prompt = f"""
    用户指令:{state['instruction']}
    请拆解为可执行步骤,每步格式为:操作|目标元素|输入值(可选)
    可能操作:open_url, input_text, click, extract_data, screenshot
    输出JSON数组。
    """
    response = openai.ChatCompletion.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": prompt}],
        response_format={"type": "json_object"}
    )
    steps = json.loads(response.choices[0].message.content)["steps"]
    return {"steps": steps, "current_step": 0}

# 步骤2:执行(用Playwright)
def executor(state: AgentState):
    step = state["steps"][state["current_step"]]
    with sync_playwright() as p:
        browser = p.chromium.launch()
        page = browser.new_page()
        # 根据step操作...
        if step["action"] == "open_url":
            page.goto(step["target"])
        elif step["action"] == "click":
            # 理想情况用语义定位,这里简化用文本
            page.click(f"text={step['target']}")
        # ... 其他操作
        screenshot = page.screenshot()
        browser.close()
    return {"current_step": state["current_step"] + 1, "page_screenshot": screenshot}

# 步骤3:检查是否完成
def should_continue(state):
    return "continue" if state["current_step"] < len(state["steps"]) else "end"

# 构建图
graph = StateGraph(AgentState)
graph.add_node("planner", planner)
graph.add_node("executor", executor)
graph.set_entry_point("planner")
graph.add_edge("planner", "executor")
graph.add_conditional_edges("executor", should_continue, {"continue": "executor", "end": END})
app = graph.compile()

# 运行
result = app.invoke({"instruction": "登录供应商网站,下载今天的采购订单报表"})

真实落地的差距:实际工业级Agent需要处理登录态保持、验证码识别、动态等待、弹窗处理、错误重试、并行执行等大量工程细节。这就是为什么很多企业选择成熟平台的原因。

4.3 何时自研,何时采购?

场景建议
只有1-2个固定系统,界面稳定,IT团队强可以考虑自研(Python + Playwright + 简单LLM规划)
多系统、老旧、无API,希望快速见效采购实在Agent这类产品,业务部门1天上手
有核心工艺算法,需要深度定制自研算法 + 以API形式集成到Agent平台

五、未来展望:工业AI Agent的演进方向

5.1 从“单Agent”到“Multi-Agent协同”

一个Agent难以覆盖全部生产流程。未来会是多个专业Agent的协同:排产Agent、采购Agent、质检Agent、物流Agent……它们通过共享记忆或消息队列交换信息,形成一个“数字员工团队”。

实在Agent平台已支持Multi-Agent编排,可以在可视化界面上定义Agent之间的依赖和数据流。

5.2 从“界面操作”到“多模态感知”

除了屏幕,未来的工业Agent将融合:摄像头(识别仪表读数)、声呐(设备异响)、振动传感器(预测性维护)……多模态大模型将统一理解这些信号。

5.3 从“被动执行”到“主动建议”

Agent不仅听指令,还能主动监控生产指标,发现异常时主动推送预警和解决方案。这需要异常检测模型和强化学习的能力。

5.4 边缘化与实时性

对于低延迟需求的生产控制场景(毫秒级响应),Agent会下沉到边缘设备(工业PC、工控机),大模型蒸馏成小模型,本地推理。


写在最后

工业AI Agent并不是要替代现有的MES/ERP,而是填补系统之间的“缝隙”——那些需要人工搬运数据、判断异常、协调资源的灰色地带。

对开发者来说,这是一个充满机会的领域:屏幕语义理解、任务规划、技能编排、多模态融合……每一项都有广阔的技术探索空间。

如果你也对工业Agent感兴趣,建议从一个小场景开始:找到一个你每天都要做的、跨系统的重复操作,尝试用开源组件或成熟平台把它自动化。 当你看到AI真的“拿起鼠标”完成了工作,那种成就感,远胜过写一万行CRUD。

欢迎留言交流工业Agent的技术实践。