大模型为什么一进生产就不对劲?一个工程师视角的复盘

36 阅读4分钟

一个很多工程师都会遇到的瞬间

如果你真的把大模型接进过业务系统,大概率会经历过这个阶段:

  • Demo 阶段:

    “这玩意真猛,啥都能算”

  • 灰度阶段:

    “好像有点飘,但还能接受”

  • 真进生产:

    “等等,这个结果怎么和昨天不一样?”

常见问题包括:

  • 同样的输入,多跑几次结果不一致
  • 行为受上下文影响,难以复现
  • 出问题时,只能说“模型算的”

这时候你会开始疯狂:

  • 调 prompt
  • 加规则
  • 加判断 if/else
  • 想办法兜底

但问题始终存在。


关键点:这不是模型问题

现在的大模型已经非常强了:

  • 能理解复杂语言
  • 能推理
  • 能总结
  • 能调用工具

但从工程角度看,它们有一个无法绕开的特性:

输出是概率生成的,而不是状态裁决的。

这意味着:

  • 决策路径无法冻结
  • 行为结果不可重复
  • 出错时不可审计

在“出错也没关系”的场景下,这些都能忍;
但一旦涉及真金白银、合规、责任,这就是硬伤。


多数 AI 系统,其实少了一层“该不该做”的判断

很多系统,其实把三件事混在了一起:

  • 理解问题
  • 给出结论
  • 直接执行

而在传统工程系统里,这三件事本来就应该是分开的。

一旦模型既“想”又“决定要不要动手”,
系统就失去了最后一道保险。


EDCA OS 是在补哪一层?

一句话版本:

EDCA OS 不是让模型更聪明,而是专门负责“该不该让它动”。

在这个体系里:

  • 模型:只生成候选判断
  • 系统:决定是否允许行为发生

模型不拥有执行权,也不背锅。


为什么“约束”反而是必要的?

很多人下意识觉得:

“约束 AI = 限制能力”

但在工程里,没有约束的能力,本来就不可交付。

EDCA OS 强制三件事:

  1. 状态不确定 → 不执行
  2. 权限不清楚 → 不执行
  3. 责任说不清 → 不执行

这不是保守,而是防止系统在关键时刻“自信地翻车”。


用工程直觉解释几个核心组件

1️⃣ 语义引擎:不让模型碰数据,但让它懂业务

企业字段从来不只是字段。

字段背后是规则、流程、红线。

语义引擎的作用是:

  • 把业务含义抽象成状态
  • 不把真实数据暴露给模型
  • 只告诉模型“现在允许判断什么”

模型懂的是语义,不是数据。


2️⃣ ARP:AI 和真实业务之间的“隔离层”

ARP 本质上是一道防火墙:

  • 模型不知道字段 ↔ 真实业务 的映射
  • 防止模型反推企业结构
  • 避免侧信道泄露

这让 AI 第一次可以参与判断,而不“看穿系统”。


3️⃣ Runtime:最后一道兜底

Runtime 是整个系统最关键的一层。

它负责:

  • 冻结决策路径
  • 校验状态和权限
  • 在不确定时直接拒绝
  • 锁定责任锚点

工程上,它保证:

同样状态 + 同样输入
→ 同样结果,或同样拒绝


EDCA OS 增强的不是效果,而是“可交付性”

它不保证:

  • 每次结果都最好
  • 模型永远不出错

它保证的是:

  • 行为可复现
  • 出错可解释
  • 责任在系统内

在高责任场景里,这比“聪明一点”值钱得多。


那到底要不要学 Yuer DSL?

说实话:

大多数人不需要。

如果你用 AI:

  • 写代码草稿
  • 写文案
  • 做辅助决策

出错了改一版就行,那没必要。


什么时候你会被迫学?

当你发现:

  • AI 出错 = 直接亏钱(量化 / 交易)
  • AI 出错 = 合规风险
  • AI 出错你得站出来解释

这时你会意识到:

“我不能再让模型自己决定要不要动手。”

Yuer DSL 的作用只有一个:

把“是否执行”的权力,从模型手里收回来。


常见误区(踩坑总结)

  • ReAct + Tool Calling 解决的是表达,不是执行
  • 微调模型解决的是熟练度,不是失控
  • 多 Agent 协作增加的是复杂度,不是责任
  • 自托管模型改变的是部署,不是控制

写在最后

如果 AI 出错,对你来说只是“不太好”,
那你确实不需要这些东西。

但如果 AI 出错,你要赔钱、背锅、复盘、写报告,
那你迟早会走到“可控执行”这一步。

EDCA OS 做的不是让 AI 更聪明,
而是让你在关键时刻有兜底


作者说明

EDCA OS 并非源自某个既有实验室或厂商体系。
它并不从模型训练或算法设计出发,而是从真实人机协作与工程落地经验中,反向抽象出的表达驱动行为控制框架。

本文关注的不是模型能力本身,而是模型在真实使用过程中,如何被接管、约束与审计。