大模型已经够强了,但为什么我不敢直接用它做决策?一个工程视角的系统性思考

37 阅读9分钟

Image

Image

Image

Image

如果你只是用大模型写代码、补注释、生成文档,
那它已经足够好用了。

但如果你开始尝试让 AI 参与判断、给建议、影响决策
那你很可能已经站在一个系统工程问题的入口。

这篇文章不是讲 Prompt 技巧,也不是模型评测,
而是想聊一个更底层的问题:

当大模型开始参与“决策”,
我们是否已经用对了它?


一、一个工程上不太舒服的结论

现在很多 AI 应用,本质是在“裸用大模型”

先把结论抛出来:

现在不少 AI 系统,其实是在“裸用 LLM”。

这里的“裸用”不是说不安全、不合规,而是指:

  • 把一个高自由度、不确定性的智能组件
  • 直接嵌入到需要稳定、可控判断的系统中
  • 中间缺少一层真正意义上的系统级控制结构

很多人会说:

我们有 Prompt
有 RAG
有规则
有 Agent

但站在工程角度,这些更多解决的是:

“能不能用”,而不是“能不能托付”。


二、为什么我更愿意把 LLM 当成“引擎”,而不是“整车”

这是理解后面所有问题的关键。

从工程视角看,大模型的特性更像什么?

像一颗马力极强、但高度自由的“推理引擎”。

它的优势非常明显:

  • 上限高
  • 泛化强
  • 表达能力惊人

但它本身并不负责:

  • 稳定性
  • 权限控制
  • 风险边界
  • 状态一致性

如果类比传统系统:

  • LLM ≈ CPU / Engine
  • Prompt ≈ 指令流

那问题就很清楚了:

👉 操作系统在哪?


三、真正的工程风险,不是“偶尔答错”

很多工程师担心的是:

AI 会不会偶尔出错?

但真正的系统性风险,其实是下面这些。


1️⃣ 同样条件,行为不稳定

  • 相同输入
  • 相同上下文
  • 不同时间调用

却可能得到:

  • 不同结论
  • 不同策略
  • 不同风险偏好

在内容生成中,这是“多样性”;
在决策系统中,这是不可控性


2️⃣ 强解释能力,会掩盖系统问题

大模型有一个很强、但很“危险”的能力:

几乎任何结果,它都能解释得通。

但在工程领域我们都知道:

“看起来合理” ≠ “系统受控”。

一个系统如果:

  • 每次都能给出理由
  • 却无法保证行为一致

那它依然不具备上线条件。


3️⃣ 出问题后,无法复盘

这是工程底线。

如果系统出问题,你至少要能回答:

  • 哪个条件触发了判断?
  • 哪条路径被采信?
  • 是否可以在同样条件下复现?

如果做不到:

那这个系统在工程上是不可维护的。


四、问题不是模型不够强,而是“没人接管它”

这里有一个非常反直觉的结论:

AI 的问题不是“不够聪明”,
而是“聪明得太自由”。

没有系统接管的高能力组件,在工程实践中一定会带来:

  • 行为漂移
  • 风险累积
  • 调试困难
  • 责任不清

这不是 AI 的锅,而是:

系统工程缺位。


五、为什么我开始认真思考“AI 的操作系统”

如果你做过系统软件,或者复杂架构设计,你一定知道:

  • CPU 出现 ≠ 系统可用

  • 必须有 OS:

    • 管调度
    • 管权限
    • 管状态
    • 管异常

现在,大模型正处在类似阶段。

只不过这一次,需要被管理的不是算力,而是:

判断权与决策路径。


六、什么是“决策模型”(不是 ML 模型)

这里说的“决策模型”,并不是训练出来的模型,而是一层系统逻辑

  • 不负责预测
  • 不负责生成
  • 不负责表现

它只做一件事:

判断:在当前状态下,这个行为是否被允许。

工程目标非常朴素:

同样的输入 → 同样的判断结果。

也就是:

同题同答。


七、为什么运行环境本身非常关键

很多讨论容易陷入“模型对比”。

但从系统工程角度,更重要的是:

模型运行在什么样的环境中。

如果运行环境:

  • 状态不稳定
  • 行为不可预期
  • 边界靠约定

那在其之上谈“可控决策”,基本都是空谈。


八、量化、医疗、科研,本质是同一个系统问题

你会发现:

  • AI 量化的问题是决策漂移
  • AI 医疗的问题是越权判断
  • AI 科研的问题是把检索当推理

它们背后其实都在问同一个问题:

谁,在什么条件下,被允许做判断?


九、关于“伴生模型”:必须非常克制

长期运行的系统需要:

  • 连续状态
  • 个体差异
  • 行为习惯

这催生了“伴生模型”的概念。

但工程上必须明确:

伴生模型只能提供状态信息,
不能拥有裁决权。

否则:

  • 长期偏好会污染判断
  • 风险会随时间累积
  • 系统将不可控

十、结语:这是一个系统工程问题

如果用一句话总结全文:

AI 时代真正的挑战,不是模型是否足够聪明,
而是系统是否已经准备好承载这种智能。

对工程系统而言:

  • 可控
  • 可复现
  • 可审计

永远比“看起来很聪明”更重要。


作者说明

本文整理自一次长时间的人机协作与系统设计讨论,
讨论核心集中于 AI 决策稳定性、系统工程边界与可托付性问题
相关探索基于 EDCA OS(Expression-Driven Cognitive Architecture) 的研究框架,
目前仍处于持续验证与演化阶段。


附:# AI 决策系统 · 核心 QA 集(v1.0)


Q1:AI 相比传统行业软件,真正强在哪里?

A:不在于“算得更快”,而在于“能处理不完整、非结构化的现实问题”。

传统行业软件擅长的是:

  • 规则清晰
  • 边界明确
  • 条件可枚举的问题

而 AI(尤其是 LLM)真正的优势在于:

  • 面对信息不完整
  • 需求表达模糊
  • 现实变量不断变化
    依然可以给出“可继续推进”的判断路径。

但要注意:这是一种“能力优势”,不是“工程成熟度优势”。


Q2:你们强调“管住 LLM”能提升安全性和可靠性,那不是在削弱 LLM 的能力吗?

A:不是削弱能力,而是把能力从“不可控释放”变成“可托付使用”。

未经约束的 LLM:

  • 看起来很强
  • 但行为不可复现
  • 风险不可追责

被系统接管的 LLM:

  • 能力依然存在
  • 但只在被允许的条件下释放
  • 行为可复盘、可冻结

工程上,能力只有在“可控”前提下才有价值。


Q2 扩展:你们把 LLM 比作“汽车引擎”,这是不是意味着现在大家都在“裸用 LLM”?为什么危险?

A:是的,这个比喻本身就意味着“裸用”是危险的。

一个超强引擎:

  • 如果没有变速箱、刹车、稳定系统
  • 马力越大,风险越高

LLM 也是一样:

  • 推理能力越强
  • 表达能力越好
  • 如果没有系统级约束
    错误的影响半径反而更大。

危险不在于它会“犯错”,
而在于它犯错时看起来仍然很合理


Q3:那是不是就像 PC 一样,需要一个“Windows”,CPU 才能发挥价值?这就是你们做 EDCA OS 的原因?

A:是的,而且这个类比是非常严肃的。

CPU 本身并不负责:

  • 任务调度
  • 权限隔离
  • 状态管理
  • 错误恢复

这些都由操作系统承担。

当 AI 开始参与判断时,也需要类似的结构:

  • 谁能做判断
  • 在什么条件下
  • 是否允许发生
  • 是否可以复现

EDCA OS 关注的不是“让 AI 更聪明”,而是“让判断变成系统行为”。


Q4:为什么你们选择 GPT 客户端作为实验与运行环境?这是你们自己定义的标准吗?

A:不是因为“偏好”,而是因为“运行环境是否像一个系统”。

你们关注模型能力,而我们更关注:

  • 会话状态是否稳定
  • 行为边界是否内建
  • 输出是否具备一致性

在当前阶段,只有极少数 LLM 运行环境:

  • 具备“系统感”
  • 允许讨论决策稳定性
  • 允许验证“同题同答”

这不是模型标准,而是系统工程前置条件


Q5:传统量化和 AI 量化的本质区别是什么?AI 量化的核心缺陷在哪里?

A:区别不在预测能力,而在“决策是否可托付”。

传统量化:

  • 策略固定
  • 路径明确
  • 可复盘、可回测

AI 量化常见问题:

  • 决策路径漂移
  • 同样条件下行为变化
  • 难以复现与审计

问题不在 AI 不够聪明,而在缺乏“决策稳定性结构”。


Q5 扩展:这是否意味着你们在做 sklearn 兼容,还是选择舍弃?

A:不是“兼容或舍弃”的问题,而是“层级不同”。

  • sklearn 解决的是:模型训练与预测
  • EDCA / 决策模型解决的是:是否允许某个判断发生

二者并不冲突,但也不在同一层。

你可以用 sklearn 做因子、信号、预测,
但“是否采信”,必须由决策层裁定。


Q6:你们为什么会做 CMRE 这样的项目?想验证什么?

A:CMRE 的目标不是“做医疗 AI”,而是测试“高风险场景下的决策边界”。

医疗场景具备三个极端条件:

  • 高风险
  • 高责任
  • 高越权诱惑

如果一个系统:

  • 在这里能守住“谁该说什么”
  • 能区分“信息提供”和“判断裁决”
  • 能稳定拒绝越权

那它在其他行业只会更安全。


Q7:你们在 LLM 科研助手上的突破是什么?为什么测试时要完全断开联网检索?

A:因为科研最怕的不是“不知道”,而是“以为自己知道”。

联网检索很容易导致:

  • 把资料拼接当成推理
  • 把现有结论当成发现

断网的目的只有一个:

  • 逼迫模型在“已有结构”内思考
  • 暴露推理链,而不是堆砌引用

科研场景中,AI 的价值不是“替代科学家”,
而是帮助科学家发现自己认知中的盲区与惯性


Q6 延展:你们是否已经不再受“小众科研语料少”的限制?那还依赖科学家什么?

A:AI 不缺“知识覆盖”,真正稀缺的是“问题设定能力”。

科学家独有的不是数据量,而是:

  • 哪些变量值得被引入
  • 哪些假设值得被推翻
  • 哪些问题“值得问”

AI 没有认知惯性,
但它也没有“研究责任”。

科研仍然必须由人类定义方向,
AI 只负责放大推理空间。