我在生产环境中自研了一层 AI Runtime，用来解决 LLM 黑箱与不可控问题最近在独立做一套偏底层的系统，名叫 C

最近在独立做一套偏底层的系统，名叫 CLARIXO，定位是 AI Runtime 层。不算什么颠覆性创新，更多是我在实际开发中遇到的痛点，一点点补出来的中间层。写这篇文章，主要是想和同样在做 LLM 工程化的同学交流思路、探讨问题，也欢迎大家多提批评建议。

一、我们当前遇到的困境：LLM 在生产环境里太 “黑盒”

我在做业务系统（TGTRACING）时，越来越明显地感受到：现在主流的 LLM 调用方式非常 “朴素”，架构大致如下：

plaintext

应用 → Prompt → 模型 → 输出

这种方式能满足基础需求，但工程性很弱，上线后很容易陷入被动：

如今 LLM 能力越来越强，但在可观测、可运维、可控制的层面，整体还处于比较早期的阶段。我自己被这些问题折腾得很深，于是慢慢动手做了一层中间件，试图解决这些实际落地中的痛点。

CLARIXO 既不是模型，也不是 Agent 框架，我更愿意把它定义为：一层夹在应用与模型之间的 Runtime 控制层，核心作用是补齐 LLM 工程化落地的短板。

架构位置如下：

plaintext

应用 / 用户
     ↓
CLARIXO（运行时控制与观测）
     ↓
LLM / 外部服务

它的目标很简单：让 LLM 的调用从 “一次性请求”，变成可观测、可追踪、可稳定运行的完整状态，让 AI 落地更稳健。

结合自身业务痛点，目前完成了 5 个基础模块，没有复杂的设计，全是围绕 “解决实际问题” 展开：

核心作用是让 LLM 决策过程 “看得见”，主要做了这几件事：

重点解决 LLM 行为 “不可控” 的问题，主要关注三个核心场景：

没有复杂的设计，核心就是 “把每一步决策都记下来”，方便后续复盘和排查问题：

主要处理 LLM 调用中的工程化问题，降低运维成本：

这是我最重视的一个模块，核心目标是让系统能 “说清楚” 自己的行为，打破黑箱：

最终所有信息会汇总为一条清晰的 Runtime Timeline，让人能直观看懂：每一步决策、每一次干预，到底是怎么来的。

目前 CLARIXO 已迭代至 v2.3 版本，完成度大概在 60%~70%，主要落地了这些能力：

剩下的 30%~40% 工作，主要集中在完善 “操作员介入” 相关的功能 —— 明确干预时机、优化干预路径，让运维人员能更高效地管控系统，这也是接下来的核心迭代方向。

我不希望 CLARIXO 只停留在 Demo 层面，没有真实场景的验证，再完善的设计也没有意义。所以接下来，我会把 CLARIXO 正式接入我另一个业务系统 TGTRACING，让它在真实流量、真实压力、真实异常场景下运行。

后续我会在掘金持续公开相关内容，不刻意展示完美效果，重点分享真实问题和优化过程：

现在行业里，大家都在聚焦更强的模型、更复杂的 Agent、更长的上下文，这些方向非常有价值，也推动着 AI 能力不断提升。

而我只是从 LLM 工程落地的角度，补齐一块我认为目前比较薄弱、但又非常必要的部分：让 AI 系统更可观测、更可解释、更可控。

我不追求让 AI 更聪明，只希望 AI 在生产环境里能更稳、更可信、更好运维，能真正帮到做业务、做工程的同学。

CLARIXO 还处于早期阶段，不算什么成熟产品，更多是我个人对 LLM 工程化的一些思考与实践，可能还有很多设计不足、考虑不周的地方。

发这篇文章，核心是想和大厂、中小企业里同样在做 AI 基建、LLM 工程化的同学交流探讨，也欢迎大家指出问题盲点、分享更好的实现思路。

后续我会持续在掘金分享 CLARIXO 的真实运行日志、架构演进过程、开发踩坑记录，希望能和大家一起，把 LLM 的生产环境做得更稳健、更可靠。