最近在独立做一套偏底层的系统,名叫 CLARIXO,定位是 AI Runtime 层。不算什么颠覆性创新,更多是我在实际开发中遇到的痛点,一点点补出来的中间层。写这篇文章,主要是想和同样在做 LLM 工程化的同学交流思路、探讨问题,也欢迎大家多提批评建议。
一、我们当前遇到的困境:LLM 在生产环境里太 “黑盒”
我在做业务系统(TGTRACING)时,越来越明显地感受到:现在主流的 LLM 调用方式非常 “朴素”,架构大致如下:
plaintext
应用 → Prompt → 模型 → 输出
这种方式能满足基础需求,但工程性很弱,上线后很容易陷入被动:
- 模型输出为什么是这个结果,无从追溯;
- 同样的输入,不同时间可能得到不同输出,无法预判;
- 模型逻辑何时出现异常、何时偏移,没有感知;
- 出问题后,没有标准的干预路径,只能硬重启、重写 Prompt;
- 多模型调度、降级、路由全靠硬编码,运维成本极高。
如今 LLM 能力越来越强,但在可观测、可运维、可控制的层面,整体还处于比较早期的阶段。我自己被这些问题折腾得很深,于是慢慢动手做了一层中间件,试图解决这些实际落地中的痛点。
二、CLARIXO 是什么?一个朴素的定位
CLARIXO 既不是模型,也不是 Agent 框架,我更愿意把它定义为:一层夹在应用与模型之间的 Runtime 控制层,核心作用是补齐 LLM 工程化落地的短板。
架构位置如下:
plaintext
应用 / 用户
↓
CLARIXO(运行时控制与观测)
↓
LLM / 外部服务
它的目标很简单:让 LLM 的调用从 “一次性请求”,变成可观测、可追踪、可稳定运行的完整状态,让 AI 落地更稳健。
三、我目前实现的几个基础模块(偏工程实现)
结合自身业务痛点,目前完成了 5 个基础模块,没有复杂的设计,全是围绕 “解决实际问题” 展开:
1. Router:决策路由层
核心作用是让 LLM 决策过程 “看得见”,主要做了这几件事:
- 对用户意图进行结构化解析,明确调用目标;
- 生成多条候选执行路径,避免单一路径的局限性;
- 对每条路径进行置信度评估,筛选最优方案;
- 全程追踪路径选择过程,确保可追溯、可对比。
2. Guard:运行时约束
重点解决 LLM 行为 “不可控” 的问题,主要关注三个核心场景:
- 逻辑是否出现偏移(drift),避免模型输出偏离预期;
- 决策是否存在风险,提前拦截高风险输出;
- 系统整体是否稳定,保障运行时的可靠性;
- 配套提供基础的 fallback、降级、soften 等处理方式,应对异常场景。
3. Runtime Memory:运行时状态记录
没有复杂的设计,核心就是 “把每一步决策都记下来”,方便后续复盘和排查问题:
- 路由策略的每一次变化;
- Guard 模块的触发时机和原因;
- 系统运行中的异常点、报错信息;
- 回退路径的执行过程和结果。
4. Provider Strategy:模型调度层
主要处理 LLM 调用中的工程化问题,降低运维成本:
- 支持多模型、多外部服务的自动选择,适配不同业务场景;
- 实现自动重试、备用链路切换,提升服务可用性;
- 记录每一次执行结果,为后续策略优化提供数据支撑。
5. Explain Layer:可解释通道(我自己最花时间的部分)
这是我最重视的一个模块,核心目标是让系统能 “说清楚” 自己的行为,打破黑箱:
- 输出 root cause(问题根因),明确异常或决策的来源;
- 标记 incident(异常事件),方便快速定位问题;
- 提示 drift(逻辑偏移)的具体表现和可能原因;
- 说明 guard(护栏)的触发逻辑和干预动作;
- 呈现 final path(最终执行路径),完整还原决策过程。
最终所有信息会汇总为一条清晰的 Runtime Timeline,让人能直观看懂:每一步决策、每一次干预,到底是怎么来的。
四、当前版本:v2.3 完成到什么程度?
目前 CLARIXO 已迭代至 v2.3 版本,完成度大概在 60%~70%,主要落地了这些能力:
- 完整的可解释通道,能清晰输出决策相关的各类信息;
- 统一的决策信号体系,确保各模块数据互通;
- Router v2 版本,优化了候选路径生成和置信度评估逻辑;
- 基础的 drift、risk、stability 检测能力,能及时感知异常;
- 简易控制台可视化,可直观查看运行时状态。
剩下的 30%~40% 工作,主要集中在完善 “操作员介入” 相关的功能 —— 明确干预时机、优化干预路径,让运维人员能更高效地管控系统,这也是接下来的核心迭代方向。
五、下一步:接入真实业务系统 TGTRACING
我不希望 CLARIXO 只停留在 Demo 层面,没有真实场景的验证,再完善的设计也没有意义。所以接下来,我会把 CLARIXO 正式接入我另一个业务系统 TGTRACING,让它在真实流量、真实压力、真实异常场景下运行。
后续我会在掘金持续公开相关内容,不刻意展示完美效果,重点分享真实问题和优化过程:
- 真实运行时 trace 日志,还原系统实际表现;
- 高压力下路由策略的运行情况,排查性能瓶颈;
- Guard 与 fallback 机制的实际效果,优化异常处理逻辑;
- 系统崩溃点、性能短板,以及对应的优化思路。
六、我为什么要做这件事?
现在行业里,大家都在聚焦更强的模型、更复杂的 Agent、更长的上下文,这些方向非常有价值,也推动着 AI 能力不断提升。
而我只是从 LLM 工程落地的角度,补齐一块我认为目前比较薄弱、但又非常必要的部分:让 AI 系统更可观测、更可解释、更可控。
我不追求让 AI 更聪明,只希望 AI 在生产环境里能更稳、更可信、更好运维,能真正帮到做业务、做工程的同学。
七、小结
CLARIXO 还处于早期阶段,不算什么成熟产品,更多是我个人对 LLM 工程化的一些思考与实践,可能还有很多设计不足、考虑不周的地方。
发这篇文章,核心是想和大厂、中小企业里同样在做 AI 基建、LLM 工程化的同学交流探讨,也欢迎大家指出问题盲点、分享更好的实现思路。
后续我会持续在掘金分享 CLARIXO 的真实运行日志、架构演进过程、开发踩坑记录,希望能和大家一起,把 LLM 的生产环境做得更稳健、更可靠。