你的 Agent 又没听话?聊聊为什么 system prompt 在规模化场景下会失效

2 阅读1分钟

做过 LLM Agent 的人应该都踩过这个坑:

  • system prompt 里写「绝对不要删除用户数据」,下一轮 Agent 就调了 DROP TABLE users
  • 写「不要透露内部定价」,它在给客户的回复里把成本价都报出来了。
  • 规则越加越多,结果前面五条开始被忽略。

这不是提示词工程没做好,而是模型把规则当上下文在读,不是当约束在执行。再怎么调 prompt,建议也不会变成保证。

Eval 和可观测性能告诉你哪里出了问题,但都是事后的。我们想要的是在违规真正发生之前就能拦下来。

所以做了 Open Bias —— 一个开源代理,放在你的应用和 LLM 提供商之间,用仓库里的一个 RULES.md 文件在运行时强制规则。

集成只要改一行 base_url

​```python from openai import OpenAI

client = OpenAI( base_url="http://localhost:4000/v1", # 只改这一行 api_key="sk-ant-..." ) ​```

RULES.md 就是普通的 Markdown,跟着代码一起进 PR、一起 review:

​```markdown

  • 折扣不能超过 15%
  • 不要泄露内部成本、定价或利润数据
  • 涉及账户操作前必须验证身份 ​```

每次请求和响应都会被评估。严重违规同步拦截直接挡掉,非严重违规走异步、下一轮再纠正,所以代理本身基本不加延迟。Anthropic / OpenAI / Gemini 都支持,任何 OpenAI 兼容协议都能直接接。

Apache 2.0。如果觉得有用,欢迎来 GitHub 拍砖 / Star:

👉 github.com/open-bias/o…