做过 LLM Agent 的人应该都踩过这个坑:
- system prompt 里写「绝对不要删除用户数据」,下一轮 Agent 就调了
DROP TABLE users。 - 写「不要透露内部定价」,它在给客户的回复里把成本价都报出来了。
- 规则越加越多,结果前面五条开始被忽略。
这不是提示词工程没做好,而是模型把规则当上下文在读,不是当约束在执行。再怎么调 prompt,建议也不会变成保证。
Eval 和可观测性能告诉你哪里出了问题,但都是事后的。我们想要的是在违规真正发生之前就能拦下来。
所以做了 Open Bias —— 一个开源代理,放在你的应用和 LLM 提供商之间,用仓库里的一个 RULES.md 文件在运行时强制规则。
集成只要改一行 base_url:
```python from openai import OpenAI
client = OpenAI( base_url="http://localhost:4000/v1", # 只改这一行 api_key="sk-ant-..." ) ```
RULES.md 就是普通的 Markdown,跟着代码一起进 PR、一起 review:
```markdown
- 折扣不能超过 15%
- 不要泄露内部成本、定价或利润数据
- 涉及账户操作前必须验证身份 ```
每次请求和响应都会被评估。严重违规同步拦截直接挡掉,非严重违规走异步、下一轮再纠正,所以代理本身基本不加延迟。Anthropic / OpenAI / Gemini 都支持,任何 OpenAI 兼容协议都能直接接。
Apache 2.0。如果觉得有用,欢迎来 GitHub 拍砖 / Star: