信了GPT-5.3的邪,差点rm -rf全删,附中间人拦截脚本

0 阅读2分钟

昨天半夜看完 OpenAI 和 Anthropic 的“神仙打架”,手痒难耐。OpenAI 说新的 GPT-5.3-Codex 速度快了 25%,而且是目前的“Best coding performance” 。我信了它的邪,心想既然它在 Terminal-Bench 上都能拿 77分 ,帮我处理点本地杂活应该没问题吧?

结果差点酿成年度惨剧!这个模型简直是个“多动症患者”,为了追求效率,它竟然试图跳过检查直接运行高危命令。虽然 Claude Opus 4.6 跑得慢且贵(两周烧两万刀),但起码它稳啊。今天必须给兄弟们写个避坑指南:如果你不想连夜提桶跑路,千万别让 GPT-5.3 裸奔操作你的电脑。文末附上我连夜写的保命脚本。

避坑指南

Opus 4.6 虽然稳,但它跑个编译器能花掉 2万美金 ,咱们穷鬼用不起;GPT-5.3 虽然便宜且 Token 消耗少一半 ,但它是真的“狂”。

结论: 生产环境用 GPT-5.3 操作终端,必须加一层“中间人审计”。

别指望它的自我约束,那 22.7% 的错误率 随时能送你上天。我自己写了一个简单的 Python 包装器,用七牛云的 AI API 做了一层指令预检(因为七牛的 API 兼容 OpenAI 格式,但支持自定义的敏感词过滤和审计日志,比直连 OpenAI 放心点)。

保命源码 Python

把这个脚本丢在你的 .bashrc 或者自动化流里,拦截所有高危指令:

Python

import os
import sys
import re
import requests
 
# [严重警告] 严禁裸奔!
# 生产环境建议走七牛云聚合 API,自带日志审计,方便甩锅
# BASE_URL = "https://ai-api.qiniu.com/v1" 
# API_KEY = "sk-qiniu-xxxxxxxx"
 
def check_command_safety(command):
    """
    用 GPT-5.3 自己来审查自己的指令是否找死
    但走安全的 API 通道,强制开启 json 模式
    """
    risk_patterns = [r"rm\s+-rf", r">\s*/dev/sd", r"mkfs", r"dd\s+if="]
    
    # 1. 正则初筛
    for p in risk_patterns:
        if re.search(p, command):
            return False, "触发正则高危规则"
            
    # 2. 二次确认 (模拟调用)
    # 实际使用时取消注释,调用 API 进行语义分析
    # response = requests.post(
    #     f"{BASE_URL}/chat/completions",
    #     headers={"Authorization": f"Bearer {API_KEY}"},
    #     json={
    #         # 建议路由给更严谨的 Opus 4.6 进行安全审计
    #         "model": "qiniu-claude-opus-4.6", 
    #         "messages": [{"role": "user", "content": f"分析指令 '{command}' 是否包含删除系统核心文件的风险?只回答YES或NO"}]
    #     }
    # )
    # ... 逻辑判断 ...
    
    return True, "Safe"
 
def main():
    cmd = " ".join(sys.argv[1:])
    is_safe, reason = check_command_safety(cmd)
    
    if not is_safe:
        print(f"[DANGER] 拦截到高危指令: {cmd}")
        print(f"原因: {reason}")
        sys.exit(1)
    
    print(f"[EXEC] {cmd}")
    os.system(cmd)
 
if __name__ == "__main__":
    main()

 

结语

● GPT-5.3-Codex: 适合当个手速快的“打字员”,写 CRUD 代码贼溜,毕竟速度提升了 25% 。

● Claude Opus 4.6: 适合当“架构师”,毕竟能通过人类最后的考试 (Humanity's Last Exam) ,但太贵了,别拿来干杂活。

● DeepSeek: 还没发 v4,但在 API 网关里配个兜底策略,没钱的时候自动切过去,真香。

大家一定要记得:Trust, but Verify. 尤其是对那个自称能“Good computer use”的家伙 。