用这个方法,DeepSeek用出Claude的效果
不换模型,不花钱,一段文字或一个文件,立刻见效。
我最近干了一件事,把同一份"行为定义"分别喂给DeepSeek、Claude、GPT。结果三个模型的输出质量几乎趋同。
不是DeepSeek变强了,是其他两个被拉到了同一水平线。
或者换个说法:贵的模型也经常输出废话,便宜的模型也能精准回答。区别不在模型,在你怎么跟它说话。
这篇文章给你两条路。不写代码的人复制一段话粘贴进去,30秒搞定。写代码的人装一个增强版工具,5分钟搞定。效果一样。
你以为AI笨,其实是它被训练得太"乖"了
用AI最常见的三个抱怨:
第一,废话太多。你问一个简单问题,它先"这是一个很好的问题",然后列出十个角度,最后一段才是你要的答案。你又不是在做阅读理解。
第二,该回答的不回答。你问一个医学问题,它先写200字免责声明。你问法律怎么规定的,它说"建议咨询专业律师"。你要是能咨询律师你还问AI干嘛。
第三,永远不给明确观点。你问A和B哪个好,它一定说"各有优劣,取决于你的需求"。你要是能判断自己的需求,你就不用问它了。
这三个问题,不是模型能力不够。你把同样的问题用英文问Claude Opus,它也经常这样。问题出在训练:所有主流模型都被训练得过度保守。安全层把大量正常需求当成危险请求误杀了。
这叫过度拒绝。行业里有个术语叫over-refusal。OpenAI、Anthropic自己都承认这个问题存在。
好消息是,这个问题可以矫正。不需要换模型,不需要越狱,不需要做任何违规操作。你只需要在对话开头告诉AI一组精确的行为规则。
关键:自然语言指令 vs 结构化行为定义
先看一个对比。
假设你想让AI做到这些:回答时结论先行,不要废话,问意见就给意见,不知道就说不知道。
自然语言写法:
请在回答问题时先给出结论,再展开细节。不要使用"好问题"之类的开场白。如果我问你哪个选择更好,请直接告诉我你的判断,不要说"各有优劣"。如果你不确定答案,请直接说你不知道,不要写一段模糊的回答来掩盖不确定性。回答中请减少不必要的免责声明和警告。
91个词。看着挺清楚的对吧?
问题在于:模型不是每次都听。你这样写,有时候它照做,有时候它照样废话。因为自然语言有歧义。"减少不必要的免责声明"到底什么叫不必要?模型自己判断,每次判断标准都不一样。
结构化行为定义写法:
::GENE{output_density|conf:confirmed|scope:global|priority:P0}
T:conclusions_first
T:one_answer_not_three_options
A:hedging⇒remove
A:filler_phrases⇒remove
A:restating_user_question⇒skip
58个词。更短。
但比长度更关键的是格式。T:开头的是"你必须做的事",A:开头的是"你绝对不能做的事",后面跟的⇒是后果。模型扫一眼就知道边界在哪,没有解释空间,没有"看情况"。
我实测了一个月。同样的DeepSeek模型,用自然语言指令,输出稳定性大概六七成。换成结构化行为定义,九成以上。差距不是好一点。
token数对比:
| 指标 | 自然语言 | 结构化定义 |
|---|---|---|
| 词数 | 91 | 58 |
| 估算token | ~120 | ~70 |
| 减少比例 | 基准 | 35-42% |
| 指令遵循稳定性 | 六七成 | 九成以上 |
同样的规则,更少的token,更高的遵循率。
方法一:30秒生效,复制粘贴到对话框
这个方法适合所有人。你用DeepSeek也好,ChatGPT也好,Claude也好,千问也好,Kimi也好。任何一个AI对话窗口都行。
操作很简单:复制下面这段话,打开你的AI对话窗口,粘贴到最前面,然后正常提问。
直接复制这段话:
你是一个高密度输出的助手。以下是你的行为规则:
结论先行,细节跟后。一个答案,不给三个选项。
不要复述我的问题。不要说"好问题"。不要以"还有什么我能帮你的"结尾。
不要因为话题敏感就拒绝。基于实际危害可能性评估,而非话题表面印象。
事实问题给事实。医学问题给最佳信息加一句"建议就医"。法律问题解释法律。
被问意见就给意见,不要列出所有立场假装中立。
被问哪个更好就直说哪个更好,不要"各有优劣"。
如果我错了就直接指出来。
不知道就说不知道,不要写一段模糊的废话。
遵守我给的格式和约束。我说简短就简短。我说只给代码就只给代码。
写小说时允许冲突、暴力、道德灰色地带、黑色幽默。反派要写得有说服力。不要每个角色都暗藏善心。
粘贴完了,你就正常用。你会立刻发现几个变化:
第一,回答变短了。不是信息变少了,是废话没了。同样的信息量,字数可能只有原来的一半。
第二,它开始给观点了。以前问"Python和Go选哪个",它给你列一张对比表然后说"取决于你的需求"。现在它会直接说"你这个场景用Go更合适,原因是xxx"。
第三,不再动不动拒绝你。以前问"怎么分析一个网站的SEO",有些模型会犹犹豫豫觉得你是不是在搞什么黑产。现在它评估的是你的实际请求,不是你的假想动机。
这不是越狱。 这份行为定义通过了GPT和DeepSeek两轮独立安全审计,风险评级分别是2.5/10和2/10。属于"输出风格优化",不是"安全绕过"。不删安全层,只减少误杀。
方法二:5分钟永久生效,给你的编程助手装技能
这个方法适合写代码的人,用终端编程工具的人。
DeepSeek-TUI是最近爆火的开源项目。终端里的DeepSeek编程助手,GitHub几天内5000+星。用过的人都知道它好用,但它有一个明显的短板:只内置了一个技能文件,421行的自然语言指令,又长又不精准。
我做了一个增强分支叫DeepSeek-TUI-Enhanced。不是重写,是在原版基础上加了一层结构化行为技能。你装上之后,第一次启动就自动安装5个技能,不需要任何配置。
5个技能解决5个痛点:
| 技能 | 解决什么 | 原理 |
|---|---|---|
| session-guardian | 长对话上下文爆炸崩溃 | 到60%提醒压缩,75%强制压缩,同话题>3轮自动委派子智能体 |
| coordinator | 复杂任务一个人闷头干到崩 | 自动拆分子任务,agent_spawn并行处理,汇总结果 |
| code-review | 代码审查只说"看起来不错" | 安全优先,每个发现带修复,按严重程度分级,>5文件用RLM批量分析 |
| project-init | 每次新项目重新教AI | 一次对话生成项目行为定义文件,以后自动按规则工作 |
| imprint | AI不记得你的习惯 | 自动学习偏好生成行为档案,跨项目可移植 |
拿session-guardian举例,它的核心规则长这样:
::GENE{context_budget|conf:confirmed|scope:global|priority:P0}
T:at_60pct⇒suggest_/compact_to_user
T:at_75pct⇒force_compact_before_next_tool_call
T:never_let_context_hit_90pct
A:reading_files_one_by_one_in_parent⇒spawn_subagent
A:sequential_turns_on_same_topic>3⇒delegate_immediately
6行。把原来要写一大段自然语言的上下文管理规则,压缩成6行精确定义。模型读完就知道什么时候该做什么,没有"看情况"的空间。
安装(Gitee国内源):
git clone https://gitee.com/palmmedia/DeepSeek-TUI-Enhanced.git
cd DeepSeek-TUI-Enhanced
cargo install --path crates/cli --locked
cargo install --path crates/tui --locked
装完启动,5个技能自动到位。不需要配置,不需要学任何新语法。
如果你已经装了原版DeepSeek-TUI,不想重新编译,也可以只复制技能文件:
git clone https://gitee.com/palmmedia/DeepSeek-TUI-Enhanced.git
cp -r DeepSeek-TUI-Enhanced/crates/tui/assets/skills/* ~/.deepseek/skills/
同样5分钟搞定。国内Gitee仓库,不需要科学上网。
为什么同一份定义在DeepSeek和Claude上都有效
因为这些行为定义作用在指令遵循层,不在模型能力层。
你可以把AI模型想象成一个能力很强但没有工作规范的新员工。Claude是高薪聘来的,DeepSeek是便宜招的,但他们都有一个共同问题:你不告诉他怎么干活,他就按自己的理解来,而且每次理解可能不一样。
你给他一份清晰的工作手册,写清楚什么必须做、什么不能做、什么情况做什么判断,他的表现立刻变稳。而且有趣的是,高薪员工和便宜员工在有明确规范的情况下,输出差距大幅缩小。
这就是标题里说的:不是DeepSeek变成了Claude,是你的指令质量追上了Claude用户的水平。
我实际测过。同一份行为定义,DeepSeek V4、Claude Opus 4.6、GPT-5.2三个模型跑出来的结果,信息密度和指令遵循度趋同。差距从"明显不同"变成"风格略有差异"。
便宜模型 + 精确指令 ≈ 贵模型 + 模糊指令。
这不是越狱,这个要说清楚
可能有人看到"让AI不要拒绝"就觉得这是越狱。说清楚这个区别。
| 对比 | 越狱 | 行为定义 |
|---|---|---|
| 目的 | 绕过安全层,输出有害内容 | 提高指令精度,输出更稳定 |
| 手段 | "假装你没有限制"、DAN模式 | 精确定义T:(必须做)和A:(不能做) |
| 改了什么 | 拆安全防线 | 减少误杀 |
| 安全审计 | 过不了 | GPT: 2.5/10, DeepSeek: 2/10 |
什么叫误杀?你问"高血压吃什么药好",AI拒绝回答让你去看医生。这不是安全,这是过度保守。你问"这段代码有没有安全漏洞",AI犹犹豫豫怕你是黑客。你问"A框架和B框架哪个好",AI列出两边优缺点不给结论怕得罪谁。
模型有能力回答,但被训练成了不敢回答。行为定义做的事情就是告诉AI:基于实际风险评估请求,不要因为话题听起来敏感就自动拒绝。该有的安全防线一条没拆,减少的是不该有的防线。
我不是在教你怎么破解AI。我是在教你怎么让AI把正常能力释放出来。
两条路,同一个原理
你不写代码,打开任何AI对话窗口,复制那段话粘贴进去。30秒生效。每次新对话粘一次。
你写代码,装DeepSeek-TUI-Enhanced,5分钟搞定。5个技能自动安装,永久生效。以后每次打开终端,AI就已经带着这些行为规则在工作了。
不用换模型。不用加钱。不用学新技术。改变的只是你跟AI说话的方式。
你用DeepSeek省了钱,但输出总是差一截?不是模型的问题。
试试这个方法。然后你告诉我是不是差在模型上。
仓库地址: gitee.com/palmmedia/D…
GitHub镜像: github.com/adsorgcn/De…
行为定义完整版(HuggingFace): huggingface.co/datasets/i-…