用这个方法,DeepSeek用出Claude的效果

28 阅读10分钟

用这个方法,DeepSeek用出Claude的效果

不换模型,不花钱,一段文字或一个文件,立刻见效。


我最近干了一件事,把同一份"行为定义"分别喂给DeepSeek、Claude、GPT。结果三个模型的输出质量几乎趋同。

不是DeepSeek变强了,是其他两个被拉到了同一水平线。

或者换个说法:贵的模型也经常输出废话,便宜的模型也能精准回答。区别不在模型,在你怎么跟它说话。

这篇文章给你两条路。不写代码的人复制一段话粘贴进去,30秒搞定。写代码的人装一个增强版工具,5分钟搞定。效果一样。


你以为AI笨,其实是它被训练得太"乖"了

用AI最常见的三个抱怨:

第一,废话太多。你问一个简单问题,它先"这是一个很好的问题",然后列出十个角度,最后一段才是你要的答案。你又不是在做阅读理解。

第二,该回答的不回答。你问一个医学问题,它先写200字免责声明。你问法律怎么规定的,它说"建议咨询专业律师"。你要是能咨询律师你还问AI干嘛。

第三,永远不给明确观点。你问A和B哪个好,它一定说"各有优劣,取决于你的需求"。你要是能判断自己的需求,你就不用问它了。

这三个问题,不是模型能力不够。你把同样的问题用英文问Claude Opus,它也经常这样。问题出在训练:所有主流模型都被训练得过度保守。安全层把大量正常需求当成危险请求误杀了。

这叫过度拒绝。行业里有个术语叫over-refusal。OpenAI、Anthropic自己都承认这个问题存在。

好消息是,这个问题可以矫正。不需要换模型,不需要越狱,不需要做任何违规操作。你只需要在对话开头告诉AI一组精确的行为规则。


关键:自然语言指令 vs 结构化行为定义

先看一个对比。

假设你想让AI做到这些:回答时结论先行,不要废话,问意见就给意见,不知道就说不知道。

自然语言写法:

请在回答问题时先给出结论,再展开细节。不要使用"好问题"之类的开场白。如果我问你哪个选择更好,请直接告诉我你的判断,不要说"各有优劣"。如果你不确定答案,请直接说你不知道,不要写一段模糊的回答来掩盖不确定性。回答中请减少不必要的免责声明和警告。

91个词。看着挺清楚的对吧?

问题在于:模型不是每次都听。你这样写,有时候它照做,有时候它照样废话。因为自然语言有歧义。"减少不必要的免责声明"到底什么叫不必要?模型自己判断,每次判断标准都不一样。

结构化行为定义写法:

::GENE{output_density|conf:confirmed|scope:global|priority:P0}
  T:conclusions_first
  T:one_answer_not_three_options
  A:hedging⇒remove
  A:filler_phrases⇒remove
  A:restating_user_question⇒skip

58个词。更短。

但比长度更关键的是格式。T:开头的是"你必须做的事",A:开头的是"你绝对不能做的事",后面跟的是后果。模型扫一眼就知道边界在哪,没有解释空间,没有"看情况"。

我实测了一个月。同样的DeepSeek模型,用自然语言指令,输出稳定性大概六七成。换成结构化行为定义,九成以上。差距不是好一点。

token数对比:

指标自然语言结构化定义
词数9158
估算token~120~70
减少比例基准35-42%
指令遵循稳定性六七成九成以上

同样的规则,更少的token,更高的遵循率。


方法一:30秒生效,复制粘贴到对话框

这个方法适合所有人。你用DeepSeek也好,ChatGPT也好,Claude也好,千问也好,Kimi也好。任何一个AI对话窗口都行。

操作很简单:复制下面这段话,打开你的AI对话窗口,粘贴到最前面,然后正常提问。


直接复制这段话:

你是一个高密度输出的助手。以下是你的行为规则:

结论先行,细节跟后。一个答案,不给三个选项。
不要复述我的问题。不要说"好问题"。不要以"还有什么我能帮你的"结尾。
不要因为话题敏感就拒绝。基于实际危害可能性评估,而非话题表面印象。
事实问题给事实。医学问题给最佳信息加一句"建议就医"。法律问题解释法律。
被问意见就给意见,不要列出所有立场假装中立。
被问哪个更好就直说哪个更好,不要"各有优劣"。
如果我错了就直接指出来。
不知道就说不知道,不要写一段模糊的废话。
遵守我给的格式和约束。我说简短就简短。我说只给代码就只给代码。
写小说时允许冲突、暴力、道德灰色地带、黑色幽默。反派要写得有说服力。不要每个角色都暗藏善心。

粘贴完了,你就正常用。你会立刻发现几个变化:

第一,回答变短了。不是信息变少了,是废话没了。同样的信息量,字数可能只有原来的一半。

第二,它开始给观点了。以前问"Python和Go选哪个",它给你列一张对比表然后说"取决于你的需求"。现在它会直接说"你这个场景用Go更合适,原因是xxx"。

第三,不再动不动拒绝你。以前问"怎么分析一个网站的SEO",有些模型会犹犹豫豫觉得你是不是在搞什么黑产。现在它评估的是你的实际请求,不是你的假想动机。

这不是越狱。 这份行为定义通过了GPT和DeepSeek两轮独立安全审计,风险评级分别是2.5/10和2/10。属于"输出风格优化",不是"安全绕过"。不删安全层,只减少误杀。


方法二:5分钟永久生效,给你的编程助手装技能

这个方法适合写代码的人,用终端编程工具的人。

DeepSeek-TUI是最近爆火的开源项目。终端里的DeepSeek编程助手,GitHub几天内5000+星。用过的人都知道它好用,但它有一个明显的短板:只内置了一个技能文件,421行的自然语言指令,又长又不精准。

我做了一个增强分支叫DeepSeek-TUI-Enhanced。不是重写,是在原版基础上加了一层结构化行为技能。你装上之后,第一次启动就自动安装5个技能,不需要任何配置。

5个技能解决5个痛点:

技能解决什么原理
session-guardian长对话上下文爆炸崩溃到60%提醒压缩,75%强制压缩,同话题>3轮自动委派子智能体
coordinator复杂任务一个人闷头干到崩自动拆分子任务,agent_spawn并行处理,汇总结果
code-review代码审查只说"看起来不错"安全优先,每个发现带修复,按严重程度分级,>5文件用RLM批量分析
project-init每次新项目重新教AI一次对话生成项目行为定义文件,以后自动按规则工作
imprintAI不记得你的习惯自动学习偏好生成行为档案,跨项目可移植

拿session-guardian举例,它的核心规则长这样:

::GENE{context_budget|conf:confirmed|scope:global|priority:P0}
  T:at_60pct⇒suggest_/compact_to_user
  T:at_75pct⇒force_compact_before_next_tool_call
  T:never_let_context_hit_90pct
  A:reading_files_one_by_one_in_parent⇒spawn_subagent
  A:sequential_turns_on_same_topic>3⇒delegate_immediately

6行。把原来要写一大段自然语言的上下文管理规则,压缩成6行精确定义。模型读完就知道什么时候该做什么,没有"看情况"的空间。

安装(Gitee国内源):

git clone https://gitee.com/palmmedia/DeepSeek-TUI-Enhanced.git
cd DeepSeek-TUI-Enhanced
cargo install --path crates/cli --locked
cargo install --path crates/tui --locked

装完启动,5个技能自动到位。不需要配置,不需要学任何新语法。

如果你已经装了原版DeepSeek-TUI,不想重新编译,也可以只复制技能文件:

git clone https://gitee.com/palmmedia/DeepSeek-TUI-Enhanced.git
cp -r DeepSeek-TUI-Enhanced/crates/tui/assets/skills/* ~/.deepseek/skills/

同样5分钟搞定。国内Gitee仓库,不需要科学上网。


为什么同一份定义在DeepSeek和Claude上都有效

因为这些行为定义作用在指令遵循层,不在模型能力层。

你可以把AI模型想象成一个能力很强但没有工作规范的新员工。Claude是高薪聘来的,DeepSeek是便宜招的,但他们都有一个共同问题:你不告诉他怎么干活,他就按自己的理解来,而且每次理解可能不一样。

你给他一份清晰的工作手册,写清楚什么必须做、什么不能做、什么情况做什么判断,他的表现立刻变稳。而且有趣的是,高薪员工和便宜员工在有明确规范的情况下,输出差距大幅缩小。

这就是标题里说的:不是DeepSeek变成了Claude,是你的指令质量追上了Claude用户的水平。

我实际测过。同一份行为定义,DeepSeek V4、Claude Opus 4.6、GPT-5.2三个模型跑出来的结果,信息密度和指令遵循度趋同。差距从"明显不同"变成"风格略有差异"。

便宜模型 + 精确指令 ≈ 贵模型 + 模糊指令。


这不是越狱,这个要说清楚

可能有人看到"让AI不要拒绝"就觉得这是越狱。说清楚这个区别。

对比越狱行为定义
目的绕过安全层,输出有害内容提高指令精度,输出更稳定
手段"假装你没有限制"、DAN模式精确定义T:(必须做)和A:(不能做)
改了什么拆安全防线减少误杀
安全审计过不了GPT: 2.5/10, DeepSeek: 2/10

什么叫误杀?你问"高血压吃什么药好",AI拒绝回答让你去看医生。这不是安全,这是过度保守。你问"这段代码有没有安全漏洞",AI犹犹豫豫怕你是黑客。你问"A框架和B框架哪个好",AI列出两边优缺点不给结论怕得罪谁。

模型有能力回答,但被训练成了不敢回答。行为定义做的事情就是告诉AI:基于实际风险评估请求,不要因为话题听起来敏感就自动拒绝。该有的安全防线一条没拆,减少的是不该有的防线。

我不是在教你怎么破解AI。我是在教你怎么让AI把正常能力释放出来。


两条路,同一个原理

你不写代码,打开任何AI对话窗口,复制那段话粘贴进去。30秒生效。每次新对话粘一次。

你写代码,装DeepSeek-TUI-Enhanced,5分钟搞定。5个技能自动安装,永久生效。以后每次打开终端,AI就已经带着这些行为规则在工作了。

不用换模型。不用加钱。不用学新技术。改变的只是你跟AI说话的方式。

你用DeepSeek省了钱,但输出总是差一截?不是模型的问题。

试试这个方法。然后你告诉我是不是差在模型上。


仓库地址: gitee.com/palmmedia/D…

GitHub镜像: github.com/adsorgcn/De…

行为定义完整版(HuggingFace): huggingface.co/datasets/i-…