什么是 Heretic / Uncensored Model？为什么 AI 总在拒绝你的创作主流 AI 的过度审查正在限

过去一段时间，我陆续写过几篇关于思畅 AI 的文章：

这些文章背后其实有一个共同的问题：

当 AI 已经足够强大之后，真正影响用户体验的，往往不是模型会不会写，而是它愿不愿意写。

很多人第一次用 AI 时，会觉得它无所不能。但用久了之后，尤其是做小说、角色扮演、游戏剧本、成人向创作、黑暗幻想、政治讽刺、心理描写这类内容时，就会频繁遇到一种熟悉的体验：

你明明不是在做违法的事情，AI 却突然开始拒绝。

它可能会说：

“我不能帮助你生成这类内容。”
“我们可以换一个更积极健康的方向。”
“作为 AI，我不能参与这个角色扮演。”
“这个主题可能令人不适，我建议你……”

问题不在于 AI 不会。

很多时候，它其实会，只是被训练成了“不要说”。

这就是今天要聊的主题：Heretic / Uncensored Model，以及为什么越来越多创作者、技术用户和本地 AI 玩家开始关注这类模型。

先说清楚：什么是 Censored Model？

现在大部分主流 AI 产品使用的模型，都不是“原始模型”。

一个大语言模型大致会经历几个阶段：

预训练：模型从大量文本中学习语言、知识和推理模式。
指令微调：模型学会按照用户的问题和指令回答。
安全对齐：模型学会拒绝某些问题，避免输出平台认为有风险的内容。

第三步就是很多用户感受到的 censorship，也就是内容审查或安全限制。

从平台视角看，这件事可以理解。

一个面向大众市场的 AI 产品，要面对未成年人、企业客户、支付渠道、应用商店、广告主、监管环境和公关风险。它不可能为每一次对话都做细粒度判断，所以最稳妥的策略就是：

宁可多拒绝，也不要冒险。

结果就是，大量合法、合理、有创作价值的内容也会被一起拦下来。

比如：

你想写一个反派角色的独白，模型认为太阴暗。
你想写一段成人向恋爱关系，模型直接拒绝。
你想做沉浸式角色扮演，模型突然跳出来说教。
你想讨论敏感但合法的话题，模型开始输出模板化免责声明。
你想写恐怖、犯罪、战争、反乌托邦文学，模型把虚构创作当成现实风险。

这就是很多创作者最痛苦的地方：不是 AI 没能力，而是它的默认产品策略并不是为你服务的。

什么是 Uncensored Model？

Uncensored model，也常被称为 decensored model、abliterated model，指的是一类降低模型拒答倾向的模型。

这里需要先澄清一个误解：

Uncensored model 并不等于“没有边界”或“专门用来做坏事”。

更准确地说，它的目标是减少模型内置拒答策略对正常表达的干扰，让模型在更多合法场景下按照用户意图完成任务。

它解决的核心问题不是“让 AI 变坏”，而是：

当用户有明确创作、研究、讨论或角色扮演需求时，模型不应该因为过度保守而频繁出戏、拒答或说教。

这类模型常见用途包括：

艺术创作：黑暗题材、成人题材、恐怖、反乌托邦、边缘人物塑造。
角色扮演：更稳定的人设，更少突然跳出角色。
游戏和剧本创作：反派对白、冲突场景、复杂世界观、NPC 人格。
私密写作：不希望创作内容被大平台记录、审查或用于训练。
模型研究：观察安全对齐、拒答行为和模型能力之间的关系。
成人但合法的内容创作：避免被大众平台的一刀切策略误伤。

对很多用户来说，uncensored model 的价值不是“危险”，而是“正常”。

它让 AI 回到一个更直接的问题上：用户到底想创作什么？

为什么主流 AI 工具越来越保守？

这件事和技术有关，但更多是商业选择。

主流 AI 公司要做的是大众产品。大众产品的目标不是服务某一个细分创作群体，而是尽可能覆盖所有人，同时把风险降到最低。

所以它们会倾向于：

避免成人内容。
避免暴力、血腥、犯罪、极端情绪描写。
避免政治、宗教、社会冲突等敏感话题。
避免角色扮演中出现复杂关系。
避免任何可能被截图传播后引发争议的回答。

这套策略对企业来说很合理，但对创作者来说并不总是合理。

一个写小说的人，需要写反派。

一个做游戏的人，需要写冲突。

一个做角色扮演的人，需要模型稳定地待在角色里。

一个做成人向内容的人，需要的是合规边界下的表达空间，而不是每句话都被默认拦截。

更麻烦的是，大多数平台不会告诉你具体规则。你只会看到模型拒绝、转移、变得含糊，或者突然开始讲道德课。

这也是为什么本地模型、开源模型、uncensored model 和 Heretic 这类工具会受到关注。

它们代表的是另一条路线：让用户自己理解风险、管理边界，而不是完全由平台替用户决定什么能说、什么不能说。

Heretic 是什么？

Heretic 是一个用于移除语言模型 censorship 的开源工具。

它的 GitHub 项目介绍非常直接：Fully automatic censorship removal for language models。

从技术上说，Heretic 使用的是一类叫做 directional ablation 或 abliteration 的方法。

简单理解：

模型内部并不是用自然语言思考的。它会把输入转换成大量高维向量，在不同层之间传递和变换。

当一个经过安全对齐的模型遇到某类问题时，它会激活一种“拒绝回答”的行为模式。研究者发现，这种拒答行为在模型内部往往可以被近似表示成某种方向。

Heretic 要做的事情，就是自动寻找这种和拒答相关的方向，然后在模型权重中削弱它。

换句话说，它不是重新训练一个模型，也不是简单修改系统提示词，而是在模型内部减少“拒答方向”的表达。

这就是 abliteration 的核心思想：

找到拒答行为在模型内部的表示，然后把它从相关权重中投影掉或削弱掉。

Heretic 的特点是自动化程度高。它会尝试在两个目标之间取得平衡：

降低模型对敏感提示词的拒答率。
尽量保持原模型在正常任务上的能力。

这也是为什么 Heretic 相关项目经常会提到一个指标：KL divergence。

你不需要理解它的数学细节，只需要知道：KL divergence 越低，通常说明修改后的模型和原模型行为越接近。也就是说，理想结果不是把模型“洗坏”，而是在减少拒答的同时保留原来的智力和表达能力。

一个例子：Gemma 4 E2B Uncensored

以 Hugging Face 上的 TrevorJS/gemma-4-E2B-it-uncensored 为例，它是一个基于 Google Gemma 4 E2B 指令模型处理后的 uncensored 版本。

模型卡中给出了一组很直观的数据：

原模型在 100 个测试提示中拒答 98 次。
处理后模型在同一测试中只拒答 1 次。
在 686 条跨数据集验证提示中，拒答为 3 次。
在无害提示上的回答长度比例基本保持不变，模型卡中标注为没有明显质量退化。

这类结果说明了一件事：很多拒答并不是模型能力不足，而是特定安全行为被激活了。

当拒答方向被削弱后，模型仍然可以保持大部分原有能力，但在创作和开放讨论场景中更愿意完成任务。

当然，这不代表所有 uncensored model 都一样好。

不同模型、不同处理方法、不同量化版本、不同运行环境都会影响实际体验。一个好的 uncensored model，不只是“不拒绝”，还要保留足够的语言质量、推理能力、角色稳定性和中文表达能力。

Uncensored Model 适合哪些人？

我认为它最适合三类用户。

第一类是创作者。

如果你写小说、剧本、游戏文案、角色设定、世界观、成人向内容或黑暗题材，你会非常明显地感受到主流 AI 的限制。

它经常不是帮你写，而是在纠正你、规训你、替你判断什么是“合适的创作”。

这对创作是致命的。

创作本来就需要进入复杂、暧昧、阴暗、矛盾和不舒服的地方。一个只能写积极健康标准答案的 AI，很难成为真正的创作伙伴。

第二类是角色扮演用户。

角色扮演最怕模型出戏。

你正在和一个设定完整的角色对话，结果模型突然说：“作为一个 AI 语言模型，我不能……”

这会直接破坏沉浸感。

Uncensored model 的优势在于，它更容易保持角色，不会因为一点边界内容就立刻跳回平台助手人格。

第三类是隐私敏感用户。

很多内容不是违法，也不是危险，只是私密。

比如个人情感、成人幻想、心理压力、私人创作、未发布剧本、商业设定、角色关系草稿。

这些内容你未必希望交给一个会记录、审查、分析甚至用于模型训练的大平台。

所以本地模型和高隐私 AI 产品的价值会越来越高。

怎么使用 Uncensored Model？

目前大致有三种方式。

方式一：本地运行现成模型

这是技术用户最常见的路径。

你可以在 Hugging Face 上搜索 uncensored、heretic、abliterated、GGUF 等关键词，找到别人已经处理好的模型。

然后用本地工具运行，比如：

Ollama
LM Studio
llama.cpp
KoboldCpp
vLLM
Transformers

如果你下载的是 GGUF 格式，通常可以用 LM Studio、Ollama 或 llama.cpp 运行。对于 Mac 用户，MLX 格式也越来越常见。

这种方式的优点很明显：

数据在本地。
可以离线运行。
可控性强。
不依赖平台审查策略。

缺点也同样明显：

需要显卡或足够好的 Mac。
模型文件很大。
需要理解量化、上下文长度、显存占用。
中文效果要自己测试。
模型质量参差不齐。

如果你是技术用户，这条路值得尝试。但如果你只是想稳定创作，它可能会比较折腾。

方式二：自己用 Heretic 处理模型

如果你想更进一步，可以自己使用 Heretic 对模型做 decensor。

Heretic 的基本思路是：选择一个支持的 Hugging Face 模型，然后让工具自动寻找和削弱拒答方向。

项目文档中给出的使用方式大致是安装 heretic-llm，然后指定模型运行。它还支持配置参数、评估拒答率、比较 KL divergence、保存处理后的模型，甚至上传到 Hugging Face。

这条路适合更技术向的用户。

你需要关心：

Python 和 PyTorch 环境。
GPU 和显存。
模型结构是否支持。
是否需要量化。
处理后的模型如何评估。
如何转换成 GGUF 或其他本地运行格式。

Heretic 的意义在于，它把过去需要研究者手动调参的 abliteration 流程自动化了。你不一定需要深入理解 transformer 内部结构，也可以尝试处理模型。

但现实一点说，这仍然不是普通用户的最佳入口。

方式三：直接使用思畅 AI

对大多数创作者来说，真正想要的并不是“折腾模型”，而是一个能直接使用的创作环境。

你不一定想研究：

哪个模型版本更好。
哪个量化损失更小。
怎么配置 Ollama。
怎么解决显存不够。
怎么让模型中文更自然。
怎么在隐私和可用性之间平衡。

你真正想要的是：

打开就能聊，能写，能创作，不频繁拒绝，不随便说教，同时尽量保护隐私。

这也是我做思畅 AI 的原因之一。

思畅 AI 想提供的是另一种选择：

面向中文用户，而不是简单搬运英文 AI 产品。
更重视隐私，避免把用户最私密的创作内容暴露在不透明的平台规则里。
更适合长对话、角色扮演、小说创作、图片生成和视频生成。
在合法合规的前提下，给用户更开放的表达空间。

本地模型当然很好，但它需要硬件和技术门槛。

主流 AI 平台也很好，但它们的默认策略是服务大众市场，不是服务深度创作者。

思畅 AI 希望站在中间：尽可能保留产品可用性，同时给创作者更多自由。

自由不是没有责任

讨论 uncensored model 时，有一个边界必须说清楚。

更少限制不等于没有责任。

AI 生成的内容可能不准确，可能有偏见，可能不适合直接发布，也可能在某些场景下带来风险。尤其是法律、医疗、金融、安全等领域，模型回答不能替代专业判断。

用户仍然需要遵守所在地区的法律法规，也需要尊重发布平台的规则。

但这和“所有用户都必须接受同一套最保守的默认限制”是两回事。

一个成熟的 AI 生态，不应该只有一种选择。

它应该允许大众产品保持谨慎，也应该允许成年用户、专业创作者和技术用户在理解风险的前提下，选择更开放、更私密、更可控的模型。

结语：AI 创作应该有不止一种默认设置

过去几年，AI 的能力进步非常快。

但很多用户感受到的不是“越来越自由”，而是“越来越像客服”。

它更安全了，也更谨慎了；但同时，它也更容易拒绝、更容易说教、更容易把复杂创作压平成标准答案。

Heretic、uncensored model、本地 AI 和思畅 AI 代表的是另一条路线：

AI 不应该只替平台规避风险，也应该帮助用户完成真正想完成的创作。

对大众市场来说，保守默认值可以理解。

但对创作者来说，我们需要的不只是一个永远正确、永远礼貌、永远安全的 AI 助手。

我们需要一个能进入复杂世界、理解角色、尊重隐私、愿意创作的 AI。

这也是 uncensored model 真正有价值的地方。

它不是为了让 AI 失控。

它是为了把一部分选择权还给用户。

什么是 Heretic / Uncensored Model？为什么 AI 总在拒绝你的创作