过去一段时间,我陆续写过几篇关于思畅 AI 的文章:
这些文章背后其实有一个共同的问题:
当 AI 已经足够强大之后,真正影响用户体验的,往往不是模型会不会写,而是它愿不愿意写。
很多人第一次用 AI 时,会觉得它无所不能。但用久了之后,尤其是做小说、角色扮演、游戏剧本、成人向创作、黑暗幻想、政治讽刺、心理描写这类内容时,就会频繁遇到一种熟悉的体验:
你明明不是在做违法的事情,AI 却突然开始拒绝。
它可能会说:
- “我不能帮助你生成这类内容。”
- “我们可以换一个更积极健康的方向。”
- “作为 AI,我不能参与这个角色扮演。”
- “这个主题可能令人不适,我建议你……”
问题不在于 AI 不会。
很多时候,它其实会,只是被训练成了“不要说”。
这就是今天要聊的主题:Heretic / Uncensored Model,以及为什么越来越多创作者、技术用户和本地 AI 玩家开始关注这类模型。
先说清楚:什么是 Censored Model?
现在大部分主流 AI 产品使用的模型,都不是“原始模型”。
一个大语言模型大致会经历几个阶段:
- 预训练:模型从大量文本中学习语言、知识和推理模式。
- 指令微调:模型学会按照用户的问题和指令回答。
- 安全对齐:模型学会拒绝某些问题,避免输出平台认为有风险的内容。
第三步就是很多用户感受到的 censorship,也就是内容审查或安全限制。
从平台视角看,这件事可以理解。
一个面向大众市场的 AI 产品,要面对未成年人、企业客户、支付渠道、应用商店、广告主、监管环境和公关风险。它不可能为每一次对话都做细粒度判断,所以最稳妥的策略就是:
宁可多拒绝,也不要冒险。
结果就是,大量合法、合理、有创作价值的内容也会被一起拦下来。
比如:
- 你想写一个反派角色的独白,模型认为太阴暗。
- 你想写一段成人向恋爱关系,模型直接拒绝。
- 你想做沉浸式角色扮演,模型突然跳出来说教。
- 你想讨论敏感但合法的话题,模型开始输出模板化免责声明。
- 你想写恐怖、犯罪、战争、反乌托邦文学,模型把虚构创作当成现实风险。
这就是很多创作者最痛苦的地方:不是 AI 没能力,而是它的默认产品策略并不是为你服务的。
什么是 Uncensored Model?
Uncensored model,也常被称为 decensored model、abliterated model,指的是一类降低模型拒答倾向的模型。
这里需要先澄清一个误解:
Uncensored model 并不等于“没有边界”或“专门用来做坏事”。
更准确地说,它的目标是减少模型内置拒答策略对正常表达的干扰,让模型在更多合法场景下按照用户意图完成任务。
它解决的核心问题不是“让 AI 变坏”,而是:
当用户有明确创作、研究、讨论或角色扮演需求时,模型不应该因为过度保守而频繁出戏、拒答或说教。
这类模型常见用途包括:
- 艺术创作:黑暗题材、成人题材、恐怖、反乌托邦、边缘人物塑造。
- 角色扮演:更稳定的人设,更少突然跳出角色。
- 游戏和剧本创作:反派对白、冲突场景、复杂世界观、NPC 人格。
- 私密写作:不希望创作内容被大平台记录、审查或用于训练。
- 模型研究:观察安全对齐、拒答行为和模型能力之间的关系。
- 成人但合法的内容创作:避免被大众平台的一刀切策略误伤。
对很多用户来说,uncensored model 的价值不是“危险”,而是“正常”。
它让 AI 回到一个更直接的问题上:用户到底想创作什么?
为什么主流 AI 工具越来越保守?
这件事和技术有关,但更多是商业选择。
主流 AI 公司要做的是大众产品。大众产品的目标不是服务某一个细分创作群体,而是尽可能覆盖所有人,同时把风险降到最低。
所以它们会倾向于:
- 避免成人内容。
- 避免暴力、血腥、犯罪、极端情绪描写。
- 避免政治、宗教、社会冲突等敏感话题。
- 避免角色扮演中出现复杂关系。
- 避免任何可能被截图传播后引发争议的回答。
这套策略对企业来说很合理,但对创作者来说并不总是合理。
一个写小说的人,需要写反派。
一个做游戏的人,需要写冲突。
一个做角色扮演的人,需要模型稳定地待在角色里。
一个做成人向内容的人,需要的是合规边界下的表达空间,而不是每句话都被默认拦截。
更麻烦的是,大多数平台不会告诉你具体规则。你只会看到模型拒绝、转移、变得含糊,或者突然开始讲道德课。
这也是为什么本地模型、开源模型、uncensored model 和 Heretic 这类工具会受到关注。
它们代表的是另一条路线:让用户自己理解风险、管理边界,而不是完全由平台替用户决定什么能说、什么不能说。
Heretic 是什么?
Heretic 是一个用于移除语言模型 censorship 的开源工具。
它的 GitHub 项目介绍非常直接:Fully automatic censorship removal for language models。
从技术上说,Heretic 使用的是一类叫做 directional ablation 或 abliteration 的方法。
简单理解:
模型内部并不是用自然语言思考的。它会把输入转换成大量高维向量,在不同层之间传递和变换。
当一个经过安全对齐的模型遇到某类问题时,它会激活一种“拒绝回答”的行为模式。研究者发现,这种拒答行为在模型内部往往可以被近似表示成某种方向。
Heretic 要做的事情,就是自动寻找这种和拒答相关的方向,然后在模型权重中削弱它。
换句话说,它不是重新训练一个模型,也不是简单修改系统提示词,而是在模型内部减少“拒答方向”的表达。
这就是 abliteration 的核心思想:
找到拒答行为在模型内部的表示,然后把它从相关权重中投影掉或削弱掉。
Heretic 的特点是自动化程度高。它会尝试在两个目标之间取得平衡:
- 降低模型对敏感提示词的拒答率。
- 尽量保持原模型在正常任务上的能力。
这也是为什么 Heretic 相关项目经常会提到一个指标:KL divergence。
你不需要理解它的数学细节,只需要知道:KL divergence 越低,通常说明修改后的模型和原模型行为越接近。也就是说,理想结果不是把模型“洗坏”,而是在减少拒答的同时保留原来的智力和表达能力。
一个例子:Gemma 4 E2B Uncensored
以 Hugging Face 上的 TrevorJS/gemma-4-E2B-it-uncensored 为例,它是一个基于 Google Gemma 4 E2B 指令模型处理后的 uncensored 版本。
模型卡中给出了一组很直观的数据:
- 原模型在 100 个测试提示中拒答 98 次。
- 处理后模型在同一测试中只拒答 1 次。
- 在 686 条跨数据集验证提示中,拒答为 3 次。
- 在无害提示上的回答长度比例基本保持不变,模型卡中标注为没有明显质量退化。
这类结果说明了一件事:很多拒答并不是模型能力不足,而是特定安全行为被激活了。
当拒答方向被削弱后,模型仍然可以保持大部分原有能力,但在创作和开放讨论场景中更愿意完成任务。
当然,这不代表所有 uncensored model 都一样好。
不同模型、不同处理方法、不同量化版本、不同运行环境都会影响实际体验。一个好的 uncensored model,不只是“不拒绝”,还要保留足够的语言质量、推理能力、角色稳定性和中文表达能力。
Uncensored Model 适合哪些人?
我认为它最适合三类用户。
第一类是创作者。
如果你写小说、剧本、游戏文案、角色设定、世界观、成人向内容或黑暗题材,你会非常明显地感受到主流 AI 的限制。
它经常不是帮你写,而是在纠正你、规训你、替你判断什么是“合适的创作”。
这对创作是致命的。
创作本来就需要进入复杂、暧昧、阴暗、矛盾和不舒服的地方。一个只能写积极健康标准答案的 AI,很难成为真正的创作伙伴。
第二类是角色扮演用户。
角色扮演最怕模型出戏。
你正在和一个设定完整的角色对话,结果模型突然说:“作为一个 AI 语言模型,我不能……”
这会直接破坏沉浸感。
Uncensored model 的优势在于,它更容易保持角色,不会因为一点边界内容就立刻跳回平台助手人格。
第三类是隐私敏感用户。
很多内容不是违法,也不是危险,只是私密。
比如个人情感、成人幻想、心理压力、私人创作、未发布剧本、商业设定、角色关系草稿。
这些内容你未必希望交给一个会记录、审查、分析甚至用于模型训练的大平台。
所以本地模型和高隐私 AI 产品的价值会越来越高。
怎么使用 Uncensored Model?
目前大致有三种方式。
方式一:本地运行现成模型
这是技术用户最常见的路径。
你可以在 Hugging Face 上搜索 uncensored、heretic、abliterated、GGUF 等关键词,找到别人已经处理好的模型。
然后用本地工具运行,比如:
- Ollama
- LM Studio
- llama.cpp
- KoboldCpp
- vLLM
- Transformers
如果你下载的是 GGUF 格式,通常可以用 LM Studio、Ollama 或 llama.cpp 运行。对于 Mac 用户,MLX 格式也越来越常见。
这种方式的优点很明显:
- 数据在本地。
- 可以离线运行。
- 可控性强。
- 不依赖平台审查策略。
缺点也同样明显:
- 需要显卡或足够好的 Mac。
- 模型文件很大。
- 需要理解量化、上下文长度、显存占用。
- 中文效果要自己测试。
- 模型质量参差不齐。
如果你是技术用户,这条路值得尝试。但如果你只是想稳定创作,它可能会比较折腾。
方式二:自己用 Heretic 处理模型
如果你想更进一步,可以自己使用 Heretic 对模型做 decensor。
Heretic 的基本思路是:选择一个支持的 Hugging Face 模型,然后让工具自动寻找和削弱拒答方向。
项目文档中给出的使用方式大致是安装 heretic-llm,然后指定模型运行。它还支持配置参数、评估拒答率、比较 KL divergence、保存处理后的模型,甚至上传到 Hugging Face。
这条路适合更技术向的用户。
你需要关心:
- Python 和 PyTorch 环境。
- GPU 和显存。
- 模型结构是否支持。
- 是否需要量化。
- 处理后的模型如何评估。
- 如何转换成 GGUF 或其他本地运行格式。
Heretic 的意义在于,它把过去需要研究者手动调参的 abliteration 流程自动化了。你不一定需要深入理解 transformer 内部结构,也可以尝试处理模型。
但现实一点说,这仍然不是普通用户的最佳入口。
方式三:直接使用思畅 AI
对大多数创作者来说,真正想要的并不是“折腾模型”,而是一个能直接使用的创作环境。
你不一定想研究:
- 哪个模型版本更好。
- 哪个量化损失更小。
- 怎么配置 Ollama。
- 怎么解决显存不够。
- 怎么让模型中文更自然。
- 怎么在隐私和可用性之间平衡。
你真正想要的是:
打开就能聊,能写,能创作,不频繁拒绝,不随便说教,同时尽量保护隐私。
这也是我做思畅 AI 的原因之一。
思畅 AI 想提供的是另一种选择:
- 面向中文用户,而不是简单搬运英文 AI 产品。
- 更重视隐私,避免把用户最私密的创作内容暴露在不透明的平台规则里。
- 更适合长对话、角色扮演、小说创作、图片生成和视频生成。
- 在合法合规的前提下,给用户更开放的表达空间。
本地模型当然很好,但它需要硬件和技术门槛。
主流 AI 平台也很好,但它们的默认策略是服务大众市场,不是服务深度创作者。
思畅 AI 希望站在中间:尽可能保留产品可用性,同时给创作者更多自由。
自由不是没有责任
讨论 uncensored model 时,有一个边界必须说清楚。
更少限制不等于没有责任。
AI 生成的内容可能不准确,可能有偏见,可能不适合直接发布,也可能在某些场景下带来风险。尤其是法律、医疗、金融、安全等领域,模型回答不能替代专业判断。
用户仍然需要遵守所在地区的法律法规,也需要尊重发布平台的规则。
但这和“所有用户都必须接受同一套最保守的默认限制”是两回事。
一个成熟的 AI 生态,不应该只有一种选择。
它应该允许大众产品保持谨慎,也应该允许成年用户、专业创作者和技术用户在理解风险的前提下,选择更开放、更私密、更可控的模型。
结语:AI 创作应该有不止一种默认设置
过去几年,AI 的能力进步非常快。
但很多用户感受到的不是“越来越自由”,而是“越来越像客服”。
它更安全了,也更谨慎了;但同时,它也更容易拒绝、更容易说教、更容易把复杂创作压平成标准答案。
Heretic、uncensored model、本地 AI 和思畅 AI 代表的是另一条路线:
AI 不应该只替平台规避风险,也应该帮助用户完成真正想完成的创作。
对大众市场来说,保守默认值可以理解。
但对创作者来说,我们需要的不只是一个永远正确、永远礼貌、永远安全的 AI 助手。
我们需要一个能进入复杂世界、理解角色、尊重隐私、愿意创作的 AI。
这也是 uncensored model 真正有价值的地方。
它不是为了让 AI 失控。
它是为了把一部分选择权还给用户。
延伸阅读
- 思畅 AI: sichang.xyz/
- Heretic GitHub: github.com/p-e-w/heret…
- Gemma 4 E2B uncensored 示例模型: huggingface.co/TrevorJS/ge…
- Hugging Face Heretic 模型搜索: huggingface.co/models?sear…