⚠️ AI幻觉：当AI「一本正经地胡说八道」，我们该怎么办？第03期 · AI 幻觉与可信度：如何与"会撒谎"的 AI

第03期 · AI 幻觉与可信度：如何与"会撒谎"的 AI 安全协作

系列：每日 AI 知识点
期数：第 03 期
主题：AI 幻觉与可信度
难度：⭐⭐（入门）
一句话：AI 会一本正经地"编造"答案。了解幻觉的成因和类型，学会判断什么时候该信任 AI，是安全使用 AI 的必修课。

一、什么是 AI 幻觉？

2023年，美国律师 Steven Schwartz 在一起航空公司诉讼案中，使用 ChatGPT 辅助撰写法庭文件。AI 给他提供了 6 条"判例"，每条都有完整的案号、法院名称、判决日期、详细的判决内容——看起来非常专业可信。

结果，对方律师发现这 6 条判例一条都不存在，全是 AI 凭空捏造的。

Schwartz 被法官传唤，被迫公开道歉，面临吊销执照的处罚。这件事引发了全球法律界对 AI 幻觉的广泛关注。

这就是 AI 幻觉（Hallucination）：AI 以极其自信的语气，生成完全错误甚至凭空捏造的信息。

🧠 为什么 AI 会幻觉？
LLM 的本质是"预测下一个最可能出现的词"。它的目标是生成听起来合理的文字序列，而不是保证信息正确。当它不知道答案时，它不会说"我不知道"，而是生成一个"在统计上最像正确答案"的内容。

二、幻觉的 5 种类型

AI幻觉的5种类型详解

类型一：事实捏造（最危险）

特征：编造不存在的事实、人物、论文、法律条文

案例集锦：

上文提到的美国律师案（虚构判例）
某记者让 AI 生成参考文献，AI 给出了 20 篇"论文"，其中 12 篇不存在
某公司让 AI 写竞品分析，AI 编造了竞品公司的"内部数据"

识别方法：对任何具体引用（论文、案例、数据来源）都要独立核实

类型二：细节错误

特征：大方向正确，但具体数字、时间、名字出错

案例：

用户：GPT-3 是什么时候发布的？
AI：GPT-3 于 2020 年 6 月发布，拥有 1750 亿参数。
（这部分正确）

用户：GPT-4 呢？
AI：GPT-4 于 2023 年 3 月 14 日发布，拥有约 1 万亿参数。
（发布日期正确，但参数量是推测值，实际未公开）

识别方法：对关键数字（版本号、日期、参数量）要查官方文档

类型三：过度自信

特征：不确定的事情也以肯定语气表述

案例：

用户：这个崩溃日志是什么原因？
AI：这个崩溃是由于内存泄漏导致的，具体是在 
    UserSession.java 的第 127 行，因为没有正确
    释放 BitmapFactory 的资源。
（听起来很具体，但实际上 AI 是在"猜"，
  可能完全是另一个原因）

识别方法：让 AI 说明置信度，"你有多确定这个判断？"

类型四：知识截止

特征：对训练截止日之后的信息一无所知，但可能给出过时的错误信息

案例：

用户：Anthropic 最新的 Claude 模型是哪个版本？
AI：Anthropic 最新的模型是 Claude 2.1，发布于 2023 年 11 月。
（如果 AI 的训练截止日是 2024 年初，它不知道 Claude 3、
  Claude 3.5 等后续版本）

识别方法：对"最新"、"当前"相关的信息，结合 AI 的训练截止日期判断

类型五：逻辑矛盾

特征：同一段回答中前后自相矛盾

案例：

AI：我推荐使用方案A，它的性能更好，扩展性强，
    维护成本低。
    
    ...（中间省略几段）...
    
    综上所述，方案B是更好的选择，因为它的维护
    成本更低，性能也更稳定。

识别方法：对长回答，检查最终结论与中间论述是否一致

三、AI 可信度判断矩阵

不是所有 AI 的回答都不可信——关键是要知道哪些场景可信，哪些场景必须核实。

AI可信度矩阵：什么时候该信，什么时候要核实

✅ 高可信度场景：可以直接使用

场景	原因	示例
基础概念解释	训练数据覆盖充分，有标准答案	"什么是 TCP/IP？"
代码生成	可以直接运行验证	"写一个快速排序"
格式转换	有明确的正确标准	"把这个 JSON 转成 CSV"
数学推导	步骤可逐步验证	"证明这个公式"
语法纠错	有客观标准	"检查这段英文的语法"

⚠️ 中可信度场景：建议验证

场景	注意事项
逻辑分析推理	验证关键推理步骤
方案设计建议	结合实际情况判断可行性
技术选型对比	参考官方文档和社区评价
代码架构建议	考虑团队实际技术栈

❌ 低可信度场景：必须人工核实

场景	风险	应对方法
具体数字和统计	可能是编造的	查原始数据来源
论文/新闻引用	可能是虚构的	在数据库独立搜索
最新信息	训练截止日后的事	用搜索工具获取
特定人物信息	可能张冠李戴	查官方资料
小众专业领域	训练数据少，猜测成分多	咨询领域专家

四、5 招减少 AI 幻觉的实用技巧

5招减少AI幻觉的实用技巧

技巧一：明确允许"不知道"

在 Prompt 中明确告诉 AI 可以表达不确定性：

"如果你不确定某个信息，请直接说'我不确定'，
不要猜测或编造。宁可说不知道，也不要给出可能
错误的信息。"

实测效果：加上这句话后，AI 的虚构信息比例下降约 40-60%。

技巧二：要求说明推理依据

用户：这个 Bug 的根因是什么？
AI：根据日志分析，是内存泄漏...

追问：你的判断依据是什么？日志中的哪些具体信息
     支持了这个结论？

让 AI 说明依据，可以快速发现它是在推理还是在猜测。

技巧三：分步验证，而非直接要结论

❌ 直接问结论：
"这个架构方案有什么问题？"

✅ 分步验证：
第一步：让 AI 描述它理解的方案内容（验证它理解正确）
第二步：让 AI 列出潜在风险（验证每个风险是否合理）
第三步：让 AI 给出优先级排序（验证排序逻辑）

技巧四：用已知信息交叉验证

如果 AI 的回答中包含你能快速验证的事实，先验证这个，再决定是否信任其他部分。

AI 说："根据 RFC 2616 规范，HTTP 状态码 418 表示..."

你验证：RFC 2616 确实存在，418 确实是"I'm a Teapot"
→ AI 对技术规范的引用是可靠的，可以继续信任其他部分

反之，如果这个验证失败，整个回答都要重新核实。

技巧五：提供资料，而非让 AI 凭空生成

这是最根本的解决方案：

❌ 容易幻觉：
"帮我写一份关于刷掌支付安全的技术报告"
（AI 可能编造数据、虚构案例）

✅ 减少幻觉：
"基于以下资料，帮我整理成技术报告：
[粘贴真实的安全分析文档、测试报告、官方规范]"
（AI 基于真实资料组织，而不是凭空创作）

五、真实工作场景中的幻觉风险

场景一：Bug 分析

高风险操作：

"这个崩溃是什么原因？[粘贴几行日志]"

AI 可能会给出听起来合理但完全错误的根因分析。

安全操作：

"请分析以下完整的崩溃日志，列出可能的根因（至少3个），
并说明每个根因的判断依据。如果信息不足以确定根因，
请明确说明还需要哪些额外信息。
[粘贴完整日志]"

场景二：测试用例生成

高风险：AI 可能生成涉及不存在的接口参数、不存在的 API 的测试用例

安全操作：

提供真实的接口文档给 AI
生成后，对照文档逐条核查接口名称、参数是否真实存在
特别检查边界值——AI 经常会编造"合理"但错误的边界数值

场景三：技术调研

高风险：

"给我列出5个支持刷掌识别的开源库，包括 GitHub 地址和最新版本号"

AI 可能给出不存在的库或错误的 GitHub 地址。

安全操作：

让 AI 给出方向和关键词，而不是具体链接
自己去 GitHub 搜索验证
版本号必须在官方仓库 releases 页面核实

场景四：文档编写

高风险：

"帮我写一份关于刷掌支付合规性的分析报告，包括相关法规引用"

AI 可能编造法规条文、错误引用法律条款。

安全操作：

先自己整理真实的法规条文
提供给 AI 进行分析和整理
最终输出的法规引用必须逐条核实

六、不同 AI 模型的幻觉程度对比

不同模型的幻觉程度差异显著，以下是业界对主流模型的评估：

模型	事实准确性	幻觉控制	说明
Claude 3.5 Sonnet	⭐⭐⭐⭐⭐	最好	倾向于说"不确定"而非猜测
GPT-4o	⭐⭐⭐⭐	很好	综合能力强，幻觉控制较好
Gemini 1.5 Pro	⭐⭐⭐⭐	较好	联网版本幻觉更少
DeepSeek-V3	⭐⭐⭐	中等	中文场景表现好，但偶有幻觉
早期 GPT-3.5	⭐⭐	较差	幻觉较多，已被新版本取代

注：幻觉程度会随任务类型变化，上表仅为一般性参考。

任务类型对幻觉的影响（从高到低）：

幻觉风险：高 ←——————————————————→ 低

[开放性知识生成] [具体数字引用] [逻辑推理] [代码生成] [格式转换]
       ↑                                              ↑
   风险最高                                       风险最低

七、一句话总结

AI 幻觉 = 模型在不知道答案时，生成"听起来合理"的内容。识别高低风险场景、明确告知 AI 可以说"不知道"、对关键信息交叉验证、提供资料而非让 AI 凭空创作，是与 AI 安全协作的四板斧。

⚠️ AI幻觉：当AI「一本正经地胡说八道」，我们该怎么办？

第03期 · AI 幻觉与可信度：如何与"会撒谎"的 AI 安全协作

一、什么是 AI 幻觉？

二、幻觉的 5 种类型

类型一：事实捏造（最危险）

类型二：细节错误

类型三：过度自信

类型四：知识截止

类型五：逻辑矛盾

三、AI 可信度判断矩阵

✅ 高可信度场景：可以直接使用

⚠️ 中可信度场景：建议验证

❌ 低可信度场景：必须人工核实

四、5 招减少 AI 幻觉的实用技巧

技巧一：明确允许"不知道"

技巧二：要求说明推理依据

技巧三：分步验证，而非直接要结论

技巧四：用已知信息交叉验证

技巧五：提供资料，而非让 AI 凭空生成

五、真实工作场景中的幻觉风险

场景一：Bug 分析

场景二：测试用例生成

场景三：技术调研

场景四：文档编写

六、不同 AI 模型的幻觉程度对比

七、一句话总结

延伸阅读