2025年1月10日,Deepseek.AI发布了他们的推理模型 Deepseek-R1。这款模型一经发布便引起了广泛关注,因其在推理方面表现出色,类似于之前OpenAI的O1模型。然而,最新的研究表明,尽管Deepseek-R1在性能上表现优异,但其 幻觉率 却显著高于前代产品 Deepseek-V3。
Deepseek-R1 的背景与发布
据Deepseek介绍,Deepseek-R1的创建总投资仅为550万美元,虽然这一数字在网上引发了不少争议,但更重要的是,该模型的运行成本比OpenAI的O1低约25倍,并且以MIT许可证开源。这些特点使得Deepseek-R1成为了业界关注的焦点。
幻觉率的测量与比较
为了评估Deepseek-R1的幻觉率,我们将它与其非推理型前辈Deepseek-V3进行了对比测试。测试方法包括:
- Vectara的HHEM(专用判别模型)
- 谷歌FACTS工作策略(使用三门LLM:GPT-4o、Claude-3.5-Sonnet和Gemini-1.5-Pro)
结果显示,Deepseek-R1的幻觉率为 14.3%,远高于Deepseek-V3的 3.9%。
深入分析幻觉率
从表 2 可以看出:
- 平均值和中位数表明 R1 确实比 V3 产生更多的幻觉。
- 然而,平均值和中位数也表明,对于大多数样本来说,R1 和 V3 都是一致的。
- 特别地,R1和V3的中值几乎相同。
- 然而,R1 上的 HHEM 分数与 V3 上的分数差异更大——标准差高出 4 倍,这表明R1产生的极端幻觉样本更多。
推理增强模型的幻觉问题****
我们进一步研究了推理增强型LLM是否普遍会产生更多幻觉。通过对比GPT-o1(推理增强型)和GPT-4o(通用型),我们发现:
- HHEM 2.1 显示GPT-o1的幻觉率略高于GPT-4o。
- Google FACTS 则显示相反的趋势。
尽管HHEM 2.1显示GPT-o1的幻觉率略高于GPT-4o,但FACTS的结果则显示出相反的趋势。这表明不同工具对幻觉的检测可能存在差异。
GPT系列的详细数据分析
为了更深入地了解推理增强模型的表现,进一步分析了GPT-o1和GPT-4o的HHEM分数统计:
根据表4,GPT-o1的HHEM分数的平均值和中位数略低于GPT-4o,标准差也稍高,这表明GPT-o1相比GPT-4o可能产生更多的幻觉,但差距并不如DeepSeek-R1与DeepSeek-V3之间的差异那么大。
HHEM vs. LLM-as-a-judge哪个更好
研究表明,HHEM可能比LLM作为判断标准(如FACTS)更善于捕捉幻觉。在某些情况下,当HHEM检测到DeepSeek-R1的幻觉率大幅上升时,Google的FACTS模型能够捕捉到相同的趋势。然而,在GPT系列的推理模型之间,HHEM看到的幻觉率变化较小,而FACTS模型未能完全捕捉到这一趋势。
结论
推理增强模型与幻觉之间的关系表明,尽管这些模型在推理能力上表现出色,但它们可能会牺牲一定的准确性。DeepSeek或许可以通过进一步的训练优化来减少幻觉率,特别是在处理复杂推理任务时,尽量避免生成不准确的内容。
选择推理模型时,需要密切关注幻觉率,尤其是在需要高准确性的领域。未来的研究将继续探索如何在推理能力和准确性之间找到更好的平衡点。