🎯研究背景:
在日常生活中,我们经常需要从相关性推断因果关系,但这对大语言模型来说是个难题。它们缺乏严谨的逻辑分析和丰富的背景知识,难以准确推断因果关系,这限制了它们在科学研究和决策支持等领域的应用。
🚀PC-SUBQ提示策略:
理论基础:基于PC算法原理和认知任务分解理论。PC算法通过条件独立性检验从无向图开始逐步构建因果图,通过V型结构识别因果方向;认知任务分解理论则是将复杂任务进行系统化分解,构建渐进式推理链,并基于中间结果进行验证。
详细实现步骤:该策略将原始任务分解为多个子任务,每个子任务对应PC算法的一个步骤,并通过将先前子任务的答案用作下一个子任务的提示的方式来引导LLMs遵循这些步骤。同时,还提供了少量的连贯思路示例,为每个子任务提供如何独立解决的演示。
💡实验结果:
性能对比:在corr2cause基准测试中,PC-SUBQ相比其他提示策略展现出明显优势,跨五种LLMs持续观察到性能提升。例如,对于大型语言模型Palm2,使用PC-SUBQ时,F1分数从0.30上升到0.64,相应的准确度为88.7%。
鲁棒性测试:该策略在不同表达方式和自然语言场景中都表现出色,具有良好的鲁棒性和泛化能力。如变量重命名鲁棒性测试中,即使将变量名改变,模型的性能也没有显著下降;在表达方式变化测试中,当使用不同的语言表达相同的因果问题时,性能下降幅度也较小。
PC-SUBQ能够提升LLMs在从相关声明中推断因果关系的任务上的性能,并且该方法对查询变异具备强大的鲁棒性,其产生的推理步骤具有较高的可解释性,允许追踪错误答案的责任步骤,也适用于更自然的故事场景。
论文地址
展开
评论
1