大语言模型集成策略对比研究本研究比较了两种大语言模型集成方法：模型多样性与问题解释多样性。通过在三个数据集上的实验证明，

多样LLM还是多样问题解释？这是集成方法的关键问题

有效利用多样性已被证明能够提升包括大语言模型（LLM）在内的各种机器学习模型的性能。然而，如何最有效地使用多样性仍然是一个挑战。

本研究比较了两种用于回答二元问题的LLM多样性方法：

在这两种情况下，都采用多数投票作为集成共识启发式方法来确定最终答案。

在boolq、strategyqa和pubmedqa数据集上的实验表明，与模型多样性相比，问题解释多样性始终能够带来更好的集成准确率。此外，对GPT和LLaMa的分析显示，模型多样性通常产生的结果介于最佳和最差集成成员之间，而没有明显的改进。

主题分类：

MSC分类：68T50
ACM分类：I.2.7; I.2.0