作者 | iven
人类智能是建立在认知协同(cognitive synergy)上,不同认知过程或个体之间的合作和信息整合会产生比独立认知更优越的结果。反观目前的大语言模型(LLMs),他们虽然在解决常见任务方面表现出出色的通才属性(jake-of-all-trades),在大量更具挑战性的知识/推理密集型的任务中仍面临挑战。
微软和UIUC联合提出了一种名为 Solo Performance Prompting (SPP) 的方法,激发大语言模型认知协同的能力,召唤出多个人格并进行多轮自我协作。 SPP 显著降低了知识密集型任务中事实性错误和幻觉(Hallucination)的出现频率同时保持了超越Chain-of-Thought的推理能力。
论文题目:
Unleashing Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration
示例演示
作者在文中给出了一个样例,让GPT4为新版塞尔达的NPC写段背景介绍,同时要求提到(1)哈利波特中守护咒语(2)《权力的游戏》中第九集被斩首的角色(3)周杰伦第二张专辑中最后一首歌名。SPP使大模型同时召唤出游戏设计师,哈利波特粉丝,权游粉丝,周杰伦粉丝多重人格一起来协作,完成结果中完全符合了prompt中的要求。这是原来GPT4不可能完成的任务。
SPP 使LLM按照以下步骤解决任意问题:
(1)识别人格:识别出解决特定任务所必需的多个具有特殊角色的参与者。
(2)开场白:每个人格发表开场白,根据人格的专业知识提供关于解决任务的建议或信息。
(3)多人格多轮协作:由基础人格,即AI助手(AI Assistant),提出初始解决方案,而后开展多轮对话,听取其他人格的反馈,并不断完善解决方案。
实验和分析
作者在三个具有挑战性的任务上评估了SPP的有效性,包括Trivia Creative Writing、Codenames Collaborative 和 Logic Grid Puzzle,涵盖了既需要知识又需要推理的领域。Trivia Creative Writing要求模型围绕一个主题写一篇连贯的故事并融入N个Trivia问答题的答案,需要强大的内部知识获取以及整合的能力。Codenames Collaborative是一个涉及两个角色的合作的猜词游戏,考察了模型的知识丰富度,联想能力以及换位思考的能力。Logic Grid Puzzle 则是一个经典推理游戏,需要模型强大的多步推理能力。(具体任务描述详见论文)
在三个任务的实验结果展示了SPP在无需使用任何外部资源的前提下显著提升了大语言模型(GPT-4)的知识获取和推理能力。
从在三个不同任务上LLM自主识别的人格云图可以发现LLM召唤出的人格与任务强相关。在知识密集型任务(Trivia Creative Writing)上,所识别的人格更多样且具体;而在推理密集型任务上(Logic Grid Puzzle),所识别的人格更为同质化。
作者还展示了LLM动态去识别细粒度的人格(SPP)比有用户事先设置固定的通用的人格 (SPP-Fixed-Persona)能更有效提高问题解决能力。
图中的例子里展现:细粒度的人设例如“Film Expert”和“Sports Enthusiast”可以给出正确的信息,而固定的通用人设“Expert”则会失败。
总结
在不借助任何额外外部资源的情况下,Solo Performance Prompting (SPP)通过释放GPT4中的认知协同能力,在大幅减少Hallucination的同时提升了推理能力,完成了原生GPT4所无法完成的任务。SPP有望成为新的大模型inference的范式,同时为基于LLM的多智能体社群研究提供了诸多启发。