大模型也需要PUA?如何通过情感刺激提升模型输出效果

759 阅读3分钟

image.png

由于最近需要进行知识分享,我借此机会整理了关于大型语言模型(LLMs)理解并受情感刺激影响的一些基本知识。由于个人能力有限,本文实际上是对这一主题的不完全总结。如果有任何遗漏的知识点,请随时提出,以便我们一起进步。

情感智能对LLMs的影响

情感智能是指个体理解、使用和管理情感信息的能力。近年来,研究人员开始探索情感智能对LLMs性能的影响。一些初步研究表明,通过向LLMs的输入中添加情感刺激,可以显著提高它们在某些任务上的表现

EmotionPrompt的设计与应用

EmotionPrompt是一种结合了原始输入提示和情感刺激的方法。例如,在进行文本摘要任务时,研究者可能会在提示中加入“这对我的职业发展非常重要”,以此来增强模型对文本重要性的理解。通过这种方式,LLMs能够更好地捕捉到文本中的关键信息,并生成更准确、更具相关性的输出。

举个例子,论文中给出了一些情感刺激(典型pua)的输入。:

image.png

通过在写好的prompt后面直接添加这些语句就可以使用。

深入分析EmotionPrompt的工作原理

在探讨EmotionPrompt如何提升LLMs性能的过程中,文中通过分析输入注意力分布来理解情感刺激对最终输出的贡献。研究发现,情感刺激能够丰富原始提示的表达,并在模型的输出中占据更重要的地位。特别是一些积极的词汇,如“信心”、“确定”、“成功”和“成就”,在提升LLMs的性能方面起到了关键作用。

实验设计

对包括Flan-T5-Large、Vicuna、Llama 2、BLOOM、ChatGPT和GPT-4在内的多种LLMs进行了45个任务的自动实验。任务涵盖了确定性和生成性应用,代表了全面的评估场景。我们的自动实验表明,LLMs可以把握情感智能,并且通过情感提示(我们称之为“EmotionPrompt”,即将原始提示与情感刺激结合起来)可以提升性能,例如,在指令感应任务中相对性能提高了8.00%,在BIG-Bench中提高了115%。如下图所示:

image.png

除了可以使用现有指标自动评估的确定性任务外,照论106个人对于模型结果进行人肉评估,以评估使用原始提示和情感提示生成任务的质量。我们的人类研究结果表明,EmotionPrompt显著提高了生成任务的性能(在性能、真实性和责任度量标准方面平均提高了10.9%)。

引用

标题:Large Language Models Understand and Can Be Enhanced by Emotional Stimuli

作者信息:Cheng Li, Jindong Wang, Yixuan Zhang, Kaijie Zhu, Wenxin Hou, Jianxun Lian, Fang Luo, Qiang Yang, Xing Xie

作者所在机构:Institute of Software, CAS; Microsoft; William & Mary; Department of Psychology, Beijing Normal University; HKUST