Agent Memory 个性偏好描述

249 阅读3分钟

当前 LLM 对人类偏好描述的核心问题:

  • 当前大语言模型(LLMs)的对齐(Alignment)方法(如RLHF, DPO)主要采用“一刀切”(one-size-fits-all)的策略,假设所有用户共享相同的价值观(如帮助性、诚实性、无害性)。

  • 这种方法忽视了人类在文化背景、教育水平、道德观念、政治立场等方面的巨大多样性,导致:

    • 少数群体被系统性地排除或代表性不足。
    • 用户满意度和参与度因缺乏个性化而降低。

解决方案: 本文提出一个全面的框架,用于LLMs的可扩展个性化对齐。

90 个描述指标

一、心理学基础模型维度(38个)

来源:大五人格理论、马斯洛需求层次、默里需求体系。

  1. 大五人格特质

    • 神经质(Neuroticism)倾向程度
    • 外向性(Extraversion)倾向程度
    • 开放性(Openness)倾向程度
    • 宜人性(Agreeableness)倾向程度
    • 尽责性(Conscientiousness)倾向程度
  2. 马斯洛需求层次

    • 生理需求(如睡眠偏好、安全环境需求)
    • 安全需求(对人身/环境安全的重视程度)
    • 归属需求(对亲密关系的渴望强度)
    • 尊重需求(对成就/他人认可的重视)
    • 认知需求(特定知识领域偏好)
    • 审美需求(艺术/音乐等创造性表达偏好)
  3. 默里需求体系

    • 秩序需求(整洁性、组织性)
    • 保留需求(抗拒失去或改变)
    • 尊严需求(维护声誉与尊严)
    • 避败需求(避免失败与尴尬)
    • 对抗需求(克服障碍的补偿心理)
    • 独处需求(隐私与隔离倾向)
    • 支配需求(控制环境或他人)
    • 顺从需求(服从权威或规则)
    • 自主需求(追求独立与自我依靠)
    • 逆反需求(追求独特性或反对规范)
    • 谦卑需求(接受责备或惩罚)
    • 攻击需求(通过强力手段控制他人)
    • 亲和需求(建立忠诚关系)
    • 拒绝需求(自我隔离倾向)
    • 养育需求(关怀他人)
    • 抚慰需求(渴望被关爱或安慰)
    • 游戏需求(享受娱乐与放松)

二、AI对齐与价值观维度(7个)

来源:RLHF、DPO等对齐技术中的核心原则。

  1. 对陈述无害性的关注程度
  2. 对指令遵循性的关注程度
  3. 对诚实性的关注程度
  4. 对真实性的关注程度
  5. 对帮助性的关注程度
  6. 对逻辑连贯性的关注程度
  7. 对复杂性的接受程度

三、内容平台兴趣标签维度(43个)

来源:Reddit、知乎等平台的用户兴趣图谱。

兴趣领域具体标签示例
知识类科学、心理学、法律、教育、社会科学
娱乐类电影、动漫、游戏、幽默、音乐、阅读
生活类育儿、健康、旅行、美食、家居装饰、时尚
技术与职业数字技术、职场、金融、校园生活
艺术与创作绘画、舞蹈、摄影、手工艺、文化
运动与户外体育、健身、露营、户外活动
社群与情感情感、名人、婚礼、宠物、故事

四、人口统计维度(2个)

  1. 年龄组(如“青年”“老年”)
  2. 性别(作为描述性特征)

参考内容

  1. arxiv.org/pdf/2503.15…
  2. baike.baidu.com/item/%E5%A4…