当前 LLM 对人类偏好描述的核心问题:
-
当前大语言模型(LLMs)的对齐(Alignment)方法(如RLHF, DPO)主要采用“一刀切”(one-size-fits-all)的策略,假设所有用户共享相同的价值观(如帮助性、诚实性、无害性)。
-
这种方法忽视了人类在文化背景、教育水平、道德观念、政治立场等方面的巨大多样性,导致:
- 少数群体被系统性地排除或代表性不足。
- 用户满意度和参与度因缺乏个性化而降低。
解决方案: 本文提出一个全面的框架,用于LLMs的可扩展个性化对齐。
90 个描述指标
一、心理学基础模型维度(38个)
来源:大五人格理论、马斯洛需求层次、默里需求体系。
-
大五人格特质
- 神经质(Neuroticism)倾向程度
- 外向性(Extraversion)倾向程度
- 开放性(Openness)倾向程度
- 宜人性(Agreeableness)倾向程度
- 尽责性(Conscientiousness)倾向程度
-
马斯洛需求层次
- 生理需求(如睡眠偏好、安全环境需求)
- 安全需求(对人身/环境安全的重视程度)
- 归属需求(对亲密关系的渴望强度)
- 尊重需求(对成就/他人认可的重视)
- 认知需求(特定知识领域偏好)
- 审美需求(艺术/音乐等创造性表达偏好)
-
默里需求体系
- 秩序需求(整洁性、组织性)
- 保留需求(抗拒失去或改变)
- 尊严需求(维护声誉与尊严)
- 避败需求(避免失败与尴尬)
- 对抗需求(克服障碍的补偿心理)
- 独处需求(隐私与隔离倾向)
- 支配需求(控制环境或他人)
- 顺从需求(服从权威或规则)
- 自主需求(追求独立与自我依靠)
- 逆反需求(追求独特性或反对规范)
- 谦卑需求(接受责备或惩罚)
- 攻击需求(通过强力手段控制他人)
- 亲和需求(建立忠诚关系)
- 拒绝需求(自我隔离倾向)
- 养育需求(关怀他人)
- 抚慰需求(渴望被关爱或安慰)
- 游戏需求(享受娱乐与放松)
二、AI对齐与价值观维度(7个)
来源:RLHF、DPO等对齐技术中的核心原则。
- 对陈述无害性的关注程度
- 对指令遵循性的关注程度
- 对诚实性的关注程度
- 对真实性的关注程度
- 对帮助性的关注程度
- 对逻辑连贯性的关注程度
- 对复杂性的接受程度
三、内容平台兴趣标签维度(43个)
来源:Reddit、知乎等平台的用户兴趣图谱。
| 兴趣领域 | 具体标签示例 |
|---|---|
| 知识类 | 科学、心理学、法律、教育、社会科学 |
| 娱乐类 | 电影、动漫、游戏、幽默、音乐、阅读 |
| 生活类 | 育儿、健康、旅行、美食、家居装饰、时尚 |
| 技术与职业 | 数字技术、职场、金融、校园生活 |
| 艺术与创作 | 绘画、舞蹈、摄影、手工艺、文化 |
| 运动与户外 | 体育、健身、露营、户外活动 |
| 社群与情感 | 情感、名人、婚礼、宠物、故事 |
四、人口统计维度(2个)
- 年龄组(如“青年”“老年”)
- 性别(作为描述性特征)