《AgentSociety》 2026.3.8

43 阅读20分钟

《AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding of Human Behaviors and Society》

📖 摘要

  这篇论文提出了一个面向社会科学的大规模社会模拟器 AgentSociety,通过把由大语言模型驱动的社会生成智能体(LLM-driven social generative agents)、逼真的社会环境(societal environment)和可扩展的仿真引擎(simulation engine)整合起来,在超过 1 万名智能体、约 500 万次交互的规模上复现了极化、煽动性信息传播、普惠基本收入和飓风冲击等社会现象,展示了生成式社会科学(generative social science)作为一种新研究范式的潜力。


一、论文基本信息

  • 论文标题:AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding of Human Behaviors and Society
  • 作者:Jinghua Piao、Yuwei Yan、Jun Zhang、Nian Li、Junbo Yan、Xiaochong Lan、Zhihong Lu、Zhiheng Zheng、Jing Yi Wang、Di Zhou、Chen Gao、Fengli Xu、Fang Zhang、Ke Rong、Jun Su、Yong Li
  • 作者机构:清华大学电子工程系、北京信息科学与技术国家研究中心(BNRist)、清华大学社会科学学院经济学研究所、清华大学公共管理学院
  • 出处:arXiv:2502.08691
  • DOI/链接:arXiv:2502.08691

二、研究背景与动机

问题背景

  长期以来,计算社会科学(computational social science)主要沿着两条路径推进:一条是解释,即寻找社会现象背后的机制;另一条是预测,即借助数据估计未来趋势。但如果只停留在“解释”与“预测”,我们对社会系统的理解仍然不够彻底。正如生成式社会科学(generative social science)所强调的那样,真正的理解,不只是描述世界,更是能够构造一个会运转的世界。   传统社会实验往往成本高、周期长、组织复杂,而且经常面临伦理与现实约束;而经典的基于智能体建模(agent-based modeling)虽然能做自下而上的社会模拟,却常常受限于智能体过于简化,缺乏真实的人类心理、语言交流能力与环境反馈机制。于是,一个更具“人味”的社会模拟器,成了这项研究真正想回答的问题。

现有方法的不足

现有社会模拟平台大多有三类短板:

  1. 智能体不够像人:许多方法仍依赖规则、方程或浅层行为设定,难以生成真实、细腻、语言驱动的人类行为。
  2. 环境不够像社会:有的平台只提供文本环境(text-based environment)或游戏环境(game environment),难以承载城市、社交、经济三类空间的复杂反馈。
  3. 规模不够大、研究工具不够全:很多系统只能支持小规模实验,且并不真正面向社会科学研究流程,缺少访谈(interview)、问卷(survey)、干预(intervention)等工具。

本文动机

  这篇论文的核心动机很明确:做一个不仅能“演人”,还能“演社会”的系统。作者希望把由大语言模型驱动的智能体,从“会说话的角色”推进到“有心理、有需求、有关系、有行动、有环境约束的社会个体”;再进一步,把这些个体放进一个具有城市空间、社交空间和经济空间的真实社会环境中,最后通过高并发的大规模仿真引擎,让群体行为和社会现象真正涌现出来。 在这里插入图片描述 图1 论文先给出了一个用于评估 LLM 驱动社会模拟器的总体框架:从智能体心智(minds)、心智—行为耦合(mind-behavior coupling)、行为(behaviors)、社会环境(societal environment),一直到仿真规模与社会科学工具箱,完整勾勒出作者认为“像社会”的系统应具备哪些关键维度。 在这里插入图片描述 图2 AgentSociety 的总览图。整篇论文实际上就围绕这张图展开:左边是三大系统组件,右边是四类典型应用,结构非常清楚,也很适合作为阅读全篇时的导航图。


三、核心方法与创新点

核心思想

  AgentSociety 的核心思想,可以概括为一句话:

  用“有心智的个体 + 真实约束的环境 + 可扩展的交互系统”,去生成可研究、可干预、可比较的人工社会。

这件事听上去简单,真正难的是三层耦合:

  • 个体内部,如何把情绪(emotion)、需求(needs)、认知(cognition)组织成一个能驱动行为的“心智系统”;
  • 个体外部,如何让移动(mobility)、社交(social interaction)、就业与消费(employment & consumption)不只是孤立动作,而是真正嵌在社会环境中的连续行为;
  • 系统层面,如何让上万智能体在异步、并行、高吞吐的条件下持续互动,并且还能支撑问卷、访谈、干预等社会科学研究过程。

创新点拆解

1. 从“角色扮演”走向“社会存在”

  很多 LLM 智能体工作停留在角色扮演(role-play)层面:给定人设,让模型像某个人说话。但本文更进一步,把智能体拆成:

  • Profile & Status:基本画像与动态状态;
  • Mental Process:情绪、需求、认知;
  • Social Behaviors:移动、社交、就业与消费;
  • Memory Workflow:基于时间流的记忆机制。

  这样设计的意义在于:智能体不再只是“回答问题”,而是会在连续时间中生活、行动、积累经验并更新自身状态。 在这里插入图片描述 图3 论文对智能体结构的总设计图。左边是画像与状态,中间是情绪—需求—认知等心智过程,右边是社会行为,底部则是贯穿始终的工作流。它很好地体现了作者不是把“行为生成”当成提示词技巧,而是当成一个社会认知系统来搭。

2. 显式建模“情绪—需求—认知”

  在本文里,心智并不是一个模糊概念,而是被拆成三层:

  • 情绪(emotion):对外界刺激的快速反应;
  • 需求(needs):更稳定、更持久的行为动机;
  • 认知(cognition):对环境、议题与他人的理解、判断与态度。

  作者借鉴了马斯洛需求层次(Maslow’s Hierarchy of Needs)、计划行为理论(Theory of Planned Behavior)等理论,把“为什么做某件事”从 LLM 的黑箱里往外拉了一步。这种显式建模的价值在于,它让行为不是“看起来像”,而是“能解释为什么像”。在这里插入图片描述 图4 这张图非常关键。它说明智能体内部不是一条单向链路,而是“心智—记忆—行为”相互反馈的循环系统。态度(attitude)、思维(thought)、需求(needs)与行为(behavior)之间不是孤立关系,而是一个持续更新的心理—行动闭环。

3. 把关键社会行为拆成专门模块

  作者并没有把所有行为都交给 LLM 一次性生成,而是把最关键的三类社会行为单独建模:

  • 移动行为(mobility)
  • 社会行为(social behaviors)
  • 经济行为(economic behaviors)

  这一步非常重要,因为现实中的社会行为从来不是一句自然语言输出,而是带有空间、关系和资源约束的复合过程。

(1)移动行为:需求如何变成“去哪里”

  论文把移动行为分成四步:

  1. 意图提取(intention extraction)
  2. 地点类型选择(place type selection)
  3. 半径决策(radius decision)
  4. 地点选择(place selection)

  其中地点选择采用引力模型(Gravity Model):

Pij=Sj/DijβSk/DikβP_{ij} = \frac{S_j / D_{ij}^{\beta}}{\sum S_k / D_{ik}^{\beta}}

  这里,SjS_j 表示地点吸引力,DijD_{ij} 表示距离,β\beta 表示距离衰减系数。这个设计很聪明:它一方面减少了 LLM 的推理负担,另一方面又把人的空间偏好——比如就近原则、集聚效应——编码进了系统。在这里插入图片描述 图5 移动行为并不是“从 A 到 B”的简单跳转,而是由需求与计划触发,再结合地图、天气、温度等环境变量,逐步落实为实际地点选择。对想做城市行为模拟的人来说,这张图很有参考价值。

(2)社会行为:关系、交流与影响传播

  社会行为模块建立在三类关系之上:

  • 家庭(family)
  • 朋友(friends)
  • 同事(colleagues)

  每条关系有强度,智能体会根据关系类型与强弱来决定联系谁、怎么说、是否安排线下见面。消息内容还会受到当前需求、情绪、认知和历史互动的共同影响。换句话说,社交不是随机发消息,而是有对象、有语气、有上下文的。 在这里插入图片描述 图6 这张图把社交行为放在了认知、经济、移动和社交网络之间,说明社交本质上是一个“连接器”:它既传播信息,也反馈情绪,还可能触发工作、消费与移动。

(3)经济行为:把就业、消费与宏观系统接起来

  论文中的经济行为重点模拟了两类倾向:

  • 工作倾向(work propensity)
  • 消费倾向(consumption propensity)

  智能体会根据工资、价格、税收、历史消费等因素调整月收入与月消费预算;这些微观行为再被嵌入政府、银行、企业、统计机构组成的宏观经济模拟框架中。虽然它还没有完整建模劳动市场和商品市场,但已经能支撑政策实验,比如本文后面做的普惠基本收入(Universal Basic Income, UBI)实验。在这里插入图片描述

图7 经济行为模块把家庭、商店、企业、银行、政府和市场动态串在了一起。它并不追求经济学意义上的极致复杂,而是强调“够真实、能互动、可做干预实验”。

4. 用流式记忆把心智和行为真正连起来

  记忆(memory)是整套系统的“中轴”。作者把记忆分成:

  • Profile:相对静态的个人画像
  • Status:动态状态
  • Stream Memory:按时间排列的事件流与感知流

  行为发生后,事件会被写入 Event Flow,智能体对事件的感知与评价则写入 Perception Flow;接着,情绪、认知、需求被更新,再影响下一轮决策。这种设计让智能体拥有了一种“时间中的连续性”,而不只是每轮调用都像从头开始。在这里插入图片描述 图8 这是全文最能体现“人味”的图。需求生成计划,计划落实为移动、社交、经济等行为;行为又进入记忆,并反过来更新情绪、态度与思考。整个过程非常接近我们理解的“生活经验塑造下一步行为”的机制。


四、实验与结果分析

数据集

  这篇论文并不是只在一个玩具环境里跑若干 demo,而是为不同模块接入了真实世界的数据来源与规则系统:

  • 城市空间:使用 OpenStreetMap 中的路网、AOI(Area of Interest)和 POI(Point of Interest)信息构建城市空间;
  • 社交空间:建立社交网络,并引入平台监管者(supervisor)模拟内容过滤、封禁与连接切断;
  • 经济空间:构建企业、银行、政府、统计机构等宏观经济实体;
  • 飓风实验:使用 SafeGraph 数据与 Census Block Group(CBG)数据模拟飓风期间的人类移动行为。

基线模型

  作者在系统能力比较中,将 AgentSociety 与多类已有工作进行了对照,包括:

  • D2A
  • EconAgent
  • OASIS
  • Generative Agents
  • GenSim
  • Project Sid
  • S3
  • HiSim
  • Sotopia
  • Casevo 等

  从论文的比较表来看,AgentSociety 的优势主要体现在三个方面:

  1. 能力维度更全:同时覆盖心智、行为、环境与心智—行为耦合;
  2. 系统规模更大:支持超过 1 万名智能体;
  3. 研究工具更接近社会科学流程:支持问卷、访谈与干预,而不只是“让一堆智能体跑起来”。 在这里插入图片描述

4.1 社会环境与系统设计

  在环境层面,论文把整个社会环境分成三类空间:城市空间、社交空间和经济空间,并让三类行为分别与之对接。这个设计是本文和许多“纯智能体系统”最本质的区别:环境不再只是一个背景板,而是一个持续产生约束与反馈的真实系统。在这里插入图片描述 图9 城市空间负责移动,社交空间负责线上线下互动,经济空间负责就业、消费、税收、利率与 GDP 等指标。对社会模拟来说,这张图的重要性在于:它明确把“社会”拆成了可执行、可交互、可反馈的多层基础设施。   系统层面,作者进一步构建了一个适合大规模异步仿真的执行架构。智能体之间不靠严格的顺序调用协同,而是像现实社会那样,通过消息系统彼此影响;系统则用 Ray(分布式计算框架)、asyncio(异步 I/O)和 MQTT(消息通信协议)来支撑高并发执行。在这里插入图片描述 图10 这张图展示了 AgentSociety 的工程骨架:共享服务层包括 LLM API、MQTT 服务器、数据库和指标记录器;每个实验有自己的环境模拟器和多个 agent group;前端 GUI 则提供实时观察、问卷和交互能力。在这里插入图片描述 图11 论文解释了为什么要用分组执行(group-based execution):如果每个智能体都是一个独立进程,会迅速耗尽 TCP 端口和通信资源。把多个智能体装进一个 group,再结合异步调用,可以显著提升可扩展性。在这里插入图片描述 图12 MQTT 的引入很有意思。作者把社会智能体之间的交流类比为物联网(IoT)设备间的消息传输:目标明确、量大、并发高、时延相对不敏感。这个类比很工程化,也很有效。

4.2 系统性能

  论文单独评估了环境性能、消息系统性能与整体仿真性能。   先看大规模执行时的分布情况: 在这里插入图片描述

图13 四张图分别展示了输入 token、输出 token、LLM 调用时延和环境调用时延的分布。很直观地说明:并行化不会显著改变 token 使用结构,但会显著影响整体耗时表现。   此外,作者还总结了实验配置概览,以及系统在真实地图上的可视化运行效果:在这里插入图片描述 图14 这里把“一天生活”“极化”“煽动性消息传播”“UBI”“飓风冲击”等实验串在一起,非常适合读者快速理解整篇论文的实验版图。 在这里插入图片描述

图15 左图是大规模模拟的空间可视化,右图是单个智能体的一天生活轨迹。它提醒我们,这套系统既能看宏观人群,也能钻进微观个体。   从性能结果来看,作者认为系统瓶颈主要还是在 LLM API 调用,而不是环境模拟本身。随着 group 数量增加,整体每轮执行时间明显下降;环境调用仍维持在毫秒级,说明内部环境引擎本身并不是主要短板,真正限制规模的仍是大模型推理成本。

4.3 四类核心实验


(一)极化(Polarization)

  极化实验讨论的是一个经典社会问题:为什么群体讨论会越吵越两极?   作者围绕枪支管制(Gun Control)议题设置了三种条件:

  • 控制组:自然互动,不施加外部定向信息;
  • 同质互动组(homophilic interaction):只接触与自己立场一致的说服信息;
  • 异质互动组(heterogeneous interaction):只接触与自己立场相反的信息。在这里插入图片描述

图16 这组结果非常直观:控制组中,39% 的智能体变得更极化,33% 变得更温和;同质互动组中,52% 变得更极化,显示“回音室”(echo chamber)会放大立场分裂;异质互动组中,89% 变得更温和,11% 甚至被说服转向。

定量结果
  • 控制组:39% 更极化,33% 更温和;
  • 同质互动组:52% 更极化;
  • 异质互动组:89% 更温和,11% 转向对立观点。
定性分析

  这个结果其实很有意思。它并不是简单地说“多元信息一定更好”,而是说明接触单一同温层信息,确实更容易把观点推向两端。相反,当个体持续接触相反观点时,虽然未必会立即转变立场,但整体会朝更温和的位置移动。这与现实中的公共讨论空间治理,有很强的对应关系。


(二)煽动性信息传播(Spread of Inflammatory Messages)

  这部分实验关注的是:带有煽动性、情绪性、甚至不准确信息的内容,是如何在社交网络中传播的;平台的不同治理方式,又会带来怎样的效果。   作者基于“徐州铁链女事件”构造实验,设置:

  • 控制组:投放非煽动性种子消息;
  • 实验组:投放带有选择性表达和情绪强化的煽动性消息;
  • 节点干预(node intervention):反复发布有害内容的账号被停用;
  • 边干预(edge intervention):检测到煽动性内容经过某条连接时,切断这条连接。在这里插入图片描述 图17 左图是信息传播范围随时间的变化,右图是情绪强度随时间的变化。总体看,煽动性信息比普通内容传播得更快、更广,也更容易抬升群体情绪强度。节点级干预比边级干预更有效。
定量结果
  • 煽动性消息的传播范围显著高于普通消息;
  • 节点干预优于边干预;
  • 煽动性消息会显著提高群体情绪强度。
定性分析

  作者还对智能体进行了访谈,分析它们为什么会转发这些内容。在这里插入图片描述 图18 词云中高频词集中在 sympathy、worry、rights、public、authorities 等附近,说明分享这类信息并不只是“猎奇”,还包含情绪共鸣、社会责任感与公共议题参与感。

  这点很有启发:很多有害信息之所以传播,并不单纯因为用户“不理性”,而是因为它们击中了某种道德情绪、同情心与公共责任感。也就是说,治理这类传播,不能只靠删帖或屏蔽,还需要理解转发背后的心理机制。


(三)普惠基本收入(Universal Basic Income, UBI)

  UBI 是一个极具争议的话题:给每个人无条件发钱,真的会改善生活吗?会不会伤害劳动激励?会不会拉动消费?   作者基于美国得州(Texas)人口分布构造两个宏观经济模拟:

  • 无 UBI
  • 有 UBI:每个智能体每月无条件领取 1000 美元

  先看经济系统随时间的总体演化:在这里插入图片描述 图19 随着仿真推进,真实 GDP 与消费曲线逐渐趋于稳定,说明系统不是随机震荡,而是在形成一个可比较的经济动态过程。   然后在第 96 步引入 UBI,比对之后 24 步的经济与社会指标: 在这里插入图片描述 图20 引入 UBI 后,消费水平上升,抑郁水平下降。论文认为,这一趋势与得州 UBI 现实实验观察到的方向是一致的。

定量结果
  • UBI 提升了消费水平;
  • UBI 降低了抑郁水平(通过 CES-D 问卷衡量)。
定性分析

  作者还让智能体表达对 UBI 的看法:在这里插入图片描述 图21 词云里较突出的词包括 interest rates、essential goods、savings、long-term、benefit 等,说明智能体并不是把 UBI 理解成“白拿钱”,而是把它与储蓄、必需品支出、长期保障联系起来。   这部分实验最有意思的地方,不在于它“证明 UBI 一定有效”,而在于它展示了一个可能性:社会政策可以先在一个高保真社会模拟器里跑一遍,再决定要不要上真实社会。


(四)飓风外部冲击(External Shocks of Hurricane)

  最后一组实验关注极端天气事件对人类移动行为的影响。作者以 2019 年影响美国东南部的多里安飓风(Hurricane Dorian)为背景,以南卡罗来纳州哥伦比亚市(Columbia, South Carolina)为研究对象,结合 SafeGraph 与 CBG 数据,模拟 1000 个社会智能体在飓风来临前、中、后的移动变化。在这里插入图片描述 图22 活动水平(activity level)在飓风前大约维持在 70%–90%,飓风登陆时骤降到约 30%,之后逐步恢复。这个趋势和现实中人类面对灾害时的避险行为高度一致。 在这里插入图片描述 图23 模拟结果与真实数据在时间趋势上较为一致:8 月 30 日左右出行明显下降,9 月初恢复。虽然峰值阶段仍有偏差,但整体节律已经相当接近真实世界。

定量结果
  • 飓风到来时,活动水平明显下降;
  • 模拟出行曲线与真实日出行曲线趋势基本一致。
定性分析

  这组实验说明,AgentSociety 并不只是适合“网上吵架”或“政策实验”这类议题,它也可以研究环境冲击如何穿透到个体行为层面。也就是说,它不只是一个社交模拟器,更是一个可以研究“社会—空间—环境”耦合系统的平台。


五、总结与展望

论文贡献

  我觉得这篇论文最核心的贡献,可以概括成三点:

  1. 提出了一个真正意义上的“大规模社会模拟器”
    不是只做若干会对话的智能体,而是让智能体、环境和执行引擎协同工作,形成一个可生活、可互动、可研究的人工社会。

  2. 把“像人”与“像社会”连接起来
    过去很多工作只能二选一:要么个体逼真、规模很小;要么系统很大、个体很假。AgentSociety 试图把这两件事同时往前推。

  3. 把社会科学方法嵌进了 AI 系统
    它不仅能跑模拟,还支持问卷、访谈和干预,这意味着它不只是一个工程系统,更是在向“社会科学实验平台”靠近。

个人思考

  这篇文章最打动我的地方,不在于“又做了一个多智能体系统”,而在于它认真回答了一个更大的问题:如果我们想让 AI 真正帮助理解社会,我们到底应该模拟什么?   作者的答案是:不是只模拟对话,不是只模拟决策,而是要模拟一个人在社会中的存在方式——有情绪,有需求,有关系,有空间约束,有经济压力,也会被环境冲击改变。   当然,这套系统仍然有明显边界:

  • 它的“真实”仍然建立在模型能力与规则设计之上,不等于真实社会本身;
  • 它的经济部分仍是简化版,劳动市场、商品市场、制度反馈还可以继续细化;
  • 它的大规模运行仍高度依赖 LLM 推理成本,这会直接限制可重复性与推广性。

  但即便如此,这篇论文依然很重要。因为它让人看到,生成式社会科学(generative social science)也许不再只是概念,而正在变成一个可以真正做实验、做比较、做政策沙盘的技术方向。   如果说传统计算社会科学更像“看社会”,那么 AgentSociety 想做的,是把社会重新造一遍,然后在里面提问。这件事,值得认真对待。