《AgentSociety》 2026.3.8《AgentSociety: Large-Scale Simulation

《AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding of Human Behaviors and Society》

📖 摘要

这篇论文提出了一个面向社会科学的大规模社会模拟器 AgentSociety，通过把由大语言模型驱动的社会生成智能体（LLM-driven social generative agents）、逼真的社会环境（societal environment）和可扩展的仿真引擎（simulation engine）整合起来，在超过 1 万名智能体、约 500 万次交互的规模上复现了极化、煽动性信息传播、普惠基本收入和飓风冲击等社会现象，展示了生成式社会科学（generative social science）作为一种新研究范式的潜力。

一、论文基本信息

论文标题：AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding of Human Behaviors and Society
作者：Jinghua Piao、Yuwei Yan、Jun Zhang、Nian Li、Junbo Yan、Xiaochong Lan、Zhihong Lu、Zhiheng Zheng、Jing Yi Wang、Di Zhou、Chen Gao、Fengli Xu、Fang Zhang、Ke Rong、Jun Su、Yong Li
作者机构：清华大学电子工程系、北京信息科学与技术国家研究中心（BNRist）、清华大学社会科学学院经济学研究所、清华大学公共管理学院
出处：arXiv:2502.08691
DOI/链接：arXiv:2502.08691

二、研究背景与动机

问题背景

长期以来，计算社会科学（computational social science）主要沿着两条路径推进：一条是解释，即寻找社会现象背后的机制；另一条是预测，即借助数据估计未来趋势。但如果只停留在“解释”与“预测”，我们对社会系统的理解仍然不够彻底。正如生成式社会科学（generative social science）所强调的那样，真正的理解，不只是描述世界，更是能够构造一个会运转的世界。传统社会实验往往成本高、周期长、组织复杂，而且经常面临伦理与现实约束；而经典的基于智能体建模（agent-based modeling）虽然能做自下而上的社会模拟，却常常受限于智能体过于简化，缺乏真实的人类心理、语言交流能力与环境反馈机制。于是，一个更具“人味”的社会模拟器，成了这项研究真正想回答的问题。

现有方法的不足

现有社会模拟平台大多有三类短板：

智能体不够像人：许多方法仍依赖规则、方程或浅层行为设定，难以生成真实、细腻、语言驱动的人类行为。
环境不够像社会：有的平台只提供文本环境（text-based environment）或游戏环境（game environment），难以承载城市、社交、经济三类空间的复杂反馈。
规模不够大、研究工具不够全：很多系统只能支持小规模实验，且并不真正面向社会科学研究流程，缺少访谈（interview）、问卷（survey）、干预（intervention）等工具。

本文动机

这篇论文的核心动机很明确：做一个不仅能“演人”，还能“演社会”的系统。作者希望把由大语言模型驱动的智能体，从“会说话的角色”推进到“有心理、有需求、有关系、有行动、有环境约束的社会个体”；再进一步，把这些个体放进一个具有城市空间、社交空间和经济空间的真实社会环境中，最后通过高并发的大规模仿真引擎，让群体行为和社会现象真正涌现出来。在这里插入图片描述图1　论文先给出了一个用于评估 LLM 驱动社会模拟器的总体框架：从智能体心智（minds）、心智—行为耦合（mind-behavior coupling）、行为（behaviors）、社会环境（societal environment），一直到仿真规模与社会科学工具箱，完整勾勒出作者认为“像社会”的系统应具备哪些关键维度。在这里插入图片描述图2　AgentSociety 的总览图。整篇论文实际上就围绕这张图展开：左边是三大系统组件，右边是四类典型应用，结构非常清楚，也很适合作为阅读全篇时的导航图。

三、核心方法与创新点

核心思想

AgentSociety 的核心思想，可以概括为一句话：

用“有心智的个体 + 真实约束的环境 + 可扩展的交互系统”，去生成可研究、可干预、可比较的人工社会。

这件事听上去简单，真正难的是三层耦合：

个体内部，如何把情绪（emotion）、需求（needs）、认知（cognition）组织成一个能驱动行为的“心智系统”；
个体外部，如何让移动（mobility）、社交（social interaction）、就业与消费（employment & consumption）不只是孤立动作，而是真正嵌在社会环境中的连续行为；
系统层面，如何让上万智能体在异步、并行、高吞吐的条件下持续互动，并且还能支撑问卷、访谈、干预等社会科学研究过程。

创新点拆解

1. 从“角色扮演”走向“社会存在”

很多 LLM 智能体工作停留在角色扮演（role-play）层面：给定人设，让模型像某个人说话。但本文更进一步，把智能体拆成：

Profile & Status：基本画像与动态状态；
Mental Process：情绪、需求、认知；
Social Behaviors：移动、社交、就业与消费；
Memory Workflow：基于时间流的记忆机制。

这样设计的意义在于：智能体不再只是“回答问题”，而是会在连续时间中生活、行动、积累经验并更新自身状态。在这里插入图片描述图3　论文对智能体结构的总设计图。左边是画像与状态，中间是情绪—需求—认知等心智过程，右边是社会行为，底部则是贯穿始终的工作流。它很好地体现了作者不是把“行为生成”当成提示词技巧，而是当成一个社会认知系统来搭。

2. 显式建模“情绪—需求—认知”

在本文里，心智并不是一个模糊概念，而是被拆成三层：

情绪（emotion）：对外界刺激的快速反应；
需求（needs）：更稳定、更持久的行为动机；
认知（cognition）：对环境、议题与他人的理解、判断与态度。

作者借鉴了马斯洛需求层次（Maslow’s Hierarchy of Needs）、计划行为理论（Theory of Planned Behavior）等理论，把“为什么做某件事”从 LLM 的黑箱里往外拉了一步。这种显式建模的价值在于，它让行为不是“看起来像”，而是“能解释为什么像”。在这里插入图片描述图4　这张图非常关键。它说明智能体内部不是一条单向链路，而是“心智—记忆—行为”相互反馈的循环系统。态度（attitude）、思维（thought）、需求（needs）与行为（behavior）之间不是孤立关系，而是一个持续更新的心理—行动闭环。

3. 把关键社会行为拆成专门模块

作者并没有把所有行为都交给 LLM 一次性生成，而是把最关键的三类社会行为单独建模：

移动行为（mobility）
社会行为（social behaviors）
经济行为（economic behaviors）

这一步非常重要，因为现实中的社会行为从来不是一句自然语言输出，而是带有空间、关系和资源约束的复合过程。

（1）移动行为：需求如何变成“去哪里”

论文把移动行为分成四步：

意图提取（intention extraction）
地点类型选择（place type selection）
半径决策（radius decision）
地点选择（place selection）

其中地点选择采用引力模型（Gravity Model）：

P_{ij} = \frac{S_j / D_{ij}^{\beta}}{\sum S_k / D_{ik}^{\beta}}

这里， $S_j$ 表示地点吸引力， $D_{ij}$ 表示距离， $\beta$ 表示距离衰减系数。这个设计很聪明：它一方面减少了 LLM 的推理负担，另一方面又把人的空间偏好——比如就近原则、集聚效应——编码进了系统。在这里插入图片描述图5　移动行为并不是“从 A 到 B”的简单跳转，而是由需求与计划触发，再结合地图、天气、温度等环境变量，逐步落实为实际地点选择。对想做城市行为模拟的人来说，这张图很有参考价值。

（2）社会行为：关系、交流与影响传播

社会行为模块建立在三类关系之上：

家庭（family）
朋友（friends）
同事（colleagues）

每条关系有强度，智能体会根据关系类型与强弱来决定联系谁、怎么说、是否安排线下见面。消息内容还会受到当前需求、情绪、认知和历史互动的共同影响。换句话说，社交不是随机发消息，而是有对象、有语气、有上下文的。在这里插入图片描述图6　这张图把社交行为放在了认知、经济、移动和社交网络之间，说明社交本质上是一个“连接器”：它既传播信息，也反馈情绪，还可能触发工作、消费与移动。

（3）经济行为：把就业、消费与宏观系统接起来

论文中的经济行为重点模拟了两类倾向：

工作倾向（work propensity）
消费倾向（consumption propensity）

智能体会根据工资、价格、税收、历史消费等因素调整月收入与月消费预算；这些微观行为再被嵌入政府、银行、企业、统计机构组成的宏观经济模拟框架中。虽然它还没有完整建模劳动市场和商品市场，但已经能支撑政策实验，比如本文后面做的普惠基本收入（Universal Basic Income, UBI）实验。在这里插入图片描述

图7　经济行为模块把家庭、商店、企业、银行、政府和市场动态串在了一起。它并不追求经济学意义上的极致复杂，而是强调“够真实、能互动、可做干预实验”。

4. 用流式记忆把心智和行为真正连起来

记忆（memory）是整套系统的“中轴”。作者把记忆分成：

Profile：相对静态的个人画像
Status：动态状态
Stream Memory：按时间排列的事件流与感知流

行为发生后，事件会被写入 Event Flow，智能体对事件的感知与评价则写入 Perception Flow；接着，情绪、认知、需求被更新，再影响下一轮决策。这种设计让智能体拥有了一种“时间中的连续性”，而不只是每轮调用都像从头开始。在这里插入图片描述图8　这是全文最能体现“人味”的图。需求生成计划，计划落实为移动、社交、经济等行为；行为又进入记忆，并反过来更新情绪、态度与思考。整个过程非常接近我们理解的“生活经验塑造下一步行为”的机制。

四、实验与结果分析

数据集

这篇论文并不是只在一个玩具环境里跑若干 demo，而是为不同模块接入了真实世界的数据来源与规则系统：

城市空间：使用 OpenStreetMap 中的路网、AOI（Area of Interest）和 POI（Point of Interest）信息构建城市空间；
社交空间：建立社交网络，并引入平台监管者（supervisor）模拟内容过滤、封禁与连接切断；
经济空间：构建企业、银行、政府、统计机构等宏观经济实体；
飓风实验：使用 SafeGraph 数据与 Census Block Group（CBG）数据模拟飓风期间的人类移动行为。

基线模型

作者在系统能力比较中，将 AgentSociety 与多类已有工作进行了对照，包括：

D2A
EconAgent
OASIS
Generative Agents
GenSim
Project Sid
S3
HiSim
Sotopia
Casevo 等

从论文的比较表来看，AgentSociety 的优势主要体现在三个方面：

能力维度更全：同时覆盖心智、行为、环境与心智—行为耦合；
系统规模更大：支持超过 1 万名智能体；
研究工具更接近社会科学流程：支持问卷、访谈与干预，而不只是“让一堆智能体跑起来”。

4.1 社会环境与系统设计

在环境层面，论文把整个社会环境分成三类空间：城市空间、社交空间和经济空间，并让三类行为分别与之对接。这个设计是本文和许多“纯智能体系统”最本质的区别：环境不再只是一个背景板，而是一个持续产生约束与反馈的真实系统。在这里插入图片描述图9　城市空间负责移动，社交空间负责线上线下互动，经济空间负责就业、消费、税收、利率与 GDP 等指标。对社会模拟来说，这张图的重要性在于：它明确把“社会”拆成了可执行、可交互、可反馈的多层基础设施。系统层面，作者进一步构建了一个适合大规模异步仿真的执行架构。智能体之间不靠严格的顺序调用协同，而是像现实社会那样，通过消息系统彼此影响；系统则用 Ray（分布式计算框架）、asyncio（异步 I/O）和 MQTT（消息通信协议）来支撑高并发执行。在这里插入图片描述图10　这张图展示了 AgentSociety 的工程骨架：共享服务层包括 LLM API、MQTT 服务器、数据库和指标记录器；每个实验有自己的环境模拟器和多个 agent group；前端 GUI 则提供实时观察、问卷和交互能力。图11　论文解释了为什么要用分组执行（group-based execution）：如果每个智能体都是一个独立进程，会迅速耗尽 TCP 端口和通信资源。把多个智能体装进一个 group，再结合异步调用，可以显著提升可扩展性。在这里插入图片描述图12　MQTT 的引入很有意思。作者把社会智能体之间的交流类比为物联网（IoT）设备间的消息传输：目标明确、量大、并发高、时延相对不敏感。这个类比很工程化，也很有效。

4.2 系统性能

论文单独评估了环境性能、消息系统性能与整体仿真性能。先看大规模执行时的分布情况：在这里插入图片描述

图13　四张图分别展示了输入 token、输出 token、LLM 调用时延和环境调用时延的分布。很直观地说明：并行化不会显著改变 token 使用结构，但会显著影响整体耗时表现。此外，作者还总结了实验配置概览，以及系统在真实地图上的可视化运行效果：在这里插入图片描述 图14　这里把“一天生活”“极化”“煽动性消息传播”“UBI”“飓风冲击”等实验串在一起，非常适合读者快速理解整篇论文的实验版图。

图15　左图是大规模模拟的空间可视化，右图是单个智能体的一天生活轨迹。它提醒我们，这套系统既能看宏观人群，也能钻进微观个体。 从性能结果来看，作者认为系统瓶颈主要还是在 LLM API 调用，而不是环境模拟本身。随着 group 数量增加，整体每轮执行时间明显下降；环境调用仍维持在毫秒级，说明内部环境引擎本身并不是主要短板，真正限制规模的仍是大模型推理成本。

4.3 四类核心实验

（一）极化（Polarization）

极化实验讨论的是一个经典社会问题：为什么群体讨论会越吵越两极？作者围绕枪支管制（Gun Control）议题设置了三种条件：

控制组：自然互动，不施加外部定向信息；
同质互动组（homophilic interaction）：只接触与自己立场一致的说服信息；
异质互动组（heterogeneous interaction）：只接触与自己立场相反的信息。

图16　这组结果非常直观：控制组中，39% 的智能体变得更极化，33% 变得更温和；同质互动组中，52% 变得更极化，显示“回音室”（echo chamber）会放大立场分裂；异质互动组中，89% 变得更温和，11% 甚至被说服转向。

定量结果

控制组：39% 更极化，33% 更温和；
同质互动组：52% 更极化；
异质互动组：89% 更温和，11% 转向对立观点。

定性分析

这个结果其实很有意思。它并不是简单地说“多元信息一定更好”，而是说明接触单一同温层信息，确实更容易把观点推向两端。相反，当个体持续接触相反观点时，虽然未必会立即转变立场，但整体会朝更温和的位置移动。这与现实中的公共讨论空间治理，有很强的对应关系。

（二）煽动性信息传播（Spread of Inflammatory Messages）

这部分实验关注的是：带有煽动性、情绪性、甚至不准确信息的内容，是如何在社交网络中传播的；平台的不同治理方式，又会带来怎样的效果。作者基于“徐州铁链女事件”构造实验，设置：

控制组：投放非煽动性种子消息；
实验组：投放带有选择性表达和情绪强化的煽动性消息；
节点干预（node intervention）：反复发布有害内容的账号被停用；
边干预（edge intervention）：检测到煽动性内容经过某条连接时，切断这条连接。图17　左图是信息传播范围随时间的变化，右图是情绪强度随时间的变化。总体看，煽动性信息比普通内容传播得更快、更广，也更容易抬升群体情绪强度。节点级干预比边级干预更有效。

定量结果

煽动性消息的传播范围显著高于普通消息；
节点干预优于边干预；
煽动性消息会显著提高群体情绪强度。

定性分析

作者还对智能体进行了访谈，分析它们为什么会转发这些内容。在这里插入图片描述图18　词云中高频词集中在 sympathy、worry、rights、public、authorities 等附近，说明分享这类信息并不只是“猎奇”，还包含情绪共鸣、社会责任感与公共议题参与感。

这点很有启发：很多有害信息之所以传播，并不单纯因为用户“不理性”，而是因为它们击中了某种道德情绪、同情心与公共责任感。也就是说，治理这类传播，不能只靠删帖或屏蔽，还需要理解转发背后的心理机制。

（三）普惠基本收入（Universal Basic Income, UBI）

UBI 是一个极具争议的话题：给每个人无条件发钱，真的会改善生活吗？会不会伤害劳动激励？会不会拉动消费？作者基于美国得州（Texas）人口分布构造两个宏观经济模拟：

无 UBI
有 UBI：每个智能体每月无条件领取 1000 美元

先看经济系统随时间的总体演化：在这里插入图片描述 图19　随着仿真推进，真实 GDP 与消费曲线逐渐趋于稳定，说明系统不是随机震荡，而是在形成一个可比较的经济动态过程。 然后在第 96 步引入 UBI，比对之后 24 步的经济与社会指标： 图20　引入 UBI 后，消费水平上升，抑郁水平下降。论文认为，这一趋势与得州 UBI 现实实验观察到的方向是一致的。

定量结果

UBI 提升了消费水平；
UBI 降低了抑郁水平（通过 CES-D 问卷衡量）。

定性分析

作者还让智能体表达对 UBI 的看法：在这里插入图片描述图21　词云里较突出的词包括 interest rates、essential goods、savings、long-term、benefit 等，说明智能体并不是把 UBI 理解成“白拿钱”，而是把它与储蓄、必需品支出、长期保障联系起来。这部分实验最有意思的地方，不在于它“证明 UBI 一定有效”，而在于它展示了一个可能性：社会政策可以先在一个高保真社会模拟器里跑一遍，再决定要不要上真实社会。

（四）飓风外部冲击（External Shocks of Hurricane）

最后一组实验关注极端天气事件对人类移动行为的影响。作者以 2019 年影响美国东南部的多里安飓风（Hurricane Dorian）为背景，以南卡罗来纳州哥伦比亚市（Columbia, South Carolina）为研究对象，结合 SafeGraph 与 CBG 数据，模拟 1000 个社会智能体在飓风来临前、中、后的移动变化。在这里插入图片描述图22　活动水平（activity level）在飓风前大约维持在 70%–90%，飓风登陆时骤降到约 30%，之后逐步恢复。这个趋势和现实中人类面对灾害时的避险行为高度一致。图23　模拟结果与真实数据在时间趋势上较为一致：8 月 30 日左右出行明显下降，9 月初恢复。虽然峰值阶段仍有偏差，但整体节律已经相当接近真实世界。

定量结果

飓风到来时，活动水平明显下降；
模拟出行曲线与真实日出行曲线趋势基本一致。

定性分析

这组实验说明，AgentSociety 并不只是适合“网上吵架”或“政策实验”这类议题，它也可以研究环境冲击如何穿透到个体行为层面。也就是说，它不只是一个社交模拟器，更是一个可以研究“社会—空间—环境”耦合系统的平台。

五、总结与展望

论文贡献

我觉得这篇论文最核心的贡献，可以概括成三点：

提出了一个真正意义上的“大规模社会模拟器”
不是只做若干会对话的智能体，而是让智能体、环境和执行引擎协同工作，形成一个可生活、可互动、可研究的人工社会。
把“像人”与“像社会”连接起来
过去很多工作只能二选一：要么个体逼真、规模很小；要么系统很大、个体很假。AgentSociety 试图把这两件事同时往前推。
把社会科学方法嵌进了 AI 系统
它不仅能跑模拟，还支持问卷、访谈和干预，这意味着它不只是一个工程系统，更是在向“社会科学实验平台”靠近。

个人思考

这篇文章最打动我的地方，不在于“又做了一个多智能体系统”，而在于它认真回答了一个更大的问题：如果我们想让 AI 真正帮助理解社会，我们到底应该模拟什么？ 作者的答案是：不是只模拟对话，不是只模拟决策，而是要模拟一个人在社会中的存在方式——有情绪，有需求，有关系，有空间约束，有经济压力，也会被环境冲击改变。当然，这套系统仍然有明显边界：

它的“真实”仍然建立在模型能力与规则设计之上，不等于真实社会本身；
它的经济部分仍是简化版，劳动市场、商品市场、制度反馈还可以继续细化；
它的大规模运行仍高度依赖 LLM 推理成本，这会直接限制可重复性与推广性。

但即便如此，这篇论文依然很重要。因为它让人看到，生成式社会科学（generative social science）也许不再只是概念，而正在变成一个可以真正做实验、做比较、做政策沙盘的技术方向。如果说传统计算社会科学更像“看社会”，那么 AgentSociety 想做的，是把社会重新造一遍，然后在里面提问。这件事，值得认真对待。