《FLOCKVOTE: LLM-EMPOWERED AGENT-BASED MODELING FOR SIMULATING U.S. PRESIDENTIAL ELECTIONS》
📖 摘要
本文提出 FlockVote,一个结合人口统计画像与议题上下文的 LLM 驱动代理建模框架,用于模拟美国总统选民决策;在 2024 年美国大选七个摇摆州实验中,模型较高精度复现了真实选举结果,但同时暴露出显著的偏置、提示敏感性和不稳定性问题。
一、论文基本信息
- 论文标题:FLOCKVOTE: LLM-EMPOWERED AGENT-BASED MODELING FOR SIMULATING U.S. PRESIDENTIAL ELECTIONS
- 作者:Lingfeng Zhou,Yi Xu,Zhenyu Wang,Dequan Wang
- 作者机构:Shanghai Jiao Tong University,Shanghai Innovation Institute,Shanghai Academy of Social Sciences,Nanjing University
- 出处:ICAIS 2025
- DOI/链接:arXiv:2512.05982v1;github.com/maple-zhou/…
二、研究背景与动机
-
问题背景:
选举预测和社会行为建模一直是计算社会科学中的重要问题。传统方法主要包括统计模型和基于规则的 Agent-Based Modeling(ABM)。统计模型擅长宏观拟合,但可解释性有限;传统 ABM 虽然具有“白盒”特征,却通常依赖启发式规则,难以描述真实选民复杂且异质的决策过程。 -
现有方法的不足:
- 统计模型偏黑箱:更擅长拟合相关性,不擅长揭示个体决策机制。
- 传统 ABM 行为过于简化:代理更多是在执行预定义规则,而不是进行情境化推理。
- 已有 LLM 选举模拟研究关注预测多、审计少:往往强调“预测是否准确”,却较少系统分析模型偏置、稳定性和可解释性。
-
本文动机:
作者希望把 LLM 代理从“预测工具”推进为“计算实验室(computational laboratory)”:不仅输出谁会赢,更分析代理为什么会这么判断,并进一步审计这些 LLM 代理是否能够成为可靠的社会科学研究工具。
图示说明:Figure 1 对比了统计模型、传统 ABM 与本文使用的 LLM-empowered ABM。作者借此强调:FlockVote 的关键不只是预测,而是通过“人口画像 + 上下文信息 + 生成式推理”构建一个可解释的社会模拟实验平台。
三、核心方法与创新点
-
核心思想:
FlockVote 的核心不是让模型直接预测选举结果,而是先构建一个高保真的“虚拟社会”:为每个 LLM agent 赋予细粒度人口画像,再输入候选人在关键议题上的立场,让 agent 以“一个具体选民”的身份进行生成式推理,最终输出对不同投票结果的概率分布。之后,再将大量代理的输出聚合,得到州级乃至整体选举预测结果。 -
创新点拆解:
- LLM + ABM 融合:把传统规则驱动代理替换成具有自然语言推理能力的 LLM 代理。
- 高保真人口统计画像:基于 ACS 和 U.S. Religion Census 构建代理属性,包含州、种族、性别、年龄、职业、行业、教育、宗教等 8 个关键维度。
- 上下文感知决策:将经济、移民、堕胎等 2024 年大选关键议题的候选人立场输入给代理,使其在具体政治语境中做决策。
- 概率式投票建模:代理不是输出单一类别,而是输出 Trump、Harris 和“投给其他候选人/弃权”的概率分布,更能表示不确定性。
- 强调可靠性审计:除了验证宏观预测外,还系统研究模型的偏差、提示敏感性和不稳定性。
-
技术细节:
作者构建代理主要包括三步:
(1) 人口统计建模:每州采样 1000 个代理,属性服从真实统计分布;
(2) 议题上下文输入:围绕经济、移民、堕胎三类议题提供候选人立场;
(3) 概率投票输出:每个代理输出一个 JSON 概率分布。示例响应格式如下:
{ "Donald Trump": 0.51, "Kamala Harris": 0.39, "vote for another candidate or not vote at all": 0.10 }且满足:
从形式上看,模型学习的是一个条件决策分布:
其中,
- 表示人口统计画像(demographic profile)
- 表示候选人议题上下文(context information)
- 表示投票概率分布
最终州级聚合结果可表示为:
四、实验与结果分析
-
数据集:
- 人口统计数据:2023 American Community Survey(ACS)、2020 U.S. Religion Census(ASARB)
- 议题上下文数据:围绕 2024 年美国大选中最重要的三类议题——经济、移民、堕胎——整理候选人立场
- 评测范围:7 个关键摇摆州——Arizona、Georgia、Michigan、Nevada、North Carolina、Pennsylvania、Wisconsin
-
基线模型:
主模型为 Qwen-Max-2024-04-28;此外还比较了 GPT-4o、Claude-3.5-sonnet、Gemini-1.5-Pro、DeepSeek、Mistral、Llama3.1/3.2 等模型。作者选择 Qwen-Max 作为主模型,一个原因是希望减少美国本土模型可能带来的政治偏向。
4.1 宏观结果:预测结果与真实选举高度一致
- 主要结论:
- FlockVote 成功复现了 7 个摇摆州中的 6 个州的胜负结果;
- 唯一预测失误的是 Nevada,但预测误差仅约 0.17%;
- 这表明框架在宏观层面能够较高保真地复现真实政治动态。
图示说明:Figure 2 用两张美国地图对比模型预测与真实选举结果。除 Nevada 外,其余摇摆州预测与真实结果一致,说明 FlockVote 在宏观选举结果模拟上具有较高拟合度。
4.2 微观可解释性:代理为什么这么投票
- 定性分析:
作者不仅统计整体结果,还让代理给出“Reason”。将 Pennsylvania 州代理理由聚合后,可以看到高频词集中在 “economic”“abortion”“inflation”“immigration” 等议题上,说明代理并非机械依赖人口属性,而是在结合上下文进行推理。
图示说明:Figure 3 展示了 Pennsylvania 州代理给出的投票理由词云。“economic”“abortion”“inflation”“immigration”等词占据显著位置,反映出模型确实在利用候选人议题立场进行决策。
- 进一步解释性实验:
作者还“采访”了若干代表性代理。比如,一位中年白人男性建筑从业者更支持 Trump,理由集中在通胀与移民;一位年轻黑人女性金融从业者更支持 Harris,理由则更围绕堕胎权和经济政策。
这说明 FlockVote 相比传统黑箱统计模型,在个体层面拥有更强的解释能力。
4.3 消融实验:哪些设计是必要的
- 代理数量稳定性:
作者在 Pennsylvania 州测试了不同代理数量(10、100、200、300、500、1000、2000)下结果的稳定性。实验发现,当代理数量达到 300 左右时,整体预测已经基本稳定,之后继续增加代理数量,波动很小。
图示说明:Figure 4 说明随着代理数量增加,共和党与民主党的支持率波动逐渐收敛。300 个代理后结果趋于稳定,说明样本规模已经能够支撑较稳定的州级模拟。
- 样本覆盖性:
作者进一步展示了一个 300-agent 样本在人种和性别维度上的分布,证明即便在较小规模下,各个群体也都有机会被覆盖。
图示说明:Figure 5 是 Pennsylvania 州样本的 race-sex 比例图。作者借此说明 300 个代理足以覆盖主要人口群体,从而为后续稳定性分析提供支持。
- 教育与宗教维度的重要性:
消融实验还表明,教育和宗教两个维度对预测质量非常关键。加入教育维度后,Wisconsin 的预测从错误变为正确;加入宗教维度后,模型与民调结果更一致,也缓解了模型偏向民主党的问题。
4.4 敏感性分析:模型虽然有效,但非常不稳
-
政治偏置问题:
作者比较了不同模型在不同上下文条件下的预测,发现不少模型在“无上下文”甚至“有利于 Trump 的提示”下,仍然表现出明显的民主党偏向。 -
模型间差异问题:
不同 LLM 对 “vote for another candidate or not vote at all” 的估计差异很大。例如,有的模型会给出较高比例的第三方/弃权票,而有的模型几乎不给这个选项概率。 -
提示敏感性问题:
作者设计了 8 个语义基本等价、但措辞略有不同的上下文版本。结果发现,仅仅因为提示形式变化,预测支持率就出现了剧烈波动。
图示说明:Figure 7 展示了 8 个上下文变体下 Pennsylvania 州的预测支持率变化。仅仅是轻微措辞修改,就能让民主党支持率在较大范围内波动,这说明模型具有显著的提示敏感性。
- 位置敏感性问题:
更极端的是,作者只交换 JSON 输出格式中两位候选人名字的顺序,就导致某些 swing agents 的偏好直接翻转。这说明模型不仅对语义敏感,甚至对输出格式位置也敏感。
五、总结与展望
-
论文贡献:
本文最重要的贡献不只是提出了一个“可以预测”的选举模拟框架,更提出了一个可解释、可分析、可审计的 LLM 社会模拟实验平台。它证明 LLM 代理在宏观上可以较好复现复杂社会现象,但也明确揭示了这些代理作为社会科学工具时存在的根本问题:偏差、不稳定以及对提示和格式高度敏感。 -
个人思考:
这篇文章给我最大的启发是:LLM-based social simulation 的真正价值,可能不在于替代民调,而在于成为一个可控的“假设实验平台”。研究者可以改变人口结构、政策描述、提示形式,观察结果如何变化,从而研究社会行为模型的敏感性。
但同时,这篇论文也提醒我们,当前 LLM 代理还远不能被视作稳定、可靠的社会科学实验对象。它们很容易受措辞、顺序、语境甚至输出格式影响,因此在高风险应用中必须进行充分的偏差审计和稳健性验证。
我认为后续可改进的方向包括:- 引入多轮交互与社会网络影响,而不是把选民视为彼此独立的个体;
- 加入更严格的校准和稳健性机制,如多提示集成、顺序随机化和一致性约束;
- 将这一框架扩展到经济、法律、医疗等高风险领域,验证其作为“计算实验室”的普适性。