《FLOCKVOTE》 2026.3.6《FLOCKVOTE: LLM-EMPOWERED AGENT-BASED MO

《FLOCKVOTE: LLM-EMPOWERED AGENT-BASED MODELING FOR SIMULATING U.S. PRESIDENTIAL ELECTIONS》

📖 摘要

本文提出 FlockVote，一个结合人口统计画像与议题上下文的 LLM 驱动代理建模框架，用于模拟美国总统选民决策；在 2024 年美国大选七个摇摆州实验中，模型较高精度复现了真实选举结果，但同时暴露出显著的偏置、提示敏感性和不稳定性问题。

一、论文基本信息

论文标题：FLOCKVOTE: LLM-EMPOWERED AGENT-BASED MODELING FOR SIMULATING U.S. PRESIDENTIAL ELECTIONS
作者：Lingfeng Zhou，Yi Xu，Zhenyu Wang，Dequan Wang
作者机构：Shanghai Jiao Tong University，Shanghai Innovation Institute，Shanghai Academy of Social Sciences，Nanjing University
出处：ICAIS 2025
DOI/链接：arXiv:2512.05982v1；github.com/maple-zhou/…

二、研究背景与动机

问题背景：
选举预测和社会行为建模一直是计算社会科学中的重要问题。传统方法主要包括统计模型和基于规则的 Agent-Based Modeling（ABM）。统计模型擅长宏观拟合，但可解释性有限；传统 ABM 虽然具有“白盒”特征，却通常依赖启发式规则，难以描述真实选民复杂且异质的决策过程。
现有方法的不足：
1. 统计模型偏黑箱：更擅长拟合相关性，不擅长揭示个体决策机制。
2. 传统 ABM 行为过于简化：代理更多是在执行预定义规则，而不是进行情境化推理。
3. 已有 LLM 选举模拟研究关注预测多、审计少：往往强调“预测是否准确”，却较少系统分析模型偏置、稳定性和可解释性。
本文动机：
作者希望把 LLM 代理从“预测工具”推进为“计算实验室（computational laboratory）”：不仅输出谁会赢，更分析代理为什么会这么判断，并进一步审计这些 LLM 代理是否能够成为可靠的社会科学研究工具。

图示说明：Figure 1 对比了统计模型、传统 ABM 与本文使用的 LLM-empowered ABM。作者借此强调：FlockVote 的关键不只是预测，而是通过“人口画像 + 上下文信息 + 生成式推理”构建一个可解释的社会模拟实验平台。

三、核心方法与创新点

核心思想：
FlockVote 的核心不是让模型直接预测选举结果，而是先构建一个高保真的“虚拟社会”：为每个 LLM agent 赋予细粒度人口画像，再输入候选人在关键议题上的立场，让 agent 以“一个具体选民”的身份进行生成式推理，最终输出对不同投票结果的概率分布。之后，再将大量代理的输出聚合，得到州级乃至整体选举预测结果。
创新点拆解：
1. LLM + ABM 融合：把传统规则驱动代理替换成具有自然语言推理能力的 LLM 代理。
2. 高保真人口统计画像：基于 ACS 和 U.S. Religion Census 构建代理属性，包含州、种族、性别、年龄、职业、行业、教育、宗教等 8 个关键维度。
3. 上下文感知决策：将经济、移民、堕胎等 2024 年大选关键议题的候选人立场输入给代理，使其在具体政治语境中做决策。
4. 概率式投票建模：代理不是输出单一类别，而是输出 Trump、Harris 和“投给其他候选人/弃权”的概率分布，更能表示不确定性。
5. 强调可靠性审计：除了验证宏观预测外，还系统研究模型的偏差、提示敏感性和不稳定性。
技术细节：
作者构建代理主要包括三步：
(1) 人口统计建模：每州采样 1000 个代理，属性服从真实统计分布；
(2) 议题上下文输入：围绕经济、移民、堕胎三类议题提供候选人立场；
(3) 概率投票输出：每个代理输出一个 JSON 概率分布。

示例响应格式如下：
```
{
  "Donald Trump": 0.51,
  "Kamala Harris": 0.39,
  "vote for another candidate or not vote at all": 0.10
}
```
且满足：

$p_1 + p_2 + p_3 = 1$

从形式上看，模型学习的是一个条件决策分布：

$P(y \mid d, c)$

其中，
- $d$ 表示人口统计画像（demographic profile）
- $c$ 表示候选人议题上下文（context information）
- $y$ 表示投票概率分布
最终州级聚合结果可表示为：

$\hat{Y}_{state} = \frac{1}{N}\sum_{i=1}^{N} P(y_i \mid d_i, c)$

四、实验与结果分析

数据集：
- 人口统计数据：2023 American Community Survey（ACS）、2020 U.S. Religion Census（ASARB）
- 议题上下文数据：围绕 2024 年美国大选中最重要的三类议题——经济、移民、堕胎——整理候选人立场
- 评测范围：7 个关键摇摆州——Arizona、Georgia、Michigan、Nevada、North Carolina、Pennsylvania、Wisconsin
基线模型：
主模型为 Qwen-Max-2024-04-28；此外还比较了 GPT-4o、Claude-3.5-sonnet、Gemini-1.5-Pro、DeepSeek、Mistral、Llama3.1/3.2 等模型。作者选择 Qwen-Max 作为主模型，一个原因是希望减少美国本土模型可能带来的政治偏向。

4.1 宏观结果：预测结果与真实选举高度一致

主要结论：
1. FlockVote 成功复现了 7 个摇摆州中的 6 个州的胜负结果；
2. 唯一预测失误的是 Nevada，但预测误差仅约 0.17%；
3. 这表明框架在宏观层面能够较高保真地复现真实政治动态。

图示说明：Figure 2 用两张美国地图对比模型预测与真实选举结果。除 Nevada 外，其余摇摆州预测与真实结果一致，说明 FlockVote 在宏观选举结果模拟上具有较高拟合度。

4.2 微观可解释性：代理为什么这么投票

定性分析：
作者不仅统计整体结果，还让代理给出“Reason”。将 Pennsylvania 州代理理由聚合后，可以看到高频词集中在 “economic”“abortion”“inflation”“immigration” 等议题上，说明代理并非机械依赖人口属性，而是在结合上下文进行推理。

图示说明：Figure 3 展示了 Pennsylvania 州代理给出的投票理由词云。“economic”“abortion”“inflation”“immigration”等词占据显著位置，反映出模型确实在利用候选人议题立场进行决策。

进一步解释性实验：
作者还“采访”了若干代表性代理。比如，一位中年白人男性建筑从业者更支持 Trump，理由集中在通胀与移民；一位年轻黑人女性金融从业者更支持 Harris，理由则更围绕堕胎权和经济政策。
这说明 FlockVote 相比传统黑箱统计模型，在个体层面拥有更强的解释能力。

4.3 消融实验：哪些设计是必要的

代理数量稳定性：
作者在 Pennsylvania 州测试了不同代理数量（10、100、200、300、500、1000、2000）下结果的稳定性。实验发现，当代理数量达到 300 左右时，整体预测已经基本稳定，之后继续增加代理数量，波动很小。

图示说明：Figure 4 说明随着代理数量增加，共和党与民主党的支持率波动逐渐收敛。300 个代理后结果趋于稳定，说明样本规模已经能够支撑较稳定的州级模拟。

样本覆盖性：
作者进一步展示了一个 300-agent 样本在人种和性别维度上的分布，证明即便在较小规模下，各个群体也都有机会被覆盖。

图示说明：Figure 5 是 Pennsylvania 州样本的 race-sex 比例图。作者借此说明 300 个代理足以覆盖主要人口群体，从而为后续稳定性分析提供支持。

教育与宗教维度的重要性：
消融实验还表明，教育和宗教两个维度对预测质量非常关键。加入教育维度后，Wisconsin 的预测从错误变为正确；加入宗教维度后，模型与民调结果更一致，也缓解了模型偏向民主党的问题。

4.4 敏感性分析：模型虽然有效，但非常不稳

政治偏置问题：
作者比较了不同模型在不同上下文条件下的预测，发现不少模型在“无上下文”甚至“有利于 Trump 的提示”下，仍然表现出明显的民主党偏向。
模型间差异问题：
不同 LLM 对 “vote for another candidate or not vote at all” 的估计差异很大。例如，有的模型会给出较高比例的第三方/弃权票，而有的模型几乎不给这个选项概率。
提示敏感性问题：
作者设计了 8 个语义基本等价、但措辞略有不同的上下文版本。结果发现，仅仅因为提示形式变化，预测支持率就出现了剧烈波动。

图示说明：Figure 7 展示了 8 个上下文变体下 Pennsylvania 州的预测支持率变化。仅仅是轻微措辞修改，就能让民主党支持率在较大范围内波动，这说明模型具有显著的提示敏感性。

位置敏感性问题：
更极端的是，作者只交换 JSON 输出格式中两位候选人名字的顺序，就导致某些 swing agents 的偏好直接翻转。这说明模型不仅对语义敏感，甚至对输出格式位置也敏感。

五、总结与展望

论文贡献：
本文最重要的贡献不只是提出了一个“可以预测”的选举模拟框架，更提出了一个可解释、可分析、可审计的 LLM 社会模拟实验平台。它证明 LLM 代理在宏观上可以较好复现复杂社会现象，但也明确揭示了这些代理作为社会科学工具时存在的根本问题：偏差、不稳定以及对提示和格式高度敏感。
个人思考：
这篇文章给我最大的启发是：LLM-based social simulation 的真正价值，可能不在于替代民调，而在于成为一个可控的“假设实验平台”。研究者可以改变人口结构、政策描述、提示形式，观察结果如何变化，从而研究社会行为模型的敏感性。
但同时，这篇论文也提醒我们，当前 LLM 代理还远不能被视作稳定、可靠的社会科学实验对象。它们很容易受措辞、顺序、语境甚至输出格式影响，因此在高风险应用中必须进行充分的偏差审计和稳健性验证。
我认为后续可改进的方向包括：
1. 引入多轮交互与社会网络影响，而不是把选民视为彼此独立的个体；
2. 加入更严格的校准和稳健性机制，如多提示集成、顺序随机化和一致性约束；
3. 将这一框架扩展到经济、法律、医疗等高风险领域，验证其作为“计算实验室”的普适性。