《FLOCKVOTE》 2026.3.6

38 阅读9分钟

《FLOCKVOTE: LLM-EMPOWERED AGENT-BASED MODELING FOR SIMULATING U.S. PRESIDENTIAL ELECTIONS》

📖 摘要

  本文提出 FlockVote,一个结合人口统计画像与议题上下文的 LLM 驱动代理建模框架,用于模拟美国总统选民决策;在 2024 年美国大选七个摇摆州实验中,模型较高精度复现了真实选举结果,但同时暴露出显著的偏置、提示敏感性和不稳定性问题。


一、论文基本信息

  • 论文标题:FLOCKVOTE: LLM-EMPOWERED AGENT-BASED MODELING FOR SIMULATING U.S. PRESIDENTIAL ELECTIONS
  • 作者:Lingfeng Zhou,Yi Xu,Zhenyu Wang,Dequan Wang
  • 作者机构:Shanghai Jiao Tong University,Shanghai Innovation Institute,Shanghai Academy of Social Sciences,Nanjing University
  • 出处:ICAIS 2025
  • DOI/链接:arXiv:2512.05982v1;github.com/maple-zhou/…

二、研究背景与动机

  • 问题背景
    选举预测和社会行为建模一直是计算社会科学中的重要问题。传统方法主要包括统计模型和基于规则的 Agent-Based Modeling(ABM)。统计模型擅长宏观拟合,但可解释性有限;传统 ABM 虽然具有“白盒”特征,却通常依赖启发式规则,难以描述真实选民复杂且异质的决策过程。

  • 现有方法的不足

    1. 统计模型偏黑箱:更擅长拟合相关性,不擅长揭示个体决策机制。
    2. 传统 ABM 行为过于简化:代理更多是在执行预定义规则,而不是进行情境化推理。
    3. 已有 LLM 选举模拟研究关注预测多、审计少:往往强调“预测是否准确”,却较少系统分析模型偏置、稳定性和可解释性。
  • 本文动机
    作者希望把 LLM 代理从“预测工具”推进为“计算实验室(computational laboratory)”:不仅输出谁会赢,更分析代理为什么会这么判断,并进一步审计这些 LLM 代理是否能够成为可靠的社会科学研究工具。 !

图示说明:Figure 1 对比了统计模型、传统 ABM 与本文使用的 LLM-empowered ABM。作者借此强调:FlockVote 的关键不只是预测,而是通过“人口画像 + 上下文信息 + 生成式推理”构建一个可解释的社会模拟实验平台。


三、核心方法与创新点

  • 核心思想
    FlockVote 的核心不是让模型直接预测选举结果,而是先构建一个高保真的“虚拟社会”:为每个 LLM agent 赋予细粒度人口画像,再输入候选人在关键议题上的立场,让 agent 以“一个具体选民”的身份进行生成式推理,最终输出对不同投票结果的概率分布。之后,再将大量代理的输出聚合,得到州级乃至整体选举预测结果。

  • 创新点拆解

    1. LLM + ABM 融合:把传统规则驱动代理替换成具有自然语言推理能力的 LLM 代理。
    2. 高保真人口统计画像:基于 ACS 和 U.S. Religion Census 构建代理属性,包含州、种族、性别、年龄、职业、行业、教育、宗教等 8 个关键维度。
    3. 上下文感知决策:将经济、移民、堕胎等 2024 年大选关键议题的候选人立场输入给代理,使其在具体政治语境中做决策。
    4. 概率式投票建模:代理不是输出单一类别,而是输出 Trump、Harris 和“投给其他候选人/弃权”的概率分布,更能表示不确定性。
    5. 强调可靠性审计:除了验证宏观预测外,还系统研究模型的偏差、提示敏感性和不稳定性。
  • 技术细节
    作者构建代理主要包括三步:
    (1) 人口统计建模:每州采样 1000 个代理,属性服从真实统计分布;
    (2) 议题上下文输入:围绕经济、移民、堕胎三类议题提供候选人立场;
    (3) 概率投票输出:每个代理输出一个 JSON 概率分布。

    示例响应格式如下:

    {
      "Donald Trump": 0.51,
      "Kamala Harris": 0.39,
      "vote for another candidate or not vote at all": 0.10
    }
    

    且满足:

    p1+p2+p3=1p_1 + p_2 + p_3 = 1

    从形式上看,模型学习的是一个条件决策分布:

    P(yd,c)P(y \mid d, c)

    其中,

    • dd 表示人口统计画像(demographic profile)
    • cc 表示候选人议题上下文(context information)
    • yy 表示投票概率分布

    最终州级聚合结果可表示为:

    Y^state=1Ni=1NP(yidi,c)\hat{Y}_{state} = \frac{1}{N}\sum_{i=1}^{N} P(y_i \mid d_i, c)


四、实验与结果分析

  • 数据集

    • 人口统计数据:2023 American Community Survey(ACS)、2020 U.S. Religion Census(ASARB)
    • 议题上下文数据:围绕 2024 年美国大选中最重要的三类议题——经济、移民、堕胎——整理候选人立场
    • 评测范围:7 个关键摇摆州——Arizona、Georgia、Michigan、Nevada、North Carolina、Pennsylvania、Wisconsin
  • 基线模型
    主模型为 Qwen-Max-2024-04-28;此外还比较了 GPT-4o、Claude-3.5-sonnet、Gemini-1.5-Pro、DeepSeek、Mistral、Llama3.1/3.2 等模型。作者选择 Qwen-Max 作为主模型,一个原因是希望减少美国本土模型可能带来的政治偏向。

4.1 宏观结果:预测结果与真实选举高度一致

  • 主要结论
    1. FlockVote 成功复现了 7 个摇摆州中的 6 个州的胜负结果;
    2. 唯一预测失误的是 Nevada,但预测误差仅约 0.17%
    3. 这表明框架在宏观层面能够较高保真地复现真实政治动态。 在这里插入图片描述

图示说明:Figure 2 用两张美国地图对比模型预测与真实选举结果。除 Nevada 外,其余摇摆州预测与真实结果一致,说明 FlockVote 在宏观选举结果模拟上具有较高拟合度。


4.2 微观可解释性:代理为什么这么投票

  • 定性分析
    作者不仅统计整体结果,还让代理给出“Reason”。将 Pennsylvania 州代理理由聚合后,可以看到高频词集中在 “economic”“abortion”“inflation”“immigration” 等议题上,说明代理并非机械依赖人口属性,而是在结合上下文进行推理。 在这里插入图片描述

图示说明:Figure 3 展示了 Pennsylvania 州代理给出的投票理由词云。“economic”“abortion”“inflation”“immigration”等词占据显著位置,反映出模型确实在利用候选人议题立场进行决策。

  • 进一步解释性实验
    作者还“采访”了若干代表性代理。比如,一位中年白人男性建筑从业者更支持 Trump,理由集中在通胀与移民;一位年轻黑人女性金融从业者更支持 Harris,理由则更围绕堕胎权和经济政策。
    这说明 FlockVote 相比传统黑箱统计模型,在个体层面拥有更强的解释能力。

4.3 消融实验:哪些设计是必要的

  • 代理数量稳定性
    作者在 Pennsylvania 州测试了不同代理数量(10、100、200、300、500、1000、2000)下结果的稳定性。实验发现,当代理数量达到 300 左右时,整体预测已经基本稳定,之后继续增加代理数量,波动很小。 在这里插入图片描述

图示说明:Figure 4 说明随着代理数量增加,共和党与民主党的支持率波动逐渐收敛。300 个代理后结果趋于稳定,说明样本规模已经能够支撑较稳定的州级模拟。

  • 样本覆盖性
    作者进一步展示了一个 300-agent 样本在人种和性别维度上的分布,证明即便在较小规模下,各个群体也都有机会被覆盖。 在这里插入图片描述

图示说明:Figure 5 是 Pennsylvania 州样本的 race-sex 比例图。作者借此说明 300 个代理足以覆盖主要人口群体,从而为后续稳定性分析提供支持。

  • 教育与宗教维度的重要性
    消融实验还表明,教育和宗教两个维度对预测质量非常关键。加入教育维度后,Wisconsin 的预测从错误变为正确;加入宗教维度后,模型与民调结果更一致,也缓解了模型偏向民主党的问题。

4.4 敏感性分析:模型虽然有效,但非常不稳

  • 政治偏置问题
    作者比较了不同模型在不同上下文条件下的预测,发现不少模型在“无上下文”甚至“有利于 Trump 的提示”下,仍然表现出明显的民主党偏向。

  • 模型间差异问题
    不同 LLM 对 “vote for another candidate or not vote at all” 的估计差异很大。例如,有的模型会给出较高比例的第三方/弃权票,而有的模型几乎不给这个选项概率。

  • 提示敏感性问题
    作者设计了 8 个语义基本等价、但措辞略有不同的上下文版本。结果发现,仅仅因为提示形式变化,预测支持率就出现了剧烈波动。 在这里插入图片描述

图示说明:Figure 7 展示了 8 个上下文变体下 Pennsylvania 州的预测支持率变化。仅仅是轻微措辞修改,就能让民主党支持率在较大范围内波动,这说明模型具有显著的提示敏感性。

  • 位置敏感性问题
    更极端的是,作者只交换 JSON 输出格式中两位候选人名字的顺序,就导致某些 swing agents 的偏好直接翻转。这说明模型不仅对语义敏感,甚至对输出格式位置也敏感。

五、总结与展望

  • 论文贡献
    本文最重要的贡献不只是提出了一个“可以预测”的选举模拟框架,更提出了一个可解释、可分析、可审计的 LLM 社会模拟实验平台。它证明 LLM 代理在宏观上可以较好复现复杂社会现象,但也明确揭示了这些代理作为社会科学工具时存在的根本问题:偏差、不稳定以及对提示和格式高度敏感。

  • 个人思考
    这篇文章给我最大的启发是:LLM-based social simulation 的真正价值,可能不在于替代民调,而在于成为一个可控的“假设实验平台”。研究者可以改变人口结构、政策描述、提示形式,观察结果如何变化,从而研究社会行为模型的敏感性。
    但同时,这篇论文也提醒我们,当前 LLM 代理还远不能被视作稳定、可靠的社会科学实验对象。它们很容易受措辞、顺序、语境甚至输出格式影响,因此在高风险应用中必须进行充分的偏差审计和稳健性验证。
    我认为后续可改进的方向包括:

    1. 引入多轮交互与社会网络影响,而不是把选民视为彼此独立的个体;
    2. 加入更严格的校准和稳健性机制,如多提示集成、顺序随机化和一致性约束;
    3. 将这一框架扩展到经济、法律、医疗等高风险领域,验证其作为“计算实验室”的普适性。