AI 真的会“算命”吗？我们做了一个 Benchmark，结果有点意外对大模型在八字推理任务中的表现进行了系统分析。通过

最近一年，网上关于“AI 会不会算命”的内容很多，但大部分都停留在截图、对话、主观感受这个层面：你给模型一段八字，它回你一大段分析，然后大家凭感觉判断“像不像”“准不准”。

这个玩法很热闹，但对研究没什么帮助。因为它没有标准答案，也没有统一输入，更没法横向比较不同模型。最后你很难回答一个最基本的问题：模型到底是在推理，还是只是在生成一段“看起来很像懂了”的话。

所以我们做了一件更“笨”但也更扎实的事：把这件事做成一个 benchmark，在arxiv上挂了一篇论文BaziQA-Benchmark。

截屏2026-03-15 02.09.42.png

从大模型研究的角度看，八字推理其实不是一个“猎奇题材”，它更像是一个天然存在的、规则明确但又高度组合化的符号系统。

它有固定符号，有层级关系，有时间变化，还有多条件叠加。模型面对的不是开放闲聊，而是在一个结构明确的上下文里做判断。这个任务很适合拿来测两类能力：一类是符号推理能力，另一类是时间组合推理能力。BaziQA-Benchmark 论文也是用这两个关键词来定义这个任务的。

数据集是怎么来的

我们做的 benchmark 叫 BaziQA。核心 benchmark 部分来自 2021 到 2025 年全球专业命理竞赛的官方题目，一共 200 道四选一选择题。每一题都不是让模型自由发挥，而是给出固定命盘信息之后，让模型回答具体问题，比如婚姻、事业、家境、健康、时间节点判断之类，而且都有标准答案。

为了尽量把评测目标收束在“推理”本身，我们没有把历法换算、排盘步骤混进评测里。所有模型拿到的输入都是统一的：四柱、十神、大运、流年等信息先被整理成一致格式，模型只负责理解和判断。换句话说，这不是在比谁会“排盘”，而是在比谁能在同一套符号上下文里做更稳的推断。

所有题目都是四选一，这意味着随机基线非常明确，就是 25%。只要模型成绩显著高于 25%，就说明它不是纯靠蒙；但如果成绩离 50% 还很远，也说明它离真正稳定掌握这种推理还差得很远。这个设定比开放生成更干净，也更适合做误差分析。

另外，BaziQA 采用的是 multi-turn 设定：同一位命主的固定命盘上下文先给一次，然后模型围绕这份上下文连续回答 5 个问题，中途拿不到正确答案反馈。这个设定更接近真实分析场景，也能观察模型在持续推理中的一致性，而不是一题一题重新开局。题目覆盖面也很广，主要领域包括：事业、财富、感情、家庭、健康、性格、学业、流年分析和综合推断。

真正有意思的地方来了：AI 和真人命理师的差距，并没有很多人想象得那么大

这项研究最抓人的地方，不只是“大模型能答对多少题”，而是它第一次把 AI 和真人命理竞赛选手 放在同一个标准化框架里比较。

先看公开的人机对比数据。下表中的“最强通用 AI”，取的是每一年的最佳通用模型表现：

年份	最强通用 AI	AI 准确率	竞赛冠军	竞赛亚军	竞赛季军
2025	DeepSeek-V3	37.0%	50.0%	47.5%	45.0%
2024	Gemini-3-Pro	38.5%	50.0%	47.5%	45.0%
2023	GPT-5.1	36.0%	37.5%	35.0%	32.5%
2022	DeepSeek-V3	36.0%	40.0%	37.5%	35.0%
2021	DeepSeek-V3	37.0%	—	—	—

这组数据里，最有冲击力的是 2023 年。这一年，GPT-5.1 做到了 36.0%。而当年竞赛冠军是 37.5%，季军是 32.5%。
也就是说：

AI 已经超过季军
距离冠军只差 1.5 个百分点

2022 年也很接近。DeepSeek-V3 是 36.0%，季军 35.0%，亚军 37.5%。它没有夺冠，但已经进入了非常明显的“强手区间”。这件事的意义，不是“AI 已经会算命了”。真正的意义是：
在一个连真人冠军都只有 37.5% 到 50% 准确率的高难度赛道上，AI 已经不是旁观者，而是能被认真比较、认真分析、认真优化的参赛者。

模型为什么会错？

论文和实验报告给出的结论很明确：这些模型整体上都显著高于随机基线，但依然远未饱和；它们对时间组合关系和推理顺序高度敏感，在精确时间定位和多条件符号判断上存在系统性失败。它说明问题不只是“知识量不够”，也不只是“命理样本太少”，而是模型在这类任务里经常会犯一种更典型的错误：

它知道一些规则，但不会稳定地组织这些规则。

换句话说，很多时候模型不是完全不会，而是推理路径不稳。该先看全局结构的时候，它直接跳到事件；该先分清主次力量的时候，它已经开始下结论；最后输出出来的文字看起来很完整，但过程是断裂的。

所以我们提出了 SRP：不是加知识，而是约束推理顺序

为了解决这个问题，研究里提出了一套 Structured Reasoning Protocol（SRP）。

整个协议分三步：

全局扫描：先看五行平衡、日主强弱、整体格局，不急着下结论。
力量排序：放到当前时间背景下，找出真正起主导作用的力量，判断主次和轻重。
事件推断：最后再把核心作用力映射到具体的人生事件上。

这个协议本质上是在做一件事：把命理师原本隐性的、经验化的判断流程，压缩成一个可以执行、可以复现、可以被模型遵守的推理顺序。 SRP 的价值不在“它让模型写得更长”，而在“它让模型少跳步”。

如果只看公开 benchmark 报告中的跨年总体平均，SRP 对通用模型的提升是小幅正向的：

模型	方法	平均准确率
DeepSeek-Chat-V3	Multi-turn	36.7%
DeepSeek-Chat-V3	Structured	38.0%
DeepSeek-R1	Multi-turn	34.1%
DeepSeek-R1	Structured	35.0%
GPT-5.1-Chat	Multi-turn	32.5%
Gemini-2.5-Flash	Multi-turn	32.4%
Gemini-3-Pro	Multi-turn	32.1%

这说明 SRP 不是魔法，它不会一下子把模型抬到“接近满分”；但它的确抓住了问题核心：推理顺序会显著影响结果。 如果继续看更细的任务维度，SRP 的价值会更明显。

流年分析：+8 到 +10 个百分点
感情推断：+3 到 +14 个百分点
事业推断：最高 +15 个百分点
学业推断：最高 +30 个百分点

如果说前面的结果证明了通用模型“已经接近真人强手区间”，那后面的 SRP 引擎结果则更进一步，它开始在多个年份里直接超过真人季军。

对比如下：

年份	SRP 引擎	最强通用 AI	竞赛冠军	竞赛季军
2025	42.0%	37.0%	50.0%	45.0%
2024	34.5%	38.5%	50.0%	45.0%
2023	34.5%	36.0%	37.5%	32.5%
2022	37.5%	36.0%	40.0%	35.0%
2021	39.0%	37.0%	—	—

几个结论一眼就能看出来：

2022 年，SRP 引擎 37.5%，超过季军 35.0%，追平亚军
2023 年，SRP 引擎 34.5%，超过季军 32.5%
2025 年，SRP 引擎 42.0%，比最强通用 AI 高 5 个百分点
五年平均，SRP 引擎 37.5%，稳定领先通用 AI

后续

后续测评在BaziQA live benchmark 也有同步更新最新大模型的八字命理推理能力。

截屏2026-03-14 23.53.29.png 并将底层推理能力包装成一款AI命理陪伴产品 AuraMate灵伴，欢迎试用。

截屏2026-03-14 23.51.20.png

参考资料

BaziQA-Benchmark 论文
arxiv.org/abs/2602.12…
BaziQA 开源仓库
github.com/ChenJiangxi…
AuraMate 研究文章：AI 在传统干支推理任务上的表现已接近人类专家
auramate.net/article/ai-…
AuraMate 实时评测
auramate.net/benchmark