最近一年,网上关于“AI 会不会算命”的内容很多,但大部分都停留在截图、对话、主观感受这个层面:你给模型一段八字,它回你一大段分析,然后大家凭感觉判断“像不像”“准不准”。
这个玩法很热闹,但对研究没什么帮助。因为它没有标准答案,也没有统一输入,更没法横向比较不同模型。最后你很难回答一个最基本的问题:模型到底是在推理,还是只是在生成一段“看起来很像懂了”的话。
所以我们做了一件更“笨”但也更扎实的事:把这件事做成一个 benchmark,在arxiv上挂了一篇论文BaziQA-Benchmark。
从大模型研究的角度看,八字推理其实不是一个“猎奇题材”,它更像是一个天然存在的、规则明确但又高度组合化的符号系统。
它有固定符号,有层级关系,有时间变化,还有多条件叠加。模型面对的不是开放闲聊,而是在一个结构明确的上下文里做判断。这个任务很适合拿来测两类能力:一类是符号推理能力,另一类是时间组合推理能力。BaziQA-Benchmark 论文也是用这两个关键词来定义这个任务的。
数据集是怎么来的
我们做的 benchmark 叫 BaziQA。核心 benchmark 部分来自 2021 到 2025 年全球专业命理竞赛的官方题目,一共 200 道四选一选择题。每一题都不是让模型自由发挥,而是给出固定命盘信息之后,让模型回答具体问题,比如婚姻、事业、家境、健康、时间节点判断之类,而且都有标准答案。
为了尽量把评测目标收束在“推理”本身,我们没有把历法换算、排盘步骤混进评测里。所有模型拿到的输入都是统一的:四柱、十神、大运、流年等信息先被整理成一致格式,模型只负责理解和判断。换句话说,这不是在比谁会“排盘”,而是在比谁能在同一套符号上下文里做更稳的推断。
所有题目都是四选一,这意味着随机基线非常明确,就是 25%。只要模型成绩显著高于 25%,就说明它不是纯靠蒙;但如果成绩离 50% 还很远,也说明它离真正稳定掌握这种推理还差得很远。这个设定比开放生成更干净,也更适合做误差分析。
另外,BaziQA 采用的是 multi-turn 设定:同一位命主的固定命盘上下文先给一次,然后模型围绕这份上下文连续回答 5 个问题,中途拿不到正确答案反馈。这个设定更接近真实分析场景,也能观察模型在持续推理中的一致性,而不是一题一题重新开局。题目覆盖面也很广,主要领域包括:事业、财富、感情、家庭、健康、性格、学业、流年分析和综合推断。
真正有意思的地方来了:AI 和真人命理师的差距,并没有很多人想象得那么大
这项研究最抓人的地方,不只是“大模型能答对多少题”,而是它第一次把 AI 和真人命理竞赛选手 放在同一个标准化框架里比较。
先看公开的人机对比数据。下表中的“最强通用 AI”,取的是每一年的最佳通用模型表现:
| 年份 | 最强通用 AI | AI 准确率 | 竞赛冠军 | 竞赛亚军 | 竞赛季军 |
|---|---|---|---|---|---|
| 2025 | DeepSeek-V3 | 37.0% | 50.0% | 47.5% | 45.0% |
| 2024 | Gemini-3-Pro | 38.5% | 50.0% | 47.5% | 45.0% |
| 2023 | GPT-5.1 | 36.0% | 37.5% | 35.0% | 32.5% |
| 2022 | DeepSeek-V3 | 36.0% | 40.0% | 37.5% | 35.0% |
| 2021 | DeepSeek-V3 | 37.0% | — | — | — |
这组数据里,最有冲击力的是 2023 年。这一年,GPT-5.1 做到了 36.0%。 而当年竞赛冠军是 37.5%,季军是 32.5%。
也就是说:
- AI 已经超过季军
- 距离冠军只差 1.5 个百分点
2022 年也很接近。DeepSeek-V3 是 36.0%,季军 35.0%,亚军 37.5%。 它没有夺冠,但已经进入了非常明显的“强手区间”。 这件事的意义,不是“AI 已经会算命了”。真正的意义是:
在一个连真人冠军都只有 37.5% 到 50% 准确率的高难度赛道上,AI 已经不是旁观者,而是能被认真比较、认真分析、认真优化的参赛者。
模型为什么会错?
论文和实验报告给出的结论很明确:这些模型整体上都显著高于随机基线,但依然远未饱和;它们对时间组合关系和推理顺序高度敏感,在精确时间定位和多条件符号判断上存在系统性失败。它说明问题不只是“知识量不够”,也不只是“命理样本太少”,而是模型在这类任务里经常会犯一种更典型的错误:
它知道一些规则,但不会稳定地组织这些规则。
换句话说,很多时候模型不是完全不会,而是推理路径不稳。该先看全局结构的时候,它直接跳到事件;该先分清主次力量的时候,它已经开始下结论; 最后输出出来的文字看起来很完整,但过程是断裂的。
所以我们提出了 SRP:不是加知识,而是约束推理顺序
为了解决这个问题,研究里提出了一套 Structured Reasoning Protocol(SRP)。
整个协议分三步:
- 全局扫描:先看五行平衡、日主强弱、整体格局,不急着下结论。
- 力量排序:放到当前时间背景下,找出真正起主导作用的力量,判断主次和轻重。
- 事件推断:最后再把核心作用力映射到具体的人生事件上。
这个协议本质上是在做一件事:把命理师原本隐性的、经验化的判断流程,压缩成一个可以执行、可以复现、可以被模型遵守的推理顺序。 SRP 的价值不在“它让模型写得更长”,而在“它让模型少跳步”。
如果只看公开 benchmark 报告中的跨年总体平均,SRP 对通用模型的提升是小幅正向的:
| 模型 | 方法 | 平均准确率 |
|---|---|---|
| DeepSeek-Chat-V3 | Multi-turn | 36.7% |
| DeepSeek-Chat-V3 | Structured | 38.0% |
| DeepSeek-R1 | Multi-turn | 34.1% |
| DeepSeek-R1 | Structured | 35.0% |
| GPT-5.1-Chat | Multi-turn | 32.5% |
| Gemini-2.5-Flash | Multi-turn | 32.4% |
| Gemini-3-Pro | Multi-turn | 32.1% |
这说明 SRP 不是魔法,它不会一下子把模型抬到“接近满分”; 但它的确抓住了问题核心:推理顺序会显著影响结果。 如果继续看更细的任务维度,SRP 的价值会更明显。
- 流年分析:+8 到 +10 个百分点
- 感情推断:+3 到 +14 个百分点
- 事业推断:最高 +15 个百分点
- 学业推断:最高 +30 个百分点
如果说前面的结果证明了通用模型“已经接近真人强手区间”,那后面的 SRP 引擎结果则更进一步,它开始在多个年份里直接超过真人季军。
对比如下:
| 年份 | SRP 引擎 | 最强通用 AI | 竞赛冠军 | 竞赛季军 |
|---|---|---|---|---|
| 2025 | 42.0% | 37.0% | 50.0% | 45.0% |
| 2024 | 34.5% | 38.5% | 50.0% | 45.0% |
| 2023 | 34.5% | 36.0% | 37.5% | 32.5% |
| 2022 | 37.5% | 36.0% | 40.0% | 35.0% |
| 2021 | 39.0% | 37.0% | — | — |
几个结论一眼就能看出来:
- 2022 年,SRP 引擎 37.5%,超过季军 35.0%,追平亚军
- 2023 年,SRP 引擎 34.5%,超过季军 32.5%
- 2025 年,SRP 引擎 42.0%,比最强通用 AI 高 5 个百分点
- 五年平均,SRP 引擎 37.5%,稳定领先通用 AI
后续
后续测评在BaziQA live benchmark 也有同步更新最新大模型的八字命理推理能力。
并将底层推理能力包装成一款AI命理陪伴产品 AuraMate灵伴,欢迎试用。
参考资料
-
BaziQA-Benchmark 论文
arxiv.org/abs/2602.12… -
BaziQA 开源仓库
github.com/ChenJiangxi… -
AuraMate 研究文章:AI 在传统干支推理任务上的表现已接近人类专家
auramate.net/article/ai-… -
AuraMate 实时评测
auramate.net/benchmark