AI 真的会“算命”吗?我们做了一个 Benchmark,结果有点意外

0 阅读7分钟

最近一年,网上关于“AI 会不会算命”的内容很多,但大部分都停留在截图、对话、主观感受这个层面:你给模型一段八字,它回你一大段分析,然后大家凭感觉判断“像不像”“准不准”。

这个玩法很热闹,但对研究没什么帮助。因为它没有标准答案,也没有统一输入,更没法横向比较不同模型。最后你很难回答一个最基本的问题:模型到底是在推理,还是只是在生成一段“看起来很像懂了”的话。

所以我们做了一件更“笨”但也更扎实的事:把这件事做成一个 benchmark,在arxiv上挂了一篇论文BaziQA-Benchmark

截屏2026-03-15 02.09.42.png

从大模型研究的角度看,八字推理其实不是一个“猎奇题材”,它更像是一个天然存在的、规则明确但又高度组合化的符号系统。

它有固定符号,有层级关系,有时间变化,还有多条件叠加。模型面对的不是开放闲聊,而是在一个结构明确的上下文里做判断。这个任务很适合拿来测两类能力:一类是符号推理能力,另一类是时间组合推理能力。BaziQA-Benchmark 论文也是用这两个关键词来定义这个任务的。

数据集是怎么来的

我们做的 benchmark 叫 BaziQA。核心 benchmark 部分来自 2021 到 2025 年全球专业命理竞赛的官方题目,一共 200 道四选一选择题。每一题都不是让模型自由发挥,而是给出固定命盘信息之后,让模型回答具体问题,比如婚姻、事业、家境、健康、时间节点判断之类,而且都有标准答案。

为了尽量把评测目标收束在“推理”本身,我们没有把历法换算、排盘步骤混进评测里。所有模型拿到的输入都是统一的:四柱、十神、大运、流年等信息先被整理成一致格式,模型只负责理解和判断。换句话说,这不是在比谁会“排盘”,而是在比谁能在同一套符号上下文里做更稳的推断。

所有题目都是四选一,这意味着随机基线非常明确,就是 25%。只要模型成绩显著高于 25%,就说明它不是纯靠蒙;但如果成绩离 50% 还很远,也说明它离真正稳定掌握这种推理还差得很远。这个设定比开放生成更干净,也更适合做误差分析。

另外,BaziQA 采用的是 multi-turn 设定:同一位命主的固定命盘上下文先给一次,然后模型围绕这份上下文连续回答 5 个问题,中途拿不到正确答案反馈。这个设定更接近真实分析场景,也能观察模型在持续推理中的一致性,而不是一题一题重新开局。题目覆盖面也很广,主要领域包括:事业、财富、感情、家庭、健康、性格、学业、流年分析和综合推断。

真正有意思的地方来了:AI 和真人命理师的差距,并没有很多人想象得那么大

这项研究最抓人的地方,不只是“大模型能答对多少题”,而是它第一次把 AI 和真人命理竞赛选手 放在同一个标准化框架里比较。

先看公开的人机对比数据。下表中的“最强通用 AI”,取的是每一年的最佳通用模型表现:

年份最强通用 AIAI 准确率竞赛冠军竞赛亚军竞赛季军
2025DeepSeek-V337.0%50.0%47.5%45.0%
2024Gemini-3-Pro38.5%50.0%47.5%45.0%
2023GPT-5.136.0%37.5%35.0%32.5%
2022DeepSeek-V336.0%40.0%37.5%35.0%
2021DeepSeek-V337.0%

这组数据里,最有冲击力的是 2023 年。这一年,GPT-5.1 做到了 36.0%。 而当年竞赛冠军是 37.5%,季军是 32.5%
也就是说:

  • AI 已经超过季军
  • 距离冠军只差 1.5 个百分点

2022 年也很接近。DeepSeek-V3 是 36.0%,季军 35.0%,亚军 37.5%。 它没有夺冠,但已经进入了非常明显的“强手区间”。 这件事的意义,不是“AI 已经会算命了”。真正的意义是:
在一个连真人冠军都只有 37.5% 到 50% 准确率的高难度赛道上,AI 已经不是旁观者,而是能被认真比较、认真分析、认真优化的参赛者。

模型为什么会错?

论文和实验报告给出的结论很明确:这些模型整体上都显著高于随机基线,但依然远未饱和;它们对时间组合关系推理顺序高度敏感,在精确时间定位和多条件符号判断上存在系统性失败。它说明问题不只是“知识量不够”,也不只是“命理样本太少”,而是模型在这类任务里经常会犯一种更典型的错误:

它知道一些规则,但不会稳定地组织这些规则。

换句话说,很多时候模型不是完全不会,而是推理路径不稳。该先看全局结构的时候,它直接跳到事件;该先分清主次力量的时候,它已经开始下结论; 最后输出出来的文字看起来很完整,但过程是断裂的。

所以我们提出了 SRP:不是加知识,而是约束推理顺序

为了解决这个问题,研究里提出了一套 Structured Reasoning Protocol(SRP)

整个协议分三步:

  • 全局扫描:先看五行平衡、日主强弱、整体格局,不急着下结论。
  • 力量排序:放到当前时间背景下,找出真正起主导作用的力量,判断主次和轻重。
  • 事件推断:最后再把核心作用力映射到具体的人生事件上。

这个协议本质上是在做一件事:把命理师原本隐性的、经验化的判断流程,压缩成一个可以执行、可以复现、可以被模型遵守的推理顺序。 SRP 的价值不在“它让模型写得更长”,而在“它让模型少跳步”。

如果只看公开 benchmark 报告中的跨年总体平均,SRP 对通用模型的提升是小幅正向的:

模型方法平均准确率
DeepSeek-Chat-V3Multi-turn36.7%
DeepSeek-Chat-V3Structured38.0%
DeepSeek-R1Multi-turn34.1%
DeepSeek-R1Structured35.0%
GPT-5.1-ChatMulti-turn32.5%
Gemini-2.5-FlashMulti-turn32.4%
Gemini-3-ProMulti-turn32.1%

这说明 SRP 不是魔法,它不会一下子把模型抬到“接近满分”; 但它的确抓住了问题核心:推理顺序会显著影响结果。 如果继续看更细的任务维度,SRP 的价值会更明显。

  • 流年分析:+8 到 +10 个百分点
  • 感情推断:+3 到 +14 个百分点
  • 事业推断:最高 +15 个百分点
  • 学业推断:最高 +30 个百分点

如果说前面的结果证明了通用模型“已经接近真人强手区间”,那后面的 SRP 引擎结果则更进一步,它开始在多个年份里直接超过真人季军

对比如下:

年份SRP 引擎最强通用 AI竞赛冠军竞赛季军
202542.0%37.0%50.0%45.0%
202434.5%38.5%50.0%45.0%
202334.5%36.0%37.5%32.5%
202237.5%36.0%40.0%35.0%
202139.0%37.0%

几个结论一眼就能看出来:

  • 2022 年,SRP 引擎 37.5%,超过季军 35.0%,追平亚军
  • 2023 年,SRP 引擎 34.5%,超过季军 32.5%
  • 2025 年,SRP 引擎 42.0%,比最强通用 AI 高 5 个百分点
  • 五年平均,SRP 引擎 37.5%,稳定领先通用 AI

后续

后续测评在BaziQA live benchmark 也有同步更新最新大模型的八字命理推理能力。

截屏2026-03-14 23.53.29.png 并将底层推理能力包装成一款AI命理陪伴产品 AuraMate灵伴,欢迎试用。

截屏2026-03-14 23.51.20.png

参考资料