LLM 的复杂符号推理极限在哪?AuraMate 八字命理大模型 Benchmark 与 Harness Engineering 实践

3 阅读5分钟

引言

随着 GPT-6、Claude 4.6 以及国内 Qwen、DeepSeek 等大模型的爆发,我们对 LLM 评估的焦点已经从早期的语言理解(NLP)转向了复杂推理(Complex Reasoning)。目前主流的推理 Benchmark 多集中在数学(MATH)、代码(HumanEval)或常识逻辑上。

然而,我们团队在开发 AuraMate 灵伴 的过程中发现,东方传统命理学(尤其是“八字 Bazi”),其实是一个极为绝佳的复杂符号逻辑与多步推理的 Testbed(试验田)

它有一套严密的公理系统(阴阳五行、天干地支)、极度复杂的交互规则(刑、冲、合、害),以及从微观计算到宏观模式匹配的庞大状态机。为了系统性地衡量大模型在这一领域的真实能力,我们开源并发布了针对命理推理的基准测试:

本文将跳出玄学本身,从纯技术的角度,和大家探讨如何为这样一个垂直且规则复杂的领域,构建一套高可用的 Evaluation Harness(评测框架工程)


一、 为什么“八字”是绝佳的 LLM 推理 Benchmark?

在技术视角下,八字排盘与批算不是玄学,而是一个**多跳图谱推理(Multi-hop Graph Reasoning)约束求解(Constraint Satisfaction)**问题。

  1. 高维度的状态空间: 基础输入只有出生时间,但要转换为“四柱八个字”,再衍生出大运、流年,背后涉及历法转换和干支纪年法的精确计算(LLM 极易在此发生幻觉)。
  2. 复杂的相互作用(Interactions): 干支之间存在“生克制化”。例如“申子辰合化水”,这要求模型不仅要识别实体(Entity Recognition),还要判断条件触发(Condition Triggering),并在上下文中更新实体状态(State Tracking)。
  3. 防作弊属性: 传统的常识推理数据集存在严重的“刷榜(Data Contamination)”嫌疑。而命理盘的组合多达 50 多万种,且流年流月动态变化,模型几乎不可能通过简单的记忆(Memorization)来蒙混过关,必须依赖真正的 In-Context Reasoning(上下文推理)

二、 Harness Engineering:构建命理评测的“脚手架”

“评测大模型”往往比“微调大模型”更难。在 AuraMate,我们发现直接扔一段八字让大模型“算一算”是无法定量评估的,必须进行严谨的 Harness Engineering。我们将这项工程拆解为三个核心模块:

1. Task Decomposition (任务解构与分级)

我们将黑盒的命理推理拆解为难度递进的三个层级(Level 1-3),以精准定位模型的“智力瓶颈”:

  • L1 符号计算与排盘 (Symbolic Calculation):
    • 任务: 给定公历时间,要求输出正确的八字、大运起排时间。
    • 难点: LLM 对节气的精确时间边界极其不敏感,这考验模型的日历工具调用(Tool Use)能力或内在时空常识。
  • L2 规则触发与图谱提取 (Rule-based Graph Extraction):
    • 任务: 找出给定八字中的“地支三合”、“天干相冲”等特定关系,并判断力量强弱(旺衰)。
    • 难点: 测试模型的局部逻辑自洽性和多步条件判断能力。
  • L3 全局模式识别 (Global Pattern Recognition):
    • 任务: 综合判定“格局”与“用神(核心关键点)”。
    • 难点: 类似于给一段复杂的代码找 Bug,需要模型具备全局视角和权重平衡能力(Weight Balancing)。

2. Prompt & Ground Truth Engineering (提示词与基准真相构建)

  • 标准化输入: 为了避免不同 Prompt 对模型性能的干扰,我们统一采用了结构化的 JSON 格式输入盘面信息,剥离了自然语言的模糊性。
  • CoT (Chain of Thought) 约束: 在评测框架中,我们强制模型在输出最终答案前,必须按照“提取干支 -> 检索规则 -> 判断条件 -> 输出结论”的步骤生成推理轨迹(Reasoning Trace)。
  • 客观化 Ground Truth: 我们依靠 AuraMate 内部经过严格测试的代码级命理引擎(Deterministic Rules Engine)生成绝对正确的 L1/L2 答案,作为评测的 Ground Truth。

3. Metric Evaluation (指标度量设计)

传统的 NLP 指标(如 BLEU, ROUGE)在此完全失效。我们的 Harness 采用了混合评价体系:

  • Exact Match (EM): 针对 L1 和部分 L2 任务,答案必须 100% 匹配。一个干支算错,后续全错。
  • LLM-as-a-Judge (高阶模型作为裁判): 针对 L3 的定局分析,我们采用 GPT-4o / Claude 3.5 Sonnet 作为裁判,依据我们设定的“命理打分 Rubric”,评估候选模型的推理链条是否合乎逻辑,即使最终结论不同,只要逻辑链条完备也能获得部分分数。

三、 Live Benchmark:我们在评测中发现了什么?

AuraMate AI Bazi Reasoning Benchmark 中,我们对当前主流的大模型进行了跑分(详细榜单见我们的 Live Benchmark 页面)。分享几个有趣的 Engineering Insights:

  1. “偏科”现象严重: 某些在编程榜单上霸榜的模型,在处理天干地支的“刑冲合害”时,竟然出现了严重的规则混淆(比如把“申子辰”记成了“申酉戌”)。这说明大模型的内部知识图谱在非西方的长尾领域存在严重断层。
  2. Context Window 的陷阱: 当我们将流年流月的复杂交互全部塞进 Prompt 时,许多模型出现了典型的 "Lost in the Middle" 现象,遗忘了原局的初始设定。
  3. 中文模型的局部优势: 国内的头部开源模型(如 DeepSeek, Qwen)在不需要过多 Few-shot 提示的情况下,对命理专有名词的理解(Zero-shot)显著优于部分海外闭源模型。
  4. Scaling Law 在此依然有效: 模型参数量越大,其在 L2/L3 这种多跳推理中的错误率呈现明显的对数下降趋势。

四、 结语与讨论

AuraMate 团队致力于将最前沿的 AI 技术与传统文化进行深度结合与工程化落地。构建这个 Benchmark 及 Harness 体系,不仅仅是为了“赛博算命”,更是希望为开源社区提供一个检验大模型在复杂规则下长程推理能力的全新试金石。

欢迎大家访问我们的站点查看完整报告和实时榜单: