全新发布 | DolphinDB 策略回测专属 AI AgentDolphinDB 策略回测 Agent 采用 AI 理

上周 Anthropic 一口气发了 10 个面向金融服务的 AI Agent 模板——Pitch Builder、Earnings Reviewer、KYC Screener，直击华尔街场景。Claude Opus 4.7 在金融基准测试里也排到了行业第一。

大模型写代码的能力确实强，但在量化回测这个场景里，光靠大模型直接生成代码还不够稳。所以 DolphinDB 推出了「DolphinDB 策略回测 Agent」——用户用自然语言描述交易想法，系统自动理解策略、完成校验修复、生成 DolphinDB 回测代码并输出结果。

和一般 Agent 不同，它的核心不是让大模型写代码，而是走"AI 理解意图 + 工程保证执行"的架构路线。

一、AI 直接写回测代码，三个绕不过的坑

直接让大模型写回测脚本，会遇到三个躲不开的问题。

第一个坑：隐性约束太多了。 回测 DSL 涉及表结构、字段命名、因子订阅、回调函数、撮合模式、分钟频数据加载、复权处理——这些细节全部让模型自由发挥，策略越复杂越容易漏掉关键约束。实际测试中，模型的典型错误包括编造不存在的字段名（字段幻觉）、搞混内部变量命名规则、分钟频策略误用日频数据导致前视偏差。单靠优化提示词很难根治。

第二个坑：正确性没法自动判断。 语法对、能运行，不意味着逻辑对。日频数据和分钟频数据混用、因子计算时序错位——这些问题在回测脚本里很难自动化检测。出了错，你甚至分不清是用户描述的问题、模型理解的问题，还是代码生成的细节问题。

第三个坑：维护成本扛不住。 自由生成意味着风格不统一，没法做规则校验、版本对比和问题复盘。今天跑通的策略，换个说法再生成一次，可能就换了一套实现。

这三个问题指向同一个结论——让 AI 直接写代码的路走不通。所以 DolphinDB 做了一个关键决策：AI 不直接写最终代码。

二、让 AI 写"说明书"，不写执行码

整套链路是这样的：

方案底层兼容 DeepSeek、Qwen 等多种模型，大模型的工作生成一份结构化的 JSON——一份"策略说明书"，人能读懂，系统也能检查。以双均线策略为例，用户输入：

招商银行 5 日均线上穿 20 日均线买入，下穿时卖出，回测 2025 年 3 月到 2026 年 2 月。

系统生成的策略 JSON 如下：

{
  "strategy_type": "signal",
  "start_date": "2025.03.01",
  "end_date": "2026.02.28",
  "stock_pool": ["600036.SH"],
  "frequency": "daily",
  "initial_capital": 1000000,
  "indicators": {
    "ma5": "mavg(close,5)",
    "ma20": "mavg(close,20)",
    "golden_cross": "CROSS_(ma5,ma20)",
    "dead_cross": "CROSS_(ma20,ma5)"
  },
  "buy_condition": [{"signal": "golden_cross && pos==0"}],
  "sell_condition": [{"signal": "dead_cross && pos>0"}]
}

这份 JSON 比自然语言更精确，比自由代码更易检查。字段有 schema 约束，窗口函数放错位置会被校验层拦截，表达式里的变量引用可以自动校验。

围绕这套中间层，实际落地时还加了两个关键设计：

分层 Prompt。 按策略模式动态加载对应的规则描述——日频策略不需要了解分钟频的专属配置。Prompt 长度减少 40%，模型混淆率明显下降。

自动修复 + AI 迭代校验。 模型输出 JSON 后，系统先做确定性规则修复（标准化字段别名、日期格式、变量命名），对更复杂的语义问题（函数用法、字段引用、前视偏差），再把检测结果反馈给模型做第二轮修正。从"一次生成"变成"生成→校验→修复→再校验"的闭环。

校验通过之后，再由模板引擎确定性生成最终的回测脚本。用模型做理解和表达，用工程做约束和执行。 各干各的，不跨界。

三、效果说话：通过率从 84% 提到 99%

DolphinDB 用 20 个基准策略做了测试验证，覆盖从简到繁的主要策略类型：

在引入分层 Prompt 和自动修复闭环之后，两种模型的测试结果更加直观：

DeepSeek V3.2：基准 84% → 优化后 99%
Qwen 3.5-plus：基准 93% → 优化后 100%

核心结论很明确：工程架构是 AI 应用的兜底保障。强模型可能凭自身能力拿到不错的表现，但对绝大多数场景来说，单一的 Prompt 无法保证可靠性，系统级的校验和修复才是更有效的手段。

DolphinDB 下一阶段的目标是从"能跑通"转向"跑得稳"——目前已在推进 5 轮结果一致性校验，确保同一策略在多次执行中收益率、交易明细完全一致。品种覆盖上，当前已支持股票和基金，后续将持续扩展至国债期货、债券等更多品种。

四、不只量化回测，更是一种 AI 工程范式

回看这套方案的设计思路，最有价值的其实不只是"自然语言生成回测"这个功能，而是背后的工程范式：

自然语言 → 结构化中间表示 → 规则校验 → 确定性执行 → 结果复盘

让 AI 只做它擅长的事——理解和表达；剩下的校验、生成、执行，全部交给确定性的工程系统。这个思路不限于量化回测，报表生成、数据查询、风控规则配置——只要是需要 AI 输出精准可靠的企业场景，都可以复用这套架构。