全新发布 | DolphinDB 策略回测专属 AI Agent

20 阅读5分钟

上周 Anthropic 一口气发了 10 个面向金融服务的 AI Agent 模板——Pitch Builder、Earnings Reviewer、KYC Screener,直击华尔街场景。Claude Opus 4.7 在金融基准测试里也排到了行业第一。

大模型写代码的能力确实强,但在量化回测这个场景里,光靠大模型直接生成代码还不够稳。所以 DolphinDB 推出了「DolphinDB 策略回测 Agent」——用户用自然语言描述交易想法,系统自动理解策略、完成校验修复、生成 DolphinDB 回测代码并输出结果。

和一般 Agent 不同,它的核心不是让大模型写代码,而是走"AI 理解意图 + 工程保证执行"的架构路线。

图片

一、AI 直接写回测代码,三个绕不过的坑

直接让大模型写回测脚本,会遇到三个躲不开的问题。

第一个坑:隐性约束太多了。 回测 DSL 涉及表结构、字段命名、因子订阅、回调函数、撮合模式、分钟频数据加载、复权处理——这些细节全部让模型自由发挥,策略越复杂越容易漏掉关键约束。实际测试中,模型的典型错误包括编造不存在的字段名(字段幻觉)、搞混内部变量命名规则、分钟频策略误用日频数据导致前视偏差。单靠优化提示词很难根治。

图片

第二个坑:正确性没法自动判断。 语法对、能运行,不意味着逻辑对。日频数据和分钟频数据混用、因子计算时序错位——这些问题在回测脚本里很难自动化检测。出了错,你甚至分不清是用户描述的问题、模型理解的问题,还是代码生成的细节问题。

第三个坑:维护成本扛不住。 自由生成意味着风格不统一,没法做规则校验、版本对比和问题复盘。今天跑通的策略,换个说法再生成一次,可能就换了一套实现。

这三个问题指向同一个结论——让 AI 直接写代码的路走不通。所以 DolphinDB 做了一个关键决策:AI 不直接写最终代码。

二、让 AI 写"说明书",不写执行码

整套链路是这样的:

图片

方案底层兼容 DeepSeek、Qwen 等多种模型,大模型的工作生成一份结构化的 JSON——一份"策略说明书",人能读懂,系统也能检查。以双均线策略为例,用户输入:

招商银行 5 日均线上穿 20 日均线买入,下穿时卖出,回测 2025 年 3 月到 2026 年 2 月。

系统生成的策略 JSON 如下:

{
  "strategy_type": "signal",
  "start_date": "2025.03.01",
  "end_date": "2026.02.28",
  "stock_pool": ["600036.SH"],
  "frequency": "daily",
  "initial_capital": 1000000,
  "indicators": {
    "ma5": "mavg(close,5)",
    "ma20": "mavg(close,20)",
    "golden_cross": "CROSS_(ma5,ma20)",
    "dead_cross": "CROSS_(ma20,ma5)"
  },
  "buy_condition": [{"signal": "golden_cross && pos==0"}],
  "sell_condition": [{"signal": "dead_cross && pos>0"}]
}

这份 JSON 比自然语言更精确,比自由代码更易检查。字段有 schema 约束,窗口函数放错位置会被校验层拦截,表达式里的变量引用可以自动校验。

围绕这套中间层,实际落地时还加了两个关键设计:

分层 Prompt。 按策略模式动态加载对应的规则描述——日频策略不需要了解分钟频的专属配置。Prompt 长度减少 40%,模型混淆率明显下降。

自动修复 + AI 迭代校验。 模型输出 JSON 后,系统先做确定性规则修复(标准化字段别名、日期格式、变量命名),对更复杂的语义问题(函数用法、字段引用、前视偏差),再把检测结果反馈给模型做第二轮修正。从"一次生成"变成"生成→校验→修复→再校验"的闭环。

校验通过之后,再由模板引擎确定性生成最终的回测脚本。用模型做理解和表达,用工程做约束和执行。 各干各的,不跨界。

三、效果说话:通过率从 84% 提到 99%

DolphinDB 用 20 个基准策略做了测试验证,覆盖从简到繁的主要策略类型:

图片

在引入分层 Prompt 和自动修复闭环之后,两种模型的测试结果更加直观:

  • DeepSeek V3.2:基准 84% → 优化后 99%

  • Qwen 3.5-plus:基准 93% → 优化后 100%

图片

核心结论很明确:工程架构是 AI 应用的兜底保障。强模型可能凭自身能力拿到不错的表现,但对绝大多数场景来说,单一的 Prompt 无法保证可靠性,系统级的校验和修复才是更有效的手段。

DolphinDB 下一阶段的目标是从"能跑通"转向"跑得稳"——目前已在推进 5 轮结果一致性校验,确保同一策略在多次执行中收益率、交易明细完全一致。品种覆盖上,当前已支持股票和基金,后续将持续扩展至国债期货、债券等更多品种。

四、不只量化回测,更是一种 AI 工程范式

回看这套方案的设计思路,最有价值的其实不只是"自然语言生成回测"这个功能,而是背后的工程范式:

自然语言 → 结构化中间表示 → 规则校验 → 确定性执行 → 结果复盘

让 AI 只做它擅长的事——理解和表达;剩下的校验、生成、执行,全部交给确定性的工程系统。这个思路不限于量化回测,报表生成、数据查询、风控规则配置——只要是需要 AI 输出精准可靠的企业场景,都可以复用这套架构。