上周 Anthropic 一口气发了 10 个面向金融服务的 AI Agent 模板——Pitch Builder、Earnings Reviewer、KYC Screener,直击华尔街场景。Claude Opus 4.7 在金融基准测试里也排到了行业第一。
大模型写代码的能力确实强,但在量化回测这个场景里,光靠大模型直接生成代码还不够稳。所以 DolphinDB 推出了「DolphinDB 策略回测 Agent」——用户用自然语言描述交易想法,系统自动理解策略、完成校验修复、生成 DolphinDB 回测代码并输出结果。
和一般 Agent 不同,它的核心不是让大模型写代码,而是走"AI 理解意图 + 工程保证执行"的架构路线。
一、AI 直接写回测代码,三个绕不过的坑
直接让大模型写回测脚本,会遇到三个躲不开的问题。
第一个坑:隐性约束太多了。 回测 DSL 涉及表结构、字段命名、因子订阅、回调函数、撮合模式、分钟频数据加载、复权处理——这些细节全部让模型自由发挥,策略越复杂越容易漏掉关键约束。实际测试中,模型的典型错误包括编造不存在的字段名(字段幻觉)、搞混内部变量命名规则、分钟频策略误用日频数据导致前视偏差。单靠优化提示词很难根治。
第二个坑:正确性没法自动判断。 语法对、能运行,不意味着逻辑对。日频数据和分钟频数据混用、因子计算时序错位——这些问题在回测脚本里很难自动化检测。出了错,你甚至分不清是用户描述的问题、模型理解的问题,还是代码生成的细节问题。
第三个坑:维护成本扛不住。 自由生成意味着风格不统一,没法做规则校验、版本对比和问题复盘。今天跑通的策略,换个说法再生成一次,可能就换了一套实现。
这三个问题指向同一个结论——让 AI 直接写代码的路走不通。所以 DolphinDB 做了一个关键决策:AI 不直接写最终代码。
二、让 AI 写"说明书",不写执行码
整套链路是这样的:
方案底层兼容 DeepSeek、Qwen 等多种模型,大模型的工作生成一份结构化的 JSON——一份"策略说明书",人能读懂,系统也能检查。以双均线策略为例,用户输入:
招商银行 5 日均线上穿 20 日均线买入,下穿时卖出,回测 2025 年 3 月到 2026 年 2 月。
系统生成的策略 JSON 如下:
{
"strategy_type": "signal",
"start_date": "2025.03.01",
"end_date": "2026.02.28",
"stock_pool": ["600036.SH"],
"frequency": "daily",
"initial_capital": 1000000,
"indicators": {
"ma5": "mavg(close,5)",
"ma20": "mavg(close,20)",
"golden_cross": "CROSS_(ma5,ma20)",
"dead_cross": "CROSS_(ma20,ma5)"
},
"buy_condition": [{"signal": "golden_cross && pos==0"}],
"sell_condition": [{"signal": "dead_cross && pos>0"}]
}
这份 JSON 比自然语言更精确,比自由代码更易检查。字段有 schema 约束,窗口函数放错位置会被校验层拦截,表达式里的变量引用可以自动校验。
围绕这套中间层,实际落地时还加了两个关键设计:
分层 Prompt。 按策略模式动态加载对应的规则描述——日频策略不需要了解分钟频的专属配置。Prompt 长度减少 40%,模型混淆率明显下降。
自动修复 + AI 迭代校验。 模型输出 JSON 后,系统先做确定性规则修复(标准化字段别名、日期格式、变量命名),对更复杂的语义问题(函数用法、字段引用、前视偏差),再把检测结果反馈给模型做第二轮修正。从"一次生成"变成"生成→校验→修复→再校验"的闭环。
校验通过之后,再由模板引擎确定性生成最终的回测脚本。用模型做理解和表达,用工程做约束和执行。 各干各的,不跨界。
三、效果说话:通过率从 84% 提到 99%
DolphinDB 用 20 个基准策略做了测试验证,覆盖从简到繁的主要策略类型:
在引入分层 Prompt 和自动修复闭环之后,两种模型的测试结果更加直观:
-
DeepSeek V3.2:基准 84% → 优化后 99%
-
Qwen 3.5-plus:基准 93% → 优化后 100%
核心结论很明确:工程架构是 AI 应用的兜底保障。强模型可能凭自身能力拿到不错的表现,但对绝大多数场景来说,单一的 Prompt 无法保证可靠性,系统级的校验和修复才是更有效的手段。
DolphinDB 下一阶段的目标是从"能跑通"转向"跑得稳"——目前已在推进 5 轮结果一致性校验,确保同一策略在多次执行中收益率、交易明细完全一致。品种覆盖上,当前已支持股票和基金,后续将持续扩展至国债期货、债券等更多品种。
四、不只量化回测,更是一种 AI 工程范式
回看这套方案的设计思路,最有价值的其实不只是"自然语言生成回测"这个功能,而是背后的工程范式:
自然语言 → 结构化中间表示 → 规则校验 → 确定性执行 → 结果复盘
让 AI 只做它擅长的事——理解和表达;剩下的校验、生成、执行,全部交给确定性的工程系统。这个思路不限于量化回测,报表生成、数据查询、风控规则配置——只要是需要 AI 输出精准可靠的企业场景,都可以复用这套架构。