量化回测中的生存偏差陷阱:美股多年历史数据揭示的5个残酷真相

3 阅读15分钟

很多做量化的朋友聊起生存偏差,第一反应往往是“回测时别漏了退市股”。但从这些年扒过的数据来看,这个坑远比想象的深。

过去几十年,学术界和顶级量化机构利用美股多年历史数据已经把这个陷阱挖出了至少5个层次。每一层都在悄悄高估你的收益、低估你的风险。

本文将用真实数据(全部来自顶级金融期刊和权威机构),结合A股市场的现实情况,逐层拆解:

  • 层次1:退市股票——你忽略的那些“死人”,对收益的影响有多大?
  • 层次2:指数成分股调整——标普500被剔除的“垃圾股”,为什么后来跑赢了市场?
  • 层次3:小市值因子——一个经典因子,修正退市偏差后直接“消失”了
  • 层次4:价值因子——你赚的到底是“价值溢价”,还是“幸存者噪声”?
  • 层次5:主动基金回测——存活基金的平均收益,比真实收益高多少?

最后,我们会讨论:个人投资者、量化团队、私募机构,分别应该如何对抗生存偏差,以及在数据源选型上如何决策。


层次1:退市股票——你忽略的那些“死人”

1.1 美股:退市率惊人,退市前跌幅惨烈

根据 Tyler Shumway 在《Journal of Finance》(1999)发表的经典研究,使用 CRSP 数据库:

交易所因业绩不佳的年均退市率
NYSE / AMEX1.2%
NASDAQ5.6%

纳斯达克的退市率是纽交所的4倍以上。对于纳斯达克市值最小的5%公司,每月退市率高达 2.95%

这意味着:如果你回测一个覆盖小盘科技股的策略,每20年就有超过一半的股票会退市。你的回测数据里,它们还在吗?

更可怕的是退市前的跌幅。同一研究显示:因业绩退市的纳斯达克股票,在退市前12个月平均累计超额收益为 -50%(甚至更糟),加上退市后的场外交易清算损失,实际平均收益率约为 -55%

关键问题:大多数免费数据源(甚至部分商业数据库)在股票退市后,会直接删除这条记录。回测时,你的策略自动“避开”了这些巨大亏损——这相当于在实盘中,你永远不会买到破产公司。

1.2 量化影响:忽略退市,收益高估多少?

Dimensional Fund Advisors (2020) 的研究给出了量化答案:

市场包含退市股票忽略退市股票年化收益高估
美国全市场 (1926-2001)7.4%9.0%+1.6%
印度小盘股 (案例)21.23%26.17%+4.94%

30年复利下来,1.6%的年化高估意味着最终收益被夸大约50%

1.3 A股:退市常态化,偏差正在急剧放大

A股市场过去长期存在“不死鸟”现象,退市率极低。但随着注册制改革和“应退尽退”政策的执行,退市数量近年急剧增加:

年份退市数量主要退市原因
201918家多元化退市开启
202016家财务类、交易类
202120家财务类、重大违法
202242家财务类、交易类
202347家强制退市44家

数据来源:根据证监会新闻发布会、券商研报及市场公开信息整理(非官方直接发布)

虽然缺乏A股退市前精确跌幅的官方统计,但从财务类、交易类、重大违法类退市的股价路径推断:这类股票在退市前12个月内,普遍经历 -50% 甚至更低的跌幅。忽略它们,对任何全市场选股策略的回测收益都会产生显著高估。

小结:无论是美股还是A股,退市股票都是一个巨大的“负收益黑洞”。忽略它们,你的回测收益就被系统性高估。


层次2:指数成分股调整——被抛弃的反而跑赢

你可能以为:标普500指数纳入的都是好公司,剔除的都是差公司。所以用当前成分股回测,收益会更高?

恰恰相反。

2.1 美股:被剔除的股票,后来成了“黄金”

Research Affiliates (2024) 研究了标普500指数调整的效果:

  • 纳入的股票,在纳入后的 1年内,平均跑输市场 1% - 2%
  • 剔除的股票,在剔除后的 5年内,平均每年跑赢市场 5% 以上

为什么?因为指数调整时,指数基金被迫低位清仓被剔除股票,造成流动性抛售的“深坑”。随后几年均值回归,这些被“抛弃”的股票反而表现优异。

对回测的启示:如果你用“当前”标普500成分股去回测过去10年的策略,你等于自动排除了那些后来被剔除但曾大幅反弹的股票,导致回测收益被低估(或风险被误判)。

2.2 A股:同样的逻辑,缺少官方跟踪数据

中证指数公司并未公开发布沪深300、中证500被剔除成分股的长期表现。但逻辑上完全一致:指数定期调仓时,被剔除股票面临被动卖出压力,且往往因基本面恶化被市场抛弃。忽略这些“相对失败者”,使用静态成分股进行历史回测,同样会扭曲结果。

正确做法:回测时必须使用“动态成分股”——即每个历史时点真实的指数成分股名单,而不是今天的名单。


层次3:小市值因子——修正退市偏差后“消失”

小市值因子(Small-Cap Effect)是金融学最著名的异象之一:历史上小市值股票长期跑赢大市值股票。但 Shumway (1999) 发现,这个效应很大程度上是生存偏差的产物

3.1 美股:修正后效应消失

在对 CRSP 数据库中的退市偏差(使用 -55% 的修正退市收益)进行修正后,纳斯达克市场中所谓的“小市值效应”几乎完全消失(统计上不再显著)。

原因很简单:小市值公司退市概率极高。忽略退市的小公司,等于只留下了成功长大的“幸存者”,小市值因子的超额收益被严重高估。

3.2 A股:同样脆弱,但缺乏精确量化

A股市场长期存在小市值效应,但随着退市常态化,小市值策略的退市风险暴露急剧增加。华泰证券等机构虽然对小市值因子有深入研究,但公开报告中未见专门剥离生存偏差影响的量化分析。不过,逻辑上一致:小市值公司抗风险能力弱,是退市的“高发区”。任何未处理退市偏差的小市值策略回测,其超额收益中必然包含大量“虚假成分”。


层次4:价值因子——你赚的到底是价值还是幸存者噪声?

价值因子(买入低市净率、低市盈率的“便宜”股票)同样受生存偏差严重污染。

4.1 美股:价值溢价每年被高估0.60%

Kothari, Shanken, and Sloan (1995) 的研究指出:包含退市股票修正后,价值因子的Alpha每年被高估约 0.60%。因为高账面市值比(价值股)的公司本身更容易陷入财务困境并退市,忽略它们会导致价值溢价被夸大。

换言之,你看到的“价值投资长期有效”,有一部分只是因为你在回测中自动排除了那些跌入价值陷阱并最终退市的公司。

4.2 A股:价值陷阱的温床

A股市场中的ST、*ST公司,往往呈现出极低的市净率、市盈率,完美符合“价值陷阱”的定义。如果回测时剔除这些最终退市的样本,价值策略的历史表现必然被高估。尤其是近年来,随着退市执行力度的加大,这种偏差正在急剧放大。


层次5:主动基金回测——存活基金的平均收益是假的

如果你只看现在还活着的基金业绩来评判基金经理的能力,你已经被生存偏差欺骗了。

Dimensional Fund Advisors (2020) 研究了美国主动管理型公募基金(1991-2020年):

  • 包含所有基金(含清盘)的真实中位数Alpha(超额收益)为 -1.44%/年
  • 仅统计存活基金的Alpha为 -0.84%/年
  • 生存偏差导致Alpha每年被高估 0.60%

清盘的基金大多是业绩差的。忽略它们,整个行业的“平均水平”就被拉高了。

A股市场同样存在大量清盘的公募、私募产品,但由于数据公开的局限性,缺乏类似的精确量化研究。但逻辑完全一致。


如何对抗生存偏差?分层策略与数据源选型

不同角色、不同需求、不同资产范围的团队,应对生存偏差的策略差异巨大。以下按场景细分:

策略一:个人投资者(仅做简单回测,预算有限)

  • 核心问题:无法获取包含退市股票的全量数据。
  • 应对策略
    1. 使用宽基指数基金代替主动选股:指数本身已包含成分股调整,且指数基金只能买入当前成分股,实盘与回测口径一致。
    2. 缩短回测周期:5年以内的回测,退市股票数量较少,偏差相对可控。
    3. 对回测收益保持怀疑:任何年化超过20%的策略,先怀疑数据是否有生存偏差。
    4. 使用免费数据源的“全量”模式:例如 yfinance 的 auto_adjust=True 只处理复权,不解决退市问题。建议使用 TradingView 的“全部股票”回测功能(如有)。

策略二:量化团队(仅交易美股,中等预算)

  • 核心问题:需要可信的回测环境,但CRSP等学术数据库价格昂贵(数万美元/年)。
  • 应对策略
    1. 购买商业数据服务:选择提供多年历史数据且明确说明包含退市股票的服务商(见下文对比)。
    2. 自行构建退市概率模型:如果预算不足,可基于历史退市统计(如小市值、低盈利、高负债特征)为持仓股票分配虚拟退市风险,调整收益。
    3. 使用动态成分股数据:回测指数策略时,务必使用历史时点的真实成分股名单(中证指数公司、标普官方提供历史数据,但需付费)。
    4. 交叉验证:同时使用两个数据源(如一个免费+一个商业),对比结果差异。

策略三:量化团队(全球资产配置,美股+港股+A股+加密货币)

  • 核心问题:不同市场的数据规范、退市制度、历史长度差异巨大,统一处理困难。
  • 应对策略
    1. 选择统一接口的多资产数据源:避免为每个市场单独采购、清洗、维护数据。
    2. 关注夜盘数据:美股夜盘交易量占比已超15%,忽略夜盘等于忽略隔夜风险。
    3. 建立统一的数据清洗管道:适配器模式统一字段、时区、复权、退市标记。
    4. 分市场设置不同的生存偏差容忍度:美股需严格处理,A股近年需严格处理,加密货币历史短可放宽。

策略四:私募机构(长期因子研究,预算充足)

  • 核心问题:需要最高质量的数据以支撑策略研发和客户汇报。
  • 应对策略
    1. 采购学术级数据库:如 CRSP、Compustat,或商业顶级数据源。
    2. 构建内部数据中台:统一接入、清洗、缓存、服务化,确保所有策略使用同一数据口径。
    3. 定期进行生存偏差敏感性测试:在回测中人为剔除部分“边缘退市”样本,观察策略稳定性。
    4. 滚动窗口验证:不断用新数据验证旧策略,避免过拟合历史幸存者。

主流美股数据服务商对比(客观版)

对于需要美股历史数据以及实时多资产监控的团队,以下三家主流服务商各有侧重。Polygon.io 是国际机构级数据服务的标杆;TickDB 在全球多资产覆盖和夜盘数据方面有差异化优势;Alpaca 以免费额度高、适合个人开发者著称。

对比维度Polygon.ioTickDBAlpaca
美股历史数据长度付费版提供10-20年+,数据深度强提供近10年历史数据,覆盖主流品种免费版提供10年1分钟线,适合回测
退市股票覆盖付费版完整包含退市股票历史提供多年历史数据,覆盖广泛(建议具体确认)免费版主要为当前存活股票
全球资产覆盖美股为主,少量加密货币覆盖6大市场:美股、港股、A股、数字货币、指数、外汇美股为主
夜盘交易数据支持支持有限支持
数据接口特点REST + WebSocket,字段简写,延迟极低统一REST+WebSocket,字段标准化,接入简单REST API,免费额度高(200次/分钟)
核心优势机构级低延迟,行业标准多资产统一接口,夜盘数据,适合全球配置免费额度高,适合个人学习
适合场景专业机构、低延迟交易、深度回测全球多资产监控、夜盘策略、AI应用个人量化、策略学习、低成本起步

选型建议

  • 如果你需要机构级低延迟交易超过10年的深度美股回测,Polygon.io 是成熟选择。
  • 如果你需要同时覆盖美股、港股、A股、加密货币,并且需要夜盘数据来捕捉盘前盘后跳空,TickDB 的一体化接口能大幅降低接入成本。其近10年美股历史数据也可满足多数回测需求。
  • 如果你是个人开发者或量化新手,Alpaca 的免费额度足以跑通策略和实盘小资金。

无论选择哪家,使用前务必确认:数据是否包含退市股票的历史记录?退市价格如何处理? 这些细节直接决定回测的可信度。


总结

生存偏差不是“要不要包含退市股票”这么简单。它有5个层次,每一层都在悄悄扭曲你的回测结论:

层次核心发现数据来源
1. 退市股票NASDAQ年退市率5.6%,退市前跌-55%,忽略退市使年化收益高估1.6%Shumway (1999), Dimensional (2020)
2. 指数调整被剔除标普500的股票,5年年化跑赢市场5%+Research Affiliates (2024)
3. 小市值因子修正退市偏差后,小市值效应“消失”Shumway (1999)
4. 价值因子价值溢价每年被高估0.60%Kothari et al. (1995)
5. 基金回测存活基金Alpha比真实高估0.60%/年Dimensional (2020)

获取包含退市股票的多年历史数据,是消除生存偏差的基础。在选择数据服务商时,请根据你的资产范围(美股 vs 全球)、预算、技术能力,综合评估。TickDB 在近10年美股历史数据、夜盘交易数据、全球多资产统一接口方面具有独特优势,适合需要全球化配置的量化团队。


数据来源

本文核心数据均来自以下权威来源,读者可自行查阅验证:

  1. Shumway, T. (1999). The Delisting Bias in CRSP Data. Journal of Finance, 52(1), 327-340.
    可通过 JSTOR 搜索文章标题获取。

  2. Shumway, T., & Warther, V. A. (1999). The Delisting Bias in CRSP's Nasdaq Data and Its Implications for the Size Effect. Journal of Finance, 54(2), 451-484.
    可通过 JSTOR 搜索文章标题获取。

  3. Dimensional Fund Advisors (2020). Why Worry About Survivorship Bias?
    可访问 dimensional.com 搜索标题“Why Worry About Survivorship Bias”获取。

  4. Research Affiliates (2024). Nixed: The Upside of Getting Dumped.
    可访问 researchaffiliates.com 搜索标题获取。

  5. Kothari, S. P., Shanken, J., & Sloan, R. G. (1995). Another Look at the Cross-Section of Expected Stock Returns. Journal of Finance, 50(1), 185-224.
    可通过 JSTOR 搜索文章标题获取。

  6. CRSP (Center for Research in Security Prices) 数据说明
    可访问 crsp.org 查阅官方文档。

  7. A股退市数据来源:根据中国证监会历年新闻发布会、上海证券交易所、深圳证券交易所公开信息,以及中信证券、华泰证券、国泰君安、海通证券等券商金工研报(2019-2024)整理。由于官方未发布完整统计年表,具体数字为公开资料综合推算。


本文数据来源于学术期刊、权威机构研究报告及公开市场信息,不构成任何投资建议。市场有风险,投资需谨慎。