从零打造生产级订单流(Orderflow)数据采集管道,一键开启量化回测之旅

8 阅读3分钟

在量化交易领域,数据质量往往决定了策略的上限。尤其是订单流(Orderflow)和逐笔成交数据,由于其体量大、实时性高,传统的手动爬虫方式往往很难做到稳定、持久的生产级采集。最近,我为了解决自己的量化数据需求,基于 Python 开发并开源了一套数据采集管道——QuantDataCollecter项目地址
如果你也在关注量化交易开发,或者正在寻找一套高效的数据采集方案,欢迎访问我的 GitHub 仓库进行测试、反馈或提出你的 Feature Request:
👉 GitHub 地址:rtheroyh/quantdatacollecter 项目亮点
这是一个轻量级但结构化的数据管道,旨在从原始逐笔数据直接映射为机器学习(ML-ready)可用的数据集。它的特点包括:

  • 生产级架构:  模块化设计,支持 Docker 一键部署,方便快速集成到现有策略系统中。
  • Pipeline 自动化:  实现了“原始数据采集 -> 结构化清洗 -> 落地存储”的全流程自动化,极大降低了数据工程的工作量。
  • 专注订单流:  专为需要微秒级或逐笔交易数据的量化需求而设计。

📊 Features & Data Architecture / 功能与数据架构

Data Collection / 数据采集

Data Type数据类型Description / 说明
TRADES逐笔成交Real-time trade executions with price, quantity, side
L2_BOOKL2 订单簿Top-K order book snapshots with depth metrics
LIQUIDATIONS爆仓/清算Forced liquidation events
FUNDING资金费率Funding rate history
OPEN_INTEREST持仓量Open interest over time

Pre-computed Features / 预计算特征 (50+)

These features are ready to use for research — no additional processing needed.

这些特征可直接用于研究 — 无需额外处理。

Category / 类别Features / 特征
Price / 价格log_return, co_return, hl_range, close_position, gap_return, price_acceleration
Volatility / 波动率realized_vol_5/20/60, vol_ratio_5_20, frac_diff_0.4/0.6
Volume / 成交量volume_zscore_20, volume_ratio_5_20, buy_ratio, delta_volume, avg_trade_size
Order Flow / 订单流VPIN_5/10/20, signed_sqrt_dollar_volume, kyle_lambda_approx, amihud_illiquidity
Order Book / 订单簿spread_bps, imbalance_top1/5/10, microprice_bias, depth_ratio_5, ob_quality
Open Interest / 持仓量oi_change, oi_change_pct, oi_zscore_20
Liquidation / 爆仓liq_imbalance, liq_intensity, liq_volume_pct
Time / 时间hour_of_day, day_of_week
Autocorrelation / 自相关autocorrelation_5/20

Labels for ML / 机器学习标签

Label / 标签Description / 说明
fwd_return_1/5/10/20/60Forward returns at multiple horizons
fwd_label_3class_5/103-class classification (up/down/sideways)
triple_barrier_signalTriple Barrier Method labels
mae_5/10, mfe_5/10Maximum Adverse/Favorable Excursion
label_threshold_5/10Volatility-adaptive thresholds

互动与展望
目前该项目仍处于快速迭代期,我计划后续加入 [例如:Binance WebSocket 支持 / 更多清洗算法 / 分布式采集] 等功能。开源的目的不仅是共享,更是为了与更多同行交流。如果你觉得这个项目对你有帮助,欢迎点个 Star 给作者一点鼓励!如果你有更好的架构建议,欢迎随时提交 PR,我们一起打造更专业的量化工具。