在量化交易领域,数据质量往往决定了策略的上限。尤其是订单流(Orderflow)和逐笔成交数据,由于其体量大、实时性高,传统的手动爬虫方式往往很难做到稳定、持久的生产级采集。最近,我为了解决自己的量化数据需求,基于 Python 开发并开源了一套数据采集管道——QuantDataCollecter。
项目地址
如果你也在关注量化交易开发,或者正在寻找一套高效的数据采集方案,欢迎访问我的 GitHub 仓库进行测试、反馈或提出你的 Feature Request:
👉 GitHub 地址:rtheroyh/quantdatacollecter
项目亮点
这是一个轻量级但结构化的数据管道,旨在从原始逐笔数据直接映射为机器学习(ML-ready)可用的数据集。它的特点包括:
- 生产级架构: 模块化设计,支持 Docker 一键部署,方便快速集成到现有策略系统中。
- Pipeline 自动化: 实现了“原始数据采集 -> 结构化清洗 -> 落地存储”的全流程自动化,极大降低了数据工程的工作量。
- 专注订单流: 专为需要微秒级或逐笔交易数据的量化需求而设计。
📊 Features & Data Architecture / 功能与数据架构
Data Collection / 数据采集
| Data Type | 数据类型 | Description / 说明 |
|---|---|---|
| TRADES | 逐笔成交 | Real-time trade executions with price, quantity, side |
| L2_BOOK | L2 订单簿 | Top-K order book snapshots with depth metrics |
| LIQUIDATIONS | 爆仓/清算 | Forced liquidation events |
| FUNDING | 资金费率 | Funding rate history |
| OPEN_INTEREST | 持仓量 | Open interest over time |
Pre-computed Features / 预计算特征 (50+)
These features are ready to use for research — no additional processing needed.
这些特征可直接用于研究 — 无需额外处理。
| Category / 类别 | Features / 特征 |
|---|---|
| Price / 价格 | log_return, co_return, hl_range, close_position, gap_return, price_acceleration |
| Volatility / 波动率 | realized_vol_5/20/60, vol_ratio_5_20, frac_diff_0.4/0.6 |
| Volume / 成交量 | volume_zscore_20, volume_ratio_5_20, buy_ratio, delta_volume, avg_trade_size |
| Order Flow / 订单流 | VPIN_5/10/20, signed_sqrt_dollar_volume, kyle_lambda_approx, amihud_illiquidity |
| Order Book / 订单簿 | spread_bps, imbalance_top1/5/10, microprice_bias, depth_ratio_5, ob_quality |
| Open Interest / 持仓量 | oi_change, oi_change_pct, oi_zscore_20 |
| Liquidation / 爆仓 | liq_imbalance, liq_intensity, liq_volume_pct |
| Time / 时间 | hour_of_day, day_of_week |
| Autocorrelation / 自相关 | autocorrelation_5/20 |
Labels for ML / 机器学习标签
| Label / 标签 | Description / 说明 |
|---|---|
| fwd_return_1/5/10/20/60 | Forward returns at multiple horizons |
| fwd_label_3class_5/10 | 3-class classification (up/down/sideways) |
| triple_barrier_signal | Triple Barrier Method labels |
| mae_5/10, mfe_5/10 | Maximum Adverse/Favorable Excursion |
| label_threshold_5/10 | Volatility-adaptive thresholds |
互动与展望
目前该项目仍处于快速迭代期,我计划后续加入 [例如:Binance WebSocket 支持 / 更多清洗算法 / 分布式采集] 等功能。开源的目的不仅是共享,更是为了与更多同行交流。如果你觉得这个项目对你有帮助,欢迎点个 Star 给作者一点鼓励!如果你有更好的架构建议,欢迎随时提交 PR,我们一起打造更专业的量化工具。