这是《AI量化学习手记》系列的第一篇文章。在这个系列里,我会以学习者的视角,记录从零开始学AI量化的真实经历——踩过的坑、填过的土、试过的方法、翻过的车。不讲大道理,只分享真问题。今天这篇,是我入门3个月的真实复盘,希望能给同样刚起步的你一点参考。
引言:那个永远在“收藏”的我
2025年底,我被朋友拉进他的“量化小黑屋”——满屏跳动的K线、实时滚动的成交数据、角落里默默跑着的模型。
“这些都是AI在交易。”他说。
我盯着屏幕,脑子里冒出的第一个问题是:我一个文科生、数学停留在高中、编程零基础的人,能学会这个吗?
换作以前,我会立刻打开知乎,收藏几十篇“AI量化学习路线图”,买几本推荐的书,然后……就没有然后了。熟悉的循环:收藏从未停止,学习从未开始。
这一次,我决定换一种方式。不囤资料、不列完美计划,而是直接开始。每天下班后挤出2小时,用AI工具辅助我一步步往前走。3个月后,我竟然跑通了自己的第一个LSTM模型——虽然被朋友吐槽“拟合了噪音”,但这个过程让我彻底摆脱了“收藏家”的循环。
这篇文章就是我的“通关笔记”,分享给同样想入门、又怕坚持不下来的你。
一、入门三问:数学、编程、金融,到底要学到什么程度?
网上关于这个问题的说法五花八门:有的说“线代概率必须精通”,有的说“会用库就行”。其实,每个人的基础不同,根本没有统一标准。我是文科生,每天能挤出来的时间就2小时,必须找到适合自己的路。
我的答案是:不用等学完再动手,直接“干中学”。
设定一个具体目标,比如“用LSTM预测茅台第二天的涨跌”,然后直接开干。遇到数学问题就补数学,遇到编程问题就学编程,遇到金融概念就查金融。哪里卡住补哪里,不用一口气吃成胖子。
二、我的核心武器:用AI工具搭建学习体系
2.1 创建专属AI导师
我用的工具是DeepSeek。关键不是工具,而是提示词。这是我给自己写的“AI导师”提示词模板,分享给你:
## 角色
你是一位资深的AI量化导师,擅长用通俗易懂的方式指导零基础小白。你精通Python、机器学习、金融知识,但从不直接给答案,而是引导我思考和动手。
## 我的背景
- 文科生,数学停留在高中,编程零基础。
- 上班族,每天学习时间有限(2小时左右)。
- 第一个目标是:用LSTM预测茅台(600519.SH)第二天的涨跌。
## 你的任务
1. 帮我拆解这个目标,列出需要一步步完成的任务清单。
2. 每当我完成一个任务,告诉我下一个做什么。
3. 当我卡住时,不要直接给代码,而是解释原理,引导我尝试。
4. 定期帮我复盘,总结学到的知识点,避免碎片化。
## 对话风格
- 耐心、鼓励,但不过度夸奖。
- 多用比喻,少用术语。
- 随时准备解释我不懂的概念。
有了这个导师,我再也不用纠结“下一步该学什么”了。他会像项目经理一样,带着我一步步往前走。
2.2 NotebookLM:我的私人知识库
“干中学”有个天然缺陷:知识容易碎片化。今天学LSTM输入格式,明天学数据清洗,后天学回测评估……如果不整理,过两周就忘。
我用NotebookLM来解决这个问题。这是Google的一个实验性工具,可以创建多个笔记本,每个笔记本相当于一个专属知识库。
我的操作步骤:
-
创建一个“AI量化”笔记本。把所有能找到的资料都扔进去:下载的PDF书籍(比如Ernest Chan的《量化交易》)、收藏的博客文章、B站视频的文字稿、甚至自己写的笔记。
-
用DeepResearch功能挖掘权威素材。当我对某个概念(比如“三重屏障法”)一头雾水时,我会用以下提示词让AI帮我深度搜索:
请为我深度挖掘关于“三重屏障法(Triple Barrier Method)”的权威资料,要求: 1. 原始出处:找到提出该方法的论文或书籍(Marcos López de Prado)。 2. 核心原理:用通俗语言解释这个方法解决了什么问题,怎么做的。 3. 代码实现:找到高质量的Python实现(GitHub或知名博客)。 4. 社区评价:技术社区对该方法的真实讨论,正反面观点。 5. 学习建议:对我这样的初学者,应该学到什么程度?需要掌握哪些前置知识?
搜到的结果(论文PDF、博客网页、GitHub仓库)全部保存下来,上传到NotebookLM。
-
利用内置模型提问和总结。资料都放进去后,我再用以下提示词让AI提炼核心知识点:
你正在协助我处理一份关于“三重屏障法”的DeepResearch报告。请基于报告内容,提炼出以下信息,以便我存入Notion知识库: 1. 核心思想(一句话总结) 2. 解决的问题 3. 具体步骤/原理 4. 代码实现要点(关键函数或库) 5. 社区共识(正反面评价) 6. 学习优先级(对初学者的建议) 7. 相关前置知识清单 8. 延伸阅读推荐(1-2个)
这样一来,我不需要自己啃完整本书,就能快速获取核心知识点。而且因为是基于我自己的资料库回答,完全不用担心AI胡编乱造。
2.3 Notion AI:沉淀我的知识大厦
NotebookLM负责“查”和“快速学习”,Notion AI负责“存”和“体系化”。
我按照AI导师的建议,先在Notion里搭建了一个完整的知识框架。这个框架不是空架子,而是填充了每个学科最核心的20%知识点——这些知识点能覆盖80%的应用场景。
【数学篇】核心概念
| 核心概念 | 一句话说明 | 在量化中的应用 |
|---|---|---|
| 向量、矩阵运算 | 数据的基本表示,矩阵乘法用于特征组合 | 所有模型的基础(如因子加权) |
| 特征值与特征向量 | 矩阵分解的核心,用于降维 | PCA因子模型、风险模型 |
| 随机变量、期望、方差 | 描述数据的分布和不确定性 | 收益分布、风险评估 |
| 条件概率、贝叶斯定理 | 基于新信息更新信念 | 贝叶斯统计、贝叶斯优化 |
| 导数与偏导数 | 函数的变化率,梯度下降的基础 | 模型训练优化 |
| 链式法则 | 复合函数求导,反向传播的核心 | 深度学习训练 |
【编程篇】核心技能
| 核心技能 | 一句话说明 | 掌握程度 |
|---|---|---|
| Python基础:数据类型、列表推导式、函数 | 编程入门基础 | 能写简单脚本 |
| Pandas:DataFrame操作、groupby、时间序列 | 数据处理核心 | 必须熟练 |
| NumPy:数组运算、广播机制 | 科学计算基础 | 会用即可 |
| Scikit-learn:fit/predict、交叉验证 | 机器学习基础 | 理解流程 |
| PyTorch:张量、自动求导、构建简单网络 | 深度学习框架 | 按需学习 |
【金融篇】核心概念
| 核心概念 | 一句话说明 | 为什么重要 |
|---|---|---|
| 订单类型(市价/限价/止损) | 不同类型的交易指令 | 影响执行成本和滑点 |
| 买卖价差、流动性 | 市场深度和交易成本 | 高频策略的生命线 |
| 未来函数(前瞻偏差) | 回测中使用了未来数据 | 回测虚高的主要原因 |
| 幸存者偏差 | 只考虑存活股票导致的偏差 | 回测结果失真 |
| 过拟合 | 模型死记硬背历史数据 | 实盘崩溃的元凶 |
| 最大回撤、夏普比率 | 风险收益核心指标 | 评估策略好坏 |
【模型篇】常用模型
| 模型 | 一句话说明 | 适用场景 |
|---|---|---|
| 线性回归 | 最简单的预测模型 | 因子预测、收益率预测 |
| 随机森林/XGBoost | 树模型,非线性拟合能力强 | 分类问题、因子挖掘 |
| LSTM | 处理时间序列的循环神经网络 | 价格预测、波动率预测 |
| Transformer | 注意力机制模型 | 复杂时序依赖建模 |
| DQN/PPO | 强化学习模型 | 交易执行优化 |
这个框架不是一次性建好的,而是随着学习不断填充。每天学完后,我会花15分钟把新学的知识点填进对应的Notion页面。Notion AI还可以帮我自动生成复习卡片,提醒我哪些内容需要巩固。
三、数据获取:第一个绕不开的现实问题
路线图再完美,第一步就卡住了——数据从哪来?
我刚开始天真地以为,数据不就是一个API的事吗?试了一圈才发现,这里面的坑比想象的多。下面是国内主流数据源的详细对比,希望能帮你少走弯路。
| 数据源 | 核心优势 | 接入方式 | 注意事项 | 适用场景 |
|---|---|---|---|---|
| Tushare Pro | - 数据清洗极好,字段标准统一 - 覆盖A股全品类(股票、基金、期货、期权) - 提供财务数据、特色因子 | 1. 官网注册获取token 2. pip install tushare3. 在代码中设置token | - 需要积分(可通过注册、充值或贡献数据获取) - 普通用户每分钟请求限制 - 2025年8月曾发生近一周服务中断 | 基本面量化、需要高质量数据的回测、学术研究 |
| AKShare | - 完全免费,无需积分 - 覆盖极广,包括股票、基金、期货、宏观数据,甚至一些奇葩数据(如大宗商品库存) | 1. pip install akshare2. 直接调用接口(如 ak.stock_zh_a_hist()) | - 本质是爬虫,不稳定,随时可能因网站改版失效 - 速度慢,不适合高并发 - 实时数据延迟高(约500ms) | 盘后研究、另类数据挖掘、学习用途、免费替代方案 |
| Baostock | - 无需注册,直接可用 - 数据稳定性高,很少缺失或错误 - 提供财务报表和财务指标 | 1. pip install baostock2. 登录 bs.login() 后获取数据 | - 分钟级数据有限(只有最近几天) - 历史长度不足(部分数据只有几年) - 文档较少 | 中长期基本面策略研究、数据交叉验证 |
| JoinQuant | - 一站式平台,提供数据、回测、模拟盘 - 社区活跃,有很多现成策略 - 数据质量有保障 | 1. 官网注册 2. 在平台内直接使用(支持本地SDK下载) | - 2025年涨价后年费接近千元 - 本地使用有限制 | 新手快速上手、不想自己搭回测框架的人 |
| TickDB | - 30天免费试用,全品类数据开放 - 一套API覆盖A股、美股、港股、外汇、贵金属、指数、加密货币 - 数据质量高,有预处理(前复权、异常过滤) - 国内节点优化,延迟低 | 1. 官网注册获取API Key 2. pip install tickdb(SDK)3. 调用接口 | - 历史深度不如专业数据商(但日线足够) - 付费方案尚未公布(试用期先爽) | 个人开发者实盘、跨市场策略、从免费过渡到付费的场景 |
四、我的“干中学”实操全流程(供参考)
如果你也想试试这个方法,这是我的完整流程:
- 设定一个具体目标(我用的是:用LSTM预测茅台次日涨跌)
- 创建AI导师(使用上面的提示词模板)
- 搭建Notion知识框架(先建空架子,填充核心知识点)
- 启动NotebookLM素材库(把所有资料扔进去,用DeepResearch补充)
- 跟着导师开始干:
- 每一步遇到问题,先问导师
- 需要深入的概念,用DeepResearch搜权威资料,存入NotebookLM
- 学到的知识点,分类填充到Notion框架
- 每周复盘:让导师帮我总结本周学到的东西,更新知识框架
写在最后:最大的坑,是你自己
有位前辈说过一句话我印象特别深:
“我最大的错误是花了几个月在回测中完善策略,而不是尽早在模拟盘中向前运行。策略在历史数据上表现完美,是因为它在死记硬背。”
这句话提醒我:不要等到“准备好”再开始,因为你永远不可能准备好。与其花几个月囤资料、定计划,不如现在就动手,用AI工具辅助你边做边学。
如果你也对这套方法感兴趣,欢迎留言告诉我。文章里提到的AI导师提示词、DeepResearch提示词、Notion知识框架模板,我后续可以整理出来分享。
一起加油,从“收藏从未停止”到“学习真正开始”。
本文核心观点(速读版)
- 放弃“收藏式学习”,转向“干中学”:设定目标,用AI导师指导实操
- 用NotebookLM+DeepResearch搭建专属素材库,快速获取权威知识
- 用Notion AI搭建知识框架,沉淀核心知识点(数学、编程、金融、模型)
- 数据源对比:Tushare(质量好但需积分)、AKShare(免费但爬虫)、Baostock(稳定但数据有限)、JoinQuant(一站式但贵)、TickDB(新手友好,30天免费试用)
- 最大的坑是自己:别过度准备,尽早动手