2026 年了,如果你还在为了让 AI 读几份财报而痛苦地做文本切片 (Chunking)、向量化 (Embedding) 或者是折腾那个总是“断章取义”的 RAG 1.0 架构,那你真的该停下来看看了。
作为一名在比特世界堆算力、在原子世界投股票的“财富工程师”,我最近彻底重构了我的私有投研系统。这次我不打算 用任何传统 RAG 框架,而是直接利用 Gemini 3 Pro 的 300万+ 窗口物理压制,配合 MCP (Model Context Protocol) 协议,实现了真正意义上的 RAG 2.0 —— 全量语义映射。
为什么说 RAG 1.0 已死? 以前的 RAG 流程是 PDF -> 切片 -> 检索 -> 拼凑 Prompt。最大的坑在于:切片会切碎逻辑。 一张资产负债表跨了三页,切片物理边界直接导致 AI 无法建立完整的勾稽关系。现在,有了 Gemini 3,我直接把英伟达过去 10 年的年报全量塞进去,让 AI 直接“挂载”我的整个数据硬盘。
我在这次实践中啃下的三个硬骨头:
- 基于 MCP 的“逻辑勾稽”:我开发了一套 MCP Server 运行在我的 NAS 上。它不仅能把 PDF 喂给 AI,还能让 AI 直接查询我的 SQLite 数据库。当 AI 发现年报里的“存货”数字和数据库里的“发出商品”对不上时,它会直接报错。这种“跨源断言”才是审计的灵魂。
- 榨干 Context Caching 的性价比:100 万 Token 的重复查询以前是天价,现在利用 Gemini 3 的上下文缓存技术,我把重复研究一家公司的成本压到了几毛钱。这不仅是省钱,更让 TTFT (首字返回) 降到了 800ms 左右,极度丝滑。
- 具身 Agent 的自动化闭环:我集成了一个基于 Playwright 的自动化信披爬虫。AI 不再是被动等待我投喂,它会实时监控 SEC 和深交所公告,自动下载、自动去重、自动通过蒙特卡洛模拟跑估值水位,最后把分析简报推送到我的 Kindle。
在这个大模型能力趋同的时代,超额收益 (Alpha) 不再来自于模型,而来自于私有数据的主权化。
👇 我把这 3000 字的工程实录(含 Python 核心实现、Context Caching TTL 配置及爬虫去重算法)都整理在了个人博客里,欢迎硬核开发者交流: 🔗 xbstack.com/stack/dev/g…