《长窗口的“信噪比红利”:基于 DeepSeek 百万 Token 项目的三阶段量化研究》。
🔍 核心发现:
通过对 DeepSeek 百万 Token 基准的深度 复现与分析,发现长上下文中存在高达 25%-65% 的结构性噪音。盲目增加长度并不等于提升智能。
💡 我们的贡献:
提出一套 L1-L2-L3 三阶段数据净化框架 (Three-Stage Purification Framework):
L1 粗筛:剔除无效冗余。
L2 结构化:提取逻辑骨架。
L3 语义提纯:确立“有效认知基线”。
这套方法不仅解释了为何某些模型 在长窗口下表现衰退,更为未来的数据预处理提供了可量化的“信噪比”标准。
📄 资源获取:
请访问项目主页获取中英文pdf文章
🌐 项目主页: tpwang-lab.github.io
欢迎同行批评指正,共同推动长窗口研究从“拼长度”走向“拼质量”。
————————————————