论文丢进 Claude Code：用 autoresearch 复现研究思路，从写代码到研究论文flash-moe（[2

flash-moe（[2]）若只被讲成「397B、token/s、Metal 推理」，主线容易被讲窄；更值得反复说的，是下面两件事——吞吐和机型等数字，后文再展开。

1｜论文指导 AI 编程，而且研究论文也是 AI 深度参与写成的成果
输入端：把 LLM in a Flash 这类论文当 规格与术语锚，交给 Claude Code 去落实现、跑实验。输出端：paper/flash_moe.pdf 把摘要、贡献和实验轨迹写成可核对的研究论文写法（多为 Claude Opus 4.6 撰写）。[2]
这条 「论文 → 代码 → 实验 → 论文」 的闭环，对我来说意味着：以后用大家常说的 vibe coding 去落地研究成果，门槛会低很多——论文不再只是读完就扔的背景，而是能驱动工程与写作的输入。[2]

2｜autoresearch：让 AI 自动探索实现、试错，一路试到稳定跑通
Dan 用 Karpathy 讨论的 autoresearch 思路，让 Claude 跑约 90 组实验，在 C / Objective-C + Metal 上自己试、自己修。[2][3] 人给 边界和论文锚，剩下是 假设—实验—复盘 被工具化：自动探索怎么实现、暴露问题、再改——也就是一路试到吞吐、稳定性、质量这些指标都到可用；论文里是从 0.28 → 5.74 token/s 这一路试出来的。这和「你手写每一步、人工拧每一个旋钮」不是同一种工作量。[2]

说明：「复现」指复现 方法链条（闪存侧推理、MoE 流式等）在 Qwen3.5-397B-A17B 上的落地；不等于逐表复刻 Apple 原论文在别机上的每一个数，须对照 [1] 与 [2] 自行核对。[1][2]

一、论文进、论文出：规格在左，可核对的文字在右

常见读法：论文是「读完再写代码」的前置材料。Dan 这边是：先把论文当 prompt——把 LLM in a Flash 交给 Claude Code，在 闪存侧推理 + MoE 稀疏激活 这条线上迭代，把论文里的问题落成可跑的验证。[1][2]

比起一句口头需求，论文指导编程的好处是：目标、约束、术语在一处，助手少猜、人少扯皮；论文在这里是代价模型和术语锚（带宽、连续读、DRAM 预算等，见 [1]），不是引用装饰。[1][2]

同一条链路上还有一层：研究论文——能不能从「能跑」进到「能写清、能核对」——让读者按文字去核对、质疑，而不是只盯一个 token/s。[2]

二、autoresearch：探索、碰壁、再迭代，直到稳定跑通

autoresearch 在这里不是名字摆设，而是把「实现—实验—发现问题—再改」卷进闭环：模型在环里既写实现也记实验，90+ 组实验记录的是 0.28 → 5.74 token/s 的轨迹，成功与失败都写——包括撤掉 9.8 GB Metal LRU、改信 OS 页缓存 这类反直觉转折。[2] 我读下来的感受是：目标可以给人定，但路上的坑可以让 AI 自己多踩几遍、多试几条路。[2]

侧证：纸面上，这套工程还跑出了什么（[2]）

下面这一段是工程结果，用来支撑「上面两件事不是空话」；细目与口径见 [2]。

结果：48GB 统一内存 MacBook Pro M3 Max 上，Qwen3.5-397B-A17B 约 5.74 token/s 可持续、7+ token/s 峰值；209 GB 整模自 NVMe SSD 经 parallel pread 流式读入（2-bit 专家重量化对应约 120 GB 体量，见论文表），常驻显存约 5.5 GB 权重。作者称，据其所知，首次在消费级硬件上以交互速度跑 超过 4× DRAM 容量 的模型。[2]

手段（摘录）：SSD 流式专家、激进 2-bit 重量化（每层约 0.001–0.003 RMSE）、Objective-C + Metal；融合三层 command buffer、GatedDeltaNet 等 BLAS；撤应用层缓存、交 macOS 页缓存，+38% 吞吐。[2]

论文里把贡献概括成四条：

整机推理引擎：Objective-C + Metal Shading Language，SSD 流式 397B，消费者笔记本上可交互。
MoE 专家 2-bit 重量化：单专家 7.08 MB → 3.93 MB（约 -44%），在数学推理、代码生成、科学解释等任务上验证输出质量。
融合 Metal GPU 管线：每层三条 command buffer、延迟专家调度，消掉 CPU–GPU 同步空转。
90+ 组实验的经验性分析，记录优化轨迹与失败路径。[2]

三、几组数字：想核对时从这里下手（[2]）

主线仍是上面两件事，这里只列读者常问的数。

与 PDF 摘要一致的核：

吞吐：约 5.74 token/s 可持续、7+ token/s 峰值（M3 Max）；90+ 实验轨迹上从 0.28 拉到 5.74。
规模与内存：209 GB 模型自盘流式；2-bit 专家重量化时整模约 120 GB；常驻约 5.5 GB 权重；每 token 激活专家 从常见 10 收到 4。
关键工程反直觉：去掉应用层 LRU、交 OS 页缓存 → +38%；9.8 GB Metal LRU 在论文里作为被撤掉的对照。[2]

GitHub README 与迭代 若与 PDF 不完全一致（例如早期 5.5+ token/s 口径、4-bit 档位 ~4.36 token/s、2-bit 影响 tool calling 等），以 [2] 最新说明为准。[2]

LLM in a Flash 里 windowing、bundling 等细节与 Dan 实现是否逐项对齐，请对照 PDF 与代码，本文不做「对应原论文第几节」的断言。[1][2]

四、三条线读法：方法论、工程、结论分开看

方法论：论文进、论文出 + autoresearch 自动探索 能不能脱离具体模型讨论——能；flash-moe 只是当前一例。[2][3]
工程：先看它是不是真的跑起来了，数字能不能在 GitHub [2] 对上。
结论：跑起来不等于全都成立；评测薄的时候，先当线索，别当定论。[2]

收束：最有迁移价值的，不是 397B 或 token/s，而是两件事是否成立：论文能否驱动 AI 编程并产出可核对文字；autoresearch 能否把探索与试错压进闭环。能不能推广，看团队是否真把论文当「活文档」、审查是否跟上。[2]

专栏批注：有趣指数（有趣的探索）

如果你问「这条材料好玩在哪」——下面是写给读者的有趣指数（分数只是栏目刻度）。

维度	分（1–5）	读来有趣的地方
N 认知新奇	5	论文→代码→论文与 autoresearch 自动探索是两条独立兴奋点；token/s 反而不是主菜。
X 跨界张力	5	文献规格、工程实现、自动实验、研究论文产出信息很多，但主线其实就两条：论文进、论文出和 autoresearch 自动试错。
S 叙事可讲性	5	两点主轴 → 分节展开 → 侧证数字；跟同事复述时，先讲它怎么做到（闭环 + 自动试错），再讲跑到了多少 token/s。
R 严谨可核查	4	主张落在 [1][2][3]；这篇是导读，不替实验结果背书；关键数据都给出处，读者可自行核对。
Z 时代相关性	5	直接指向 vibe coding 落地论文、智能体自动试错——比「又一个本地大模型」更贴当下讨论。
T 启发可迁移	5	不换同款模型也会想：换一篇论文、换一条探索闭环，「论文进、论文出」能不能复用。
A 表达与美学	4	主轴 vs 侧证分开，不易被工程数字带跑。
E 伦理与风险意识	4	主动提醒评测薄别外推、导读不替论文背书。

OI 综合分：84/100（★★★★☆）——趣味和信息密度偏上；主轴清晰，也留得出你自己去 GitHub 验货的空间。

参考文献与链接

K. Alizadeh et al., LLM in a flash: Efficient Large Language Model Inference with Limited Memory, arXiv:2312.11514. arxiv.org/abs/2312.11…
Dan Woods, flash-moe (GitHub). github.com/danveloper/… · PDF（GitHub paper/）: github.com/danveloper/… · X（原作者分享）: x.com/danveloper/…
Andrej Karpathy, autoresearch（GitHub）. github.com/karpathy/au…