在笔记本上跑 397B 参数模型：Flash-MoE 的工程奇迹（译+解读）ä¸å¥è¯æ»ç» ä¸ä¸ª

åæåºå¤ï¼ Flash-MoE: Running a big model on a small laptopï¼danveloperï¼
åä½èï¼ danveloper
éå¾æ¥æºï¼ åæä»åº

ä¸å¥è¯æ»ç»

ä¸ä¸ªçº¯ C/Metal æ¨çå¼æï¼å¨ 48GB ååç MacBook Pro ä¸ä»¥ 4.4 tokens/s çéåº¦è¿è¡ Qwen3.5-397B-A17Bââä¸ä¸ª 3970 äº¿åæ°ç MoE æ¨¡åãæ²¡æ Pythonï¼æ²¡ææ¡æ¶ï¼åªæ CãObjective-C åæ»å Metal shaderã

è¿äºä¸ºä»ä¹ç¸äº

å³é®æ°æ®ï¼

æ¨¡åå¤§å°ï¼397B åæ°ï¼MoE æ¶æï¼æ¯ä¸ª token åªæ¿æ´» 17Bï¼
ççå ç¨ï¼209GBï¼4-bit éåï¼
**èªå½¶**ï¼MacBook Pro M3 Maxï¼48GB ç»ä¸åå
è¦¤åº¦ï¼4.36 tok/sï¼4-bitï¼ï¼5.74 tok/sï¼2-bitï¼
ååå ç¨ï¼ä» ~6GBï¼å©ä½çç» OS é¡µé¢ç¼å

æ ¸å¿ææ¯æè§£

1. SSD ä¸å®¶æµå¼å è½½

MoE çç²¾é«å¨äºç¨çæ¿æ´»ââ512 ä¸ªä¸å®¶ä¸æ¯ä¸ª token åªç¨ 4 ä¸ªãFlash-MoE å©ç¨è¿ä¸ç¹ãæä¸å®¶æéçå¨ SSD ä¸ãæéå è½½ï¼

æ¯ä¸ªä¸å®¶çº¦ 6.75MBï¼ç¨å¹¶è¡ pread() ä» NVMe SSD è¯»å
Apple Fabric SSD å®æµé¡ºåºè¯»å 17.5 GB/s
çµææ¥èªè¬æç âLLM in a Flashâ è®ºæ
ä¸åèªå®ä¹ç¼åââç´æ¥ä¿¡ä»» OS é¡µé¢ç¼åï¼~35GBï¼ï¼å½ä¸ççº¦ 71%

è¿ä¸ªâTrust the OSâååæ¯æ´ä¸ªé¡¹ç®æåç´è¥¸çè®¾è®¡å³å®ãä»ä»¬è¯è¿ Metal LRU ç¼åãmalloc ç¼åãLZ4 åç¼©ç¼åââå¨é¨æ¯ç³»ç»é¡µé¢ç¼åæ¢ã

2. FMA ä¼åçåéååæ ¸

4-bit åéå + ç©éµåéä¹æ³çåå¾ªç¯ï¼ä» (nibble * scale + bias) * x éæä¸º fma(nibble, scale*x, bias*x)ãé¢è®¡ç® scale*x å bias*xï¼è®© GPU ç FMA ååä¸æ¡æä»¤å®æåéå+ä¹æ³ã**æé 12%**ã

3. æå Metal Shader

ä¸ç¨ä»»ä½æ¡æ¶ï¼å¨é¨æåï¼

4-bit / 2-bit åéåç©éµåéä¹æ³ï¼ååãSIMD è§çº¦ãå±äº«è¾å¥ç¼åï¼
èå SwiGLU æ¿æ´»
ä¸¤é RMS å½ä¸å
æ¹é GPU æ³¨æåï¼Q@K^T â softmax â scores@Vï¼
GPU RoPEï¼ä¸ Q åäº¤éå AÊT= å½ä¸åèåï¼
MoE åå¹¶ + æ®å·® + sigmoid é¨æ§ï¼èååæ ¸ï¼

4. å»¶è¿ GPU æäº¤

5. ä¸ºä»ä¹ä¸è½ GPU/SSD å¹¶è¡

å¨ Apple Silicon ä¸ï¼SSD DMA å GPU è®¡ç®å±äº«åä¸ä¸ªååæ§å¶å¨ãGPU çåéååæ ¸å·²ç»æå¸¦å®½è·æ»¡äºï¼~418 GiB/sï¼ï¼åªæå¾å°ç SSD DMA é½ä¼å¯¼è½ GPU å»¶è¿é£åãä¸²è¡æµæ°´çº¿ï¼GPU â SSD â GPUï¼ææ¯ç¡¬ä»¶æä¼è§£ã

ä»ä¹ææãä»ä¹æ æ

ææçä¼å

æ¹æ³	ææ
FMA åéååæ ¸	+12% tok/s
Trust OS é¡µé¢ç¼å	+38%ï¼å æèªå»ºç¼ååï¼
Accelerate BLAS çº¿æ§æ³¨æå	+64% æ³¨æåéåº¦
C BPE tokenizer	å¯å¨æ¶é´ 3500ms â 180ms
å»¶è¿ CMD3 æ§è¡	GPU/CPU éå

å¤±è´¥çå°è¯

æ¹æ³	ç»æ	åå
LZ4 ä¸å®¶åç¼©	-13%	è§£åå¼é > ç¼åæ¶ç
SSD é¢è¯»å	åé¶	DMA ææ¢ GPU 73%
æ¶åºä¸å®¶é¢æµ	-18%	å½ä¸çä» 25%ï¼æµªè´¹å¸¦å®½
mmap ä¸å®¶æä»¶	-5x	å·æ°æ®ç¼ºé¡µä¸æè¿å¤
dispatch_io	-70%	dispatch_data ç®¡çå¼é

æçè§£è¯»

1. MoE + Apple Silicon = æ¬å°æ¨ççæ°èå¼

2. âTrust the OSâçå·¥ç¨å²å¦

3. 2-bit çé·é±

2-bit éåæ´å¿«ï¼5.74 tok/sï¼ï¼ä½ä¼æ JSON ä¸ç "name" è¾åºæ \name\ï¼å¯¼è´ tool calling å®å¨ä¸å¯ç¨ãè¿è¯´ææç«¯éåä¸åªæ¯ âè´¨éå·®ä¸ç¹âââå®ä¼ç ´åæ¨¡åçç»æåè¾åºè½åï¼èè¿æ£æ¯ Agent æ¶ä»£æå³é®çè½åã

4. 24 å°æ¶ï¼ä¸ä¸ªäºº + AI

README éæä¸ªä¸ç»ï¼è¿ä¸ªé¡¹ç®æ¯ä¸ä¸ªäººå AI å¨ 24 å°æ¶åå®æçã7000 è¡ C æ¨çå¼æ + 1200 è¡ Metal shader + 90 å¤æ¬¡å®éªãè¿æ¬èº«å°±æ¯ AI è¾å©å¼åçä¸ä¸ªæåæ¡ä¾ã

å¯¹å¼åèçå¯ç¤º

å¦æä½ æ M3/M4 Macï¼å¯ä»¥è· 397B åæ°çæ¨¡åäº
ä¸è¦ç²ç®ä¼åââåéåä½ çç¶é¢ï¼è¿éæ¯ SSD I/Oï¼ä¸æ¯è®¡ç®ï¼
Apple ç âLLM in a Flashâ è®¾ææè·¯å¯ä»¥èµ°éï¼Flash-MoE æ¯å·¥ç¨éªè¯

é¡¹ç®å°åï¼github.com/danveloper/…

在笔记本上跑 397B 参数模型：Flash-MoE 的工程奇迹（译+解读）

ä¸å¥è¯æ»ç»

è¿äºä¸ºä»ä¹ç¸äº

æ ¸å¿ææ¯æè§£

1. SSD ä¸å®¶æµå¼å è½½

2. FMA ä¼åçåéåå æ ¸

3. æå Metal Shader

4. å»¶è¿ GPU æäº¤

5. ä¸ºä»ä¹ä¸è½ GPU/SSD å¹¶è¡

ä»ä¹ææãä»ä¹æ æ

ææçä¼å

å¤±è´¥çå°è¯

æçè§£è¯»

1. MoE + Apple Silicon = æ¬å°æ¨ççæ°èå¼

2. âTrust the OSâçå·¥ç¨å²å­¦

3. 2-bit çé·é±

4. 24 å°æ¶ï¼ä¸ä¸ªäºº + AI

å¯¹å¼åè çå¯ç¤º