Yunzenn

浙江杭州大学生求实习

赞

23

|

搜索文章

赞

文章( 23 ) 沸点( 0 )

第11章：长文本之战——Kimi如何突破200K+ tokens？

第11章：长文本之战——Kimi如何突破200K+ tokens？核心困惑为什么Kimi能处理200K+ tokens，而原论文的Transformer只能处理512 tokens？原论文的Tr

Yunzenn
3天前
4
1
评论

第11章：长文本之战——Kimi如何突破200K+ tokens？

第07章：FFN——Transformer的”知识存储”藏在哪？

第07章：FFN——Transformer的”知识存储”藏在哪？由于掘金格式识别错误，所以有些公式会显示错误或者消失，看完整内容可移步其他平台或GitHub，https://github.com/Y

Yunzenn
14天前
25
1
评论

第07章：FFN——Transformer的”知识存储”藏在哪？

第08章：训练的艺术——Warmup、Label Smoothing与Adam的共谋

第08章：训练的艺术——Warmup、Label Smoothing与Adam的共谋核心困惑为什么Transformer需要学习率warmup？Label Smoothing为什么有效？前面七章

Yunzenn
5天前
10
1
评论

第08章：训练的艺术——Warmup、Label Smoothing与Adam的共谋

第10章：MoE架构深度拆解——DeepSeek V3如何用671B参数达到GPT-4效果？

第10章：MoE架构深度拆解——DeepSeek V3如何用671B参数达到GPT-4效果？核心困惑为什么DeepSeek V3能用671B参数达到GPT-4的效果，但推理成本只有1/10？原论

Yunzenn
4天前
8
1
评论

第10章：MoE架构深度拆解——DeepSeek V3如何用671B参数达到GPT-4效果？

第09章：架构选择的分野——Decoder-only为什么赢了通用语言建模？

第09章：架构选择的分野——Decoder-only为什么赢了通用语言建模？核心困惑为什么GPT、Claude、Gemini都选择Decoder-only架构？Encoder-Decoder架构死

Yunzenn
5天前
10
1
评论

第09章：架构选择的分野——Decoder-only为什么赢了通用语言建模？

第04章：Multi-Head Attention——八个头，八个视角，还是八份低秩分解？

第04章：Multi-Head Attention——八个头，八个视角，还是八份低秩分解？由于掘金平台限制，完整版（含架构图和数学公式）请访问其他平台同名账号或： 📖 GitHub: https:/

Yunzenn
18天前
20
1
评论

第04章：Multi-Head Attention——八个头，八个视角，还是八份低秩分解？

第05章：残差连接与Layer Normalization——Transformer的"高速公路"

第05章：残差连接与Layer Normalization——Transformer的"高速公路" 核心困惑残差连接和LayerNorm各自解决什么问题？Pre-LN和Post-LN有什么区别？前

Yunzenn
17天前
19
1
评论

第05章：残差连接与Layer Normalization——Transformer的"高速公路"

第06章：Positional Encoding——正弦波是如何教会模型”数数”的？

第06章：Positional Encoding——正弦波是如何教会模型”数数”的？核心困惑为什么选择正弦函数？为什么不直接学习位置编码？ Self-Attention本身是位置无关的：Atten

Yunzenn
14天前
22
1
评论

第06章：Positional Encoding——正弦波是如何教会模型”数数”的？

零基础复现Claude Code（八）：反思与展望——我们得到了什么，还缺什么？

零基础复现Claude Code（八）：反思与展望——我们得到了什么，还缺什么？开篇：诚实的对照第7篇的成就：我们给Agent装上了"搜索能力"——它能在整个项目中找到相关代码，不再需要你明确指定

Yunzenn
19天前
27
1
评论

零基础复现Claude Code（八）：反思与展望——我们得到了什么，还缺什么？

第03章：Scaled Dot-Product Attention——那个√d_k到底在防什么？

第03章：Scaled Dot-Product Attention——那个√d_k到底在防什么？本系列包含12章深度技术文章，涵盖Attention机制、架构设计等核心内容。由于掘金平台限制，完整

Yunzenn
19天前
38
1
评论

第03章：Scaled Dot-Product Attention——那个√d_k到底在防什么？

个人成就

文章被点赞 24

文章被阅读 895

加入于

2026-04-21